Граф цитування статей Хабрахабра

Одного разу, мені стало цікаво: наскільки статті на Хабре пов'язані між собою? Тому сьогодні ми займемося дослідженням зв'язності статей, і звичайно не тільки порахуємо чисельні показники, але і побачимо картину цілком.

(це не просто картинка для привернення уваги, а граф цитування статей всередині Хабрахабра, де розмір вершин визначається кількістю вхідних ребер, i.e., "кількістю цитат всередині Хабра")
Почалося все з того, що в коментарях до статті про Хабра-граф і карму Tiberius і Loriowar озвучили ідею, фактично витаючу в повітрі: а чому б не глянути на граф цитування статтею всередині самого Хабра?


Ви запитували? Ми відповідаємо. Для того щоб розповідь не був розмахуванням рук, конкретизуємо розібрані питання:
  • Q1: Як виглядає граф цитування Хабрахабра і які в ньому хаби (hubs and authorities)?
  • Q2: Наскільки зв'язковим є співтовариство (граф цитування) і які в ньому кластери?
  • Q3: Як зміниться граф, якщо з нього прибрати самоцитування?
Під катом трафік. Всі картинки клікабельні.
Короткі пояснення по термінології:
Хаб — це вершина з великою кількістю вихідних посилань, а "авторитетний джерело" (authority) — вершина з великою кількістю вхідних посилань. Під зв'язністю ми будемо розуміти середнє число ребер припадають на вершину (входить або виходить). Самоцитування — це ребро, в якого обидві вершини з однаковим автором.
Граф цитованості статей (всередині Хабра)
Візьмемо граф з початку статті і уважно подивимося на кожен з кластерів і великі вершини. Мені вдалося виділити і позначити кілька цікавих "співтовариств" статей.



На жаль, пост номер один: habrahabr.ru/post/1 отримав багато вхідних по чисто технічних причин (недосконалість парсера), насправді на нього ніхто не посилався.
Інші кластери досить цікаві, наприклад, є ціла група історій IT в дусі: Грейс «бабуля COBOL» Хопер або цілий ряд статей з Тензорною Алгебри. Всього у нас 95 тисяч вершин і близько 50 тисяч ребер. Зв'язність дуже низька: на одну вершину в середньому припадає близько одного ребра і приблизно 60% усіх точок не пов'язані ні з однією іншою статтею на Хабре — див. велика щільна хмара навколо графа на останній картинці внизу.
Граф без самоцитирования
Як ми бачимо картинка істотно змінилася і ряд кластерів пропав. В цілому це відображає класичний сценарій, коли серія статей одного автора має високу зв'язність за рахунок посилань на всю серію в кожній статті.



Проте, ряд кластерів все-таки вижив. Подивимося на них уважніше.
"Народні" кластери
Три самих великих і цікавих кластера, які вижили — це переклад книги Passionate Programmer, KingPin та лекції Пітера Тіля. Відмінна командна робота, в тому числі і по документуванню серії! Це дуже цікавий і позитивний результат, він говорить про те, що співтовариство може скоординовано проводити досить велику і складну роботу, а так само підтримувати посилальну цілісність — знайшовши одну статтю, завжди можна витягти і знайти всю серію.



Карта хабів ака граф вихідних ребер
Ми вже подивилися на "авторитетні джерела", де вага вершини визначався вхідними ребрами, тепер ми можемо поглянути на вершини з великим числом вихідних ребер. І визначити — які ж у мережі присутні хаби.



Розглянемо ступінь впливу кожного з хабів, підсвітивши їх ребра.



Тепер уважно подивимося, що ж це за хаби?



Як ми бачимо в основному йдеться про постах з добірками цікавих матеріалів на самому Хабре. Наприклад, топом самого цікавого або матеріалами з пітона. Що безумовно логічно — найбільшим числом зовнішніх посилань мають каталоги, зберігають вихідні посилання (де ж цей мета-огляд усіх оглядів статей Хабра?).
Також цей граф підказує нам про велику любов спільноти до Python (і, треба сказати, небезпідставно).
Лідери за кількістю вхідних\вихідних цитат
Розглянемо інші пости (25+ посилань) без обліку вхідних і вихідних (тобто вважаємо граф неорієнтованим).



Всі статті в списку можна умовно розділити на каталоги (цікаві та корисні посилання по темі Х) і частини серії. Якщо уважно придивитися, то перші — це в точності наші хаби, а другі — authorities.
тобто статей, які б просто всі активно цитували на Хабре немає (принаймні цитують їх тут рідше, ніж статті серій).
Рейтинг цитування авторів
Також цікаво зібрати кількість цитат у статтях, що припадають на автора. При підрахунку і складанні рейтингу не враховувалось самоцитування (по цій темі буде окремий рейтинг).
Перше місце виявилося досить передбачуваним — причому з велиииким відривом.
Рейтинг цитування топ-301 alizar,743
2 marks,261
3 ilya42,202
4 MagisterLudi,202
5 lapyk,167
6 XaocCPS,144
7 SLY_G,131
8 frii_fond,127
9 grokru,124
10 dmitrykabanov,118
11 kichik,115
12 saul,101
13 itinvest,99
14 jeston,97
15 ValdikSS,95
16 Mithgol,83
17 andorro,76
18 UiDesignGroup,72
19 IT_invest,71
20 amarao,70
21 p-y-t-h-o-n,69
22 esetnod32,66
23 aleksandrit,66
24 azproduction,64
25 nokiaman,64
26 wiygn,63
27 NCNecros,62
28 FSBook,61
29 Boomburum,61
Рейтинг самоцитирования
Даний рейтинг цікавий насамперед тим, що дозволяє зрозуміти наскільки можна порівняти кількість цитат інших авторів з власним. В середньому ми бачимо, що число цитувань своїх статей перевершує число звичайних цитат. Також це говорить про суттєвий внесок у зв'язність графа цитування особистих статей.
Можна вважати це особистим внеском у зв'язність статей Хабра (автор даної статті навіть посів у цьому рейтингу 26-е (!) місце).
Рейтинг самоцитирования1 itinvest,541
2 SLY_G,526
3 MagisterLudi,469
4 1cloud,424
5 esetnod32,415
6 ptsecurity,410
7 maisvendoo,373
8 zag2art,365
9 ilya42,337
10 EvseyFaydo,302
11 lol_wat,270
12 frii_fond,264
13 1eqinfinity,258
14 alexzfort,229
15 XaocCPS,226
16 andorro,226
17 alizar,222
18 khizmax,218
19 Boomburum,196
20 Mithgol,188
21 Milfgard,174
22 eagleson,173
23 vedenin1980,168
24 OsipovRoman,161
25 CooperMaster,159
26 varagian,155
27 bbk,154
28 Irina_Ua,153
29 dmitrykabanov,133
30 Unrul,131
Відтворюваність та відкриті дані
Твердно впевнений, що будь-який результат досліджень повинен бути відтворюємо, повторюємо, а також доступний читачеві. Тому всі вихідні дані додаються до статті.
Посилання: граф цитування Хабрахабра, граф без самоцитирования (Gephi), а також дапм всіх статей Хабрахабра доступний тут (зібрано в 20-х числах травня 2016-го), як і велика кількість інших смачних і цікавих даних по Хабру, спеціально зібраних і очищених для використання (може непогано підійти, якщо пишете диплом або потрібні реальні текстові або (напів-)структуровані дані).
Висновки
  • Q1: Хаби — збірки цікавинок на Хабре, авторитетні джерела — серії статей, граф схожий на хмарку з кількома громадами і величезним поясом статей навколо без єдиної посилання (близько 60% всіх вершин)
  • Q2: Граф сильно розріджене — близько одного ребра на вершину, зустрічаються досить зв'язкові кластери — наприклад "Магія тензорною алгебри", підтримують зв'язність за рахунок того, що кожна стаття зберігає каталог всіх посилань серії
  • Q3: Без самоцитирования практично всі кластери пропадають, але залишається невеликий ряд "народних" кластерів, наприклад переклад книги KingPin, показує справжню командну роботу співтовариства.
Замість висновку
З любові до мистецтва: граф цитування без урахування ребер в якості ваги вершин

Джерело: Хабрахабр

0 коментарів

Тільки зареєстровані та авторизовані користувачі можуть залишати коментарі.