Порівняння аудиторій Хабрахабра, Гиктаймса і Мегамозка

Привіт, Хабр!
Рік тому я писав статтю про те, хто і як підписаний на Хабрахабр у соцмережі Вконтакте. Буквально в перших коментарях до того посту було висловлено побажання побачити різницю між передплатниками Geektimes і власне Хабра. Пройшов всього рік і я, поборів свою лінь, це бажання виконую.

Насправді у моєї повільності були і об'єктивні причини – у січні запустився Мегамозок, і стало очевидним, що порівняння треба робити по всім трьом сайтів. А для цього необхідно було почекати хоча б півроку з моменту остаточного поділу Хабра.
У цій статті не буде чергових статистичних викладок про те, в який день тижня пост на Хабре отримує найкращий рейтинг, а в який збирає мало коментів — про це вже все сказано задовго до мене. Зате під катом ми спробуємо зрозуміти, як відрізняються аудиторії «хабровых» пабликов по різним параметрам (від підлоги до ставлення до шкідливих звичок), і чи є зв'язок між поведінкою користувачів в VK і на самих сайтах.





Замість вступу

Для початку звернемося до предметної області. Що з себе представляють три колись єдиних сайту?
Якщо згадати пояснення творців, то коротко і дуже спрощено, специфіка кожного сайту така:
  • Хабрахабр (далі – ХХ) –для власне IT-шників
  • Гиктаймс (ГТ) – для гиків
  • Мегамозок (ММ) – для ІТ-управлінців


Як і чим відрізняються аудиторії цих сайтів? На це питання докладно можуть відповісти, мабуть, тільки співробітники TM. А ми подивимося на те, як відрізняються аудиторії однойменних пабликов у ВК.

Коротко про методику збору даних.
З допомогою VK Api були зібрані дані по всім передплатникам пабликов Хабрахабр, Geektimes і Мегамозок. Дані збиралися на кінець жовтня. Приблизно на цю ж дату з допомогою самопісного парсера (доступу до Хабр Api, на жаль, немає) були скачены всі (ну або майже все) доступні статті з цих сайтів.
У деяких місцях я посилаюся на статистичну значимість або незначимость відмінностей. Вона перевірялася за допомогою хі-квадрат критерію. Рівень значущості <0,05 (у тому числі для коефіцієнтів кореляцій).

UPD: Крім того, все ж повторю і тут свою цитату з минулої статті:
«Також, звертаю увагу, що досліджувана вибірка — аудиторія пабліка з соцмережі «Вконтакте». А це означає, що дані користувачів у ній періодично можуть змінюватися, вони можуть бути невірними або неточні. Тому коли я буду говорити «читачі Хабра складаються на 146% з 91-річних чоловіків з Острова Мен», це не істина в останній інстанції. Просто така інформація, зазначена користувачами в профілях.» І висновки, зроблені на основі даних передплатників Хабра в VK, звичайно ж не обов'язково будуть справедливі для всіх хабражителей на самих сайтах.


По-перше, необхідно зрозуміти, як перегукуються аудиторії пабликов. Для урочистості моменту наведемо діаграму Венна з дотриманням масштабу:

Таблиця перетинання аудиторій пабликов
Хабрахабр Гиктаймс Мегамозок
Хабрахабр 517 553 - -
Гиктаймс 31 309 45 603 -
Мегамозок 11 162 7 034 13 470
Загальне перетин (користувачі, підписані відразу на всі три пабліка) – 6 481

Бачимо цілком логічну картину. Оскільки ГТ ММ і є «нащадками» самого Хабра, вони поки що не можуть змагатися з ним ні за розміром аудиторії в цілому, ні навіть за відносною кількістю «унікальних» передплатників.
Під «унікальними» передплатниками тут маються на увазі користувачі, підписані тільки на цей паблік і ні на один з двох інших. На малюнку вони виділені кольоровими областями, в той час як «неунікальні» — сірими.
Для того щоб найбільш чітко виділити відмінності аудиторій пабликов, аналізувати ми будемо саме «унікальних передплатників», тобто сірі області на малюнку – відкидаємо. Приклад, чому це необхідно робити, наведено трохи нижче.
Отже, приступимо.

Пол

Не будемо оригінальними і першим же ділом подивимося на відмінності за статтю:


Інтерактивний варіант (де можливо, я буду наводити посилання на інтерактивні діаграми, бо вони більш наочні і приємні оку)

Найбільше дівчат в процентному співвідношенні серед передплатників Мегамозка – майже третину. Менше всього – в Гиктаймс (серед гиків рідше зустрічаються представниці «слабкої» статі?), а Хабр займає золоту середину. Причому ці відмінності статистично значущі.

Зверніть увагу, як відрізняється розподіл для унікальних і неуникальных користувачів: більшість передплатників ГТ і ММ – одночасно передплатники ХХ. Більшість передплатників ХХ – чоловіки. З-за цього починає спотворюватися і розподіл ознаки (в даному випадку статі) в інших аудиторіях. Саме тому ми аналізуємо лише унікальних передплатників.

В цілому, нічого несподіваного ми не побачили: серед «технарів» традиційно більше чоловіків. Мегамозок, мабуть найменш «технарский» проект з усіх, що зумовлює відносно високий відсоток дівчат.
З підлогою визначилися, на черзі вік.

Вік

Подивимося на розподіл відносної кількості передплатників за роками народження (значення до 1975 року коливаються близько 0, так що цю частину графіка відкинемо для наочності):

Інтерактивний варіант

У Хабра і GT досить плавні криві. Лінію Мегамозка «ковбасить» більше всіх – ймовірно, це відбувається із-за відносно малої кількості респондентів. Але навіть незважаючи на це, очевидно, що «пік» у Хабра припадає на більш солідний вік, ніж у його «дочірніх» сайтів, нехай і всього на пару-трійку років. Напевно, такі відмінності досить логічні. Хоча особисто я очікував, що у Мегамозка буде більш вікова публіка. Але, як відомо, мої очікування — це мої проблеми.

При цьому відмінності між ХХ і ГТ, ХХ і ММ – статистично значущі, а між ГТ і ММ – ні (що, загалом-то і так видно з рисунка). Цікавий так само сплеск активності в діапазоні 2000-2001 років, спостерігається насамперед у Хабра, йому пояснення я не знайшов. Сильного сплеску чисельності аудиторії «Вконтакте» цього року народження не спостерігається. Так що будемо сподіватися, що у молоді просто зростає інтерес до IT. Або ж це якось пов'язане з «дефолтними» віками при реєстрації в соцмережі.

Географія

Цього разу (на відміну від минулого дослідження) обмежимося країнами «великої четвірки» Хабра – Росією, Україною, Білорусією, Казахстаном. Країни дальнього зарубіжжя відкинемо, тому що навіть якщо країна в профілі користувача вказана правдиво (самі пам'ятайте, що іноді вказують у графі «країна» хабравчане), то переважна більшість користувачів таких країн – емігранти з пострадянського простору. Залишаються країни колишнього СРСР. Їх ми теж враховувати не будемо, тому що вони не дають скільки-небудь значимого (а іноді і зовсім ніякого не дають) числа унікальних передплатників для Мегамозка.
Зрештою, близько 92% передплатників припадають саме на чотири вищеназвані країни, так що багато чого ми не упустимо. І ось так виглядає розбивка «нормованого числа передплатників з них:


Інтерактивний варіант

Якщо ви пам'ятаєте, в минулому році захабренной країною стала Білорусь. Вона і зараз не втрачає свого, але тільки щодо Хабрахабра. У той час як дочірні проекти цікаві, насамперед, користувачам з Росії. Замикає четвірку Казахстан, крім випадку з Мегамозком, де третє місце вирване у впертій боротьбі у України. Але ММ взагалі спостерігається саме рівномірний розподіл.
Найбільш різкий спад інтересу до дочірнім пабликам спостерігається в українських користувачів. На Україні менше цікавляться тематиками цих ресурсів, або за минулий рік користувачі з цієї країни стали рідше підписуватися на паблики VK. Перевірка першої гіпотези виходить за рамки нашого дослідження, а ось другу легко спростувати — досить поглянути на темпи зростання передплатників Хабрахабра за минулий рік (з часу минулого дослідження) в розбивці по країнам:


Інтерактивний варіант

Як ми бачимо, всі країни «великої четвірки» показали однаковий зріст, за винятком Казахстану, який тут у однозначних лідерів.

Внз

Статистики по внз в цей раз не буде, вибачте. І ось чому: як ви пам'ятаєте, ми дивимося тільки унікальних користувачів. Але поділ по вузам розбиває передплатників на занадто малі групи. Настільки малі, що навіть для ГТ (не кажучи вже про ММ) часто не залишається унікальних користувачів. З-за цього вузу може бути присутнім у списку вузів передплатника Хабра, але буде відсутній в списку для ГТ. Що буде створювати помилкове враження, ніби студентів/випускників цього вузу Geektimes зовсім нецікавий.
Зрозумілий приклад. Є такий вуз, а вірніше факультет вузу — ФСПО ІТМО. З нього 30 осіб підписані на Хабр і 5 чоловік на Geektimes. При цьому всі підписані на ГТ підписані на ХХ. Як результат – кількість унікальних передплатників ГТ — 0. Що з таким вузом робити? Ігнорувати? Включати в статистику з особливою позначкою? Аналізувати з неунікальним користувачам? Загалом, дуже багато запитань, а цінність порівняння сумнівна. Так що якщо когось цікавить статистика по конкретному внз – звертайтеся, выгружу.

Шкідливі звички

У відношенні до куріння і алкоголю передплатники висловлюють дивне байдужість, навіть нецікаво:

Інтерактивний варіант


Інтерактивний варіант

Правда, можна помітити, що мегамозговцы до шкідливих звичок належать трохи більш лояльно. Мабуть, робота нервова :) Але насправді це все не значущі відмінності.

Політичні погляди

А ось відмінності в політичних поглядах виявилися значущими:


Інтерактивний варіант

Найбільш небайдужими, ліберальними (але і консервативними!) виявилися передплатники Мегамозка. А найменш і найбільш помірними – «гіки» і хабравчане відповідно.

Сімейний стан

Ще більш цікаві і відмінності в справах любовних.
«Вконтакте» надає кілька варіантів відносин, у яких перебуває користувач. Ми їх трохи скомпонуємо, щоб було наочніше і зручніше:

Таблиця відповідності статусів сімейного стану
Статус для аналізу Статус ВК
Є партнер Є партнер
В шлюбі
Заручений
Закоханий (так, можна бути закоханим без відповіді, але не будьте занудами)
Немає партнера Немає партнера
В активному пошуку В активному пошуку
- Все складно
Статус «все складно» виключимо – його складно трактувати, так і обрало його всього 3,2% передплатників.
До того ж розділимо респондентів за статевою ознакою. І отримаємо цікаву картину:


Інтерактивний варіант

По-перше, у всіх пабликах дівчата більш успішні в пошуку другої половинки, ніж хлопці (причому статистично значимо).
А тепер подивимося на кількість передплатників без другої половинки. Сумарно статуси «вільний» і «в пошуку» дають приблизно однакові результати для всіх пабликов. Але при цьому хабравчане майже вдвічі «сміливіше» своїх колег і активно шукають другу половинку. Будь-який коментар на цей рахунок виглядає плоскою жартом, навіть якщо це було сказано всерйоз. Так що залишимо без коментарів. Ну а дівчатам-подписчицам Мегамозка, судячи з усього, і так добре, навіть якщо вони і самотні.

Зв'язок між ВК і сайтами (лайки, рейтинги, ось це все)

Наступним кроком хотілося б пов'язати поведінка користувачів в ВК і на самих сайтах. Відразу обмовлюся, що ми будемо розглядати тільки дані за 2015-й рік. По-перше, тому що саме на початку цього року відбулося остаточне розділення на три різних сайту. А по-друге, я не впевнений, що творці Хабра хотіли б, щоб публікувалося порівняння показників, наприклад, кількості переглядів. Особливо в розрізі років.

У записів в VK ми будемо розглядати три основних числових показника:
  • Кількість лайків
  • Кількість репостов
  • Кількість коментарів


У постів на сайтах показників трохи більше:
  • • Рейтинг
  • • Перегляди
  • • Коментарі
  • • Вибране
Але, звичайно ж, крім перерахованих вище, існує ще ряд факторів, які можуть впливати на показники постів. Частина з них описувалася в інших статтях по тематиці (день, в який опублікований пост, наприклад), частина потребує більш глибокого аналізу, який виходить за рамки даної статті, тому ми не будемо намагатися врахувати. Адже у нас немає завдання побудувати регресійну модель, ми просто хочемо подивитися на зв'язок показників між собою.
Але як мінімум ще один фактор ми повинні врахувати, а саме – дата публикації. Адже з плином часу кількість передплатників може зростати, а це, в свою чергу, може впливати на кількість репостов і лайків (більше передплатників – більше лайків). Тоді ми не можемо просто порівняти запис, створену 1 січня 2015-го з записом від сьогоднішнього числа — нам необхідно буде так само враховувати наскільки більше лайків ставлять сьогодні.
Для початку визначимося з зміною числа передплатників за 2015-й рік. В цьому нам допоможе старий-добрий веб-архів, за допомогою якого ми зможемо знайти кілька значень числа передплатників кожного пабліка для декількох різних дат. Відобразимо ці точки на графіку:


Ми бачимо, що швидше за всіх у відносному вираженні зростає аудиторія Мегамозка (недалеко від нього Гиктаймс), а найповільніше – Хабр. Це цілком логічно, враховуючи вік пабликов – молоді паблики ростуть швидше.
Але головна хороша для нас новина полягає в тому, що зміна числа передплатників практично ідеально описується лінійною функцією. Не доведеться мучитися в подальшому, якщо захочемо врахувати вплив цього фактора. Найпростішою регресією ми можемо передбачити чисельність аудиторії будь-якого з пабликов на будь-яку дату в досліджуваному періоді.
Але доведеться враховувати цей фактор? Схоже, що ні:


Лайки досить рівномірно «розмазані» по всьому році. Виходить, що як не збільшується аудиторія пабліка, щедрішими на лайки і репости вона не стає.
До речі, зверніть увагу на «зазублини» знизу на розподілі HH. Це ті самі вихідні, про які стільки разів говорилося в оглядах статей Хабра – мабуть тому що статей виходить мало і хабражітелі стають щедрішими на рейтинг. Ця закономірність певною мірою перекочувала і в соцмережу. Але тільки для Хабра — на інші паблики, як видно з графіків, вона не поширюється. Це підтверджується коефіцієнтами кореляції величин «кількість записів у день» і «середня кількість лайків».
  • Хабрахабр -0.455
  • Гиктаймс -0.237
  • Мегамозок -0.169


Тепер, коли ми прояснили питання з найбільш очевидними залежностями, хочеться подивитися, як йдуть справи з іншими показниками. Для цього побудуємо кореляційні матриці для кожного пабліка. Але будемо пам'ятати, що кореляція говорить про тісноту зв'язку, але в загальному випадку не дозволяє встановити причину і наслідок. Для наочності відобразимо матриці в наступному вигляді:



Як ми бачимо, ситуація приблизно однакова для всіх пабликов. Серйозні відмінності є тільки в залежності показника «вибране» від лайків і репостов. У Хабра зв'язок досить явна, в інших значно слабкіше.
Слід також відзначити практично лінійний зв'язок лайків і репостов, хоча це було досить очікувано.

Від дня року (і, як наслідок, від кількості передплатників) нічого не залежить. Зате спостерігається досить сильна кореляція між переглядами статті та її рейтингом/кількістю додати в обране. Що цілком логічно – погану статтю навряд чи будуть багато переглядати, а хорошою статті, написаної для малої аудиторії, не набрати дуже багато плюсів.

Лайки і репости з ВК слабо пов'язані з рейтингом, проставляемом на сайтах (зате у Хабра і ГТ вони не сильно, але корелюють з кількістю статей). Це, власне, один з головних висновків порівняння. Виходить, що аудиторія хабропабликов у Вконтакте і аудиторія на сайтах не надто сходяться в оцінці постів.
Цікаво, що кількість коментарів на сайтах і кількість коментарів до ВК дуже слабо залежать один від одного, хоча і покликані служити однієї і тієї ж мети – обговорення статті. Ще одне підтвердження різного поведінки юзерів в VK і на самих порталах.

Замість висновку

Можна довго сперечатися, чи поділ Хабра виправдано і з якою метою воно робилося, але вже зараз, через трохи менше року, починають проявлятися відмінності між аудиторіями трьох різних сайтів (або, принаймні, їх пабликов). Підводячи підсумок, можна сказати, що поступово і Гиктаймс і Мегамозок починають жити своїм власним життям, набираючи свою унікальну аудиторію. Хоч поки і незрівняну за кількістю з аудиторією свого «тата». Як поділ позначилося на житті самого Хабра — інше питання, що виходить за рамки даного поста.

На цій філософській ноті і закруглимся. До нових зустрічей, якщо таким судилося бути. І пам'ятайте, що статистика – лише третій вид брехні:)

P. S. Я вибачаюся, що запостив так само в хабі VK Api, а ніякого коду не навів (тривіальний). Але наскільки я бачив, тут деколи бувають такі статті. Думаю, це цілком підходящий паблік для поста, присвяченому обробці даних, добутих з VK.

Джерело: Хабрахабр

0 коментарів

Тільки зареєстровані та авторизовані користувачі можуть залишати коментарі.