Аналіз статей Хабрахабр і Geektimes



Спочатку була ідея зібрати частотний словник слів Хабрахабр і Geektimes, але потім знайшла прекрасне: Детальний аналіз Хабрахабра з допомогою мови Wolfram Language (Mathematica) (перед переглядом цієї статті рекомендую пройти за посиланням), побачила різницю в результатах і вирішила зробити подібне для статей з Хабрахабр і Geektimes. В огляд не потрапили статті з подкастами та нестандартним оформленням (habrahabr.ru/article). Вийшов аналіз 170000 статей. Всі зображення клікабельні. Код Wolfram Notebook на github. Датасет на Яндекс.Диску.

Результати обробки даних
Аналіз хабів
Розподіл кількості хабів, в яких розміщена стаття:



Самі великі хаби за кількістю статей:



Якщо розглянути тільки унікальні статті (що відносяться тільки до одного хабу):



Граф зв'язків не робила, т. к. не збирала список хабів окремо.

Кількість статей в залежності від часу
В підписи до картинок згадано тільки Хабрахабр, але маємо на увазі і Geektimes теж.

Кількість постів за місяць:



За рік:



У хабі «Математика»:





Хаб «Космонавтика»:




Хаб «Хабрахабр»:




Кількість зображень (відео), використовуваних в постах в залежності від часу









І в окремих хабах:








Хмари ключових слів і окремих хабів
Ось тут функція WordCloud яке значення не передавай атрибуту WordOrientation (Random,{-Pi/4,Pi/4}) малювала все по-замовчуванню:




Хаб «Математика»:



Хаб «Програмування»:



Хаб «Java»:



Хаб «Open source»:



Хаб «Машинне навчання»:



Сайти, на які посилаються в статтях


Прибираємо Хабрахабр як джерело посилань:



У хабі «Математика» (без Хабрахабра як джерела посилань):



Хаб «Розробка під iOS»:



Хаб ".NET":



Коди, які приводять у статтях
Без SomeCode (якщо не вказано мова програмування):



У хабі «Алгоритми»:



В хабі «Програмування»:



У хабі «Налаштування Linux»:



У хабі «Машинне навчання»:



Частота зустрічальності слів







У хабі «Розробка під iOS»



У хабі «Розробка під Android»:



Частота вживання назв операційних систем в хабі «Open source»:



І на Хабрахабре/Geektimes:



Рейтинг і кількості переглядів постів, а також ймовірність їх досягнення певних значень




Середній рейтинг поста на Хабрахабре/Geektimes дорівнює 25.6067, а середня кількість переглядів 13487.2.

Математичне сподівання: {25.6067, 13487.2}

Середньоквадратичне відхилення: {35.9361, 28783.9}

Ймовірність, того, що пост набере певний рейтинг:



Ймовірність, того, що пост набере певну кількість переглядів:



Залежність рейтингу та кількості переглядів посту від часу публікації
































Залежність рейтингу посту від його обсягу



Середній обсяг поста на Хабрахабре/Geektimes дорівнює 5199 символів.

Ймовірність того, що пост з об'ємом не перевищує задану кількість символів набере рейтинг не менше заданого:



До речі з приводу частот слів. До використання Wolfram в Jupyter Notebook з допомогою бібліотек pymorphy2, nltk побудувала хмари слів по роках, але для меншої кількості статей. Брала 50 найбільш часто зустрічаються слів в статті (виключивши стоп-слова), а потім об'єднувала словники за всіма статтями за певний рік. Хмари побудовані в Tagul. КДПВ — це хмара слів для 2006 року. Для 2016-го:



Пости з максимальною кількістю
Зображень: "Огляд поштових клієнтів під Android, або як я поштовик вибирав"
Коментарів: "Як роздавати інвайт на Google+"
Рейтинг: "Робимо приватний монітор з старого LCD монітора"
Кількістю тегів: "Інформаційно-технологічні засоби практичного виживання соціальних спільнот в умовах відключення Інтернету в 2014 році"
Переглядів: "Зламати Wi-Fi… 3 секунди"
Кількістю відео: "DUMP-2016: відео всіх доповідей в одному пості. Безкоштовно. Без СМС"
Кількістю посилань: "Лженаука і аферисти. Фальшиві наукові журнали"
Тексту: "Створюємо клон Flappy Bird — Гра Bird"

Джерело: Хабрахабр

0 коментарів

Тільки зареєстровані та авторизовані користувачі можуть залишати коментарі.