Сеанс білої магії без викриттів або як я тролів в ЖЖ шукав

Пролог

Останні рік-півтора я відчував себе в ЖЖ як цей таксист. Вперше я зареєструвався в LiveJournal вже більше 10 років тому. Про фейсбук тоді напевно і Дуров не чув, а тут можна було об'єднуватися за інтересами, обмінюватися думками, писати корифеям типу Лебедєва. У мене сформувалася френдлента і я став помічати, що російський сегмент не так вже великий і в загальному-то все один одного знають. Року з 2011 приблизно ЖЖ став чахнути, двіжуха стала переміщатися в твіттер і фейсбук, а я став помічати що контингент коментують змінюється. Спочатку це було непомітно, але з минулого року я зловив себе на думці, що відкриваючи коментарі до посту, я задаюся питанням того самого бородатого відлюдника. Так і в пресі стали проскакувати статейки цікавого змісту.

Але особливої віри журналістам у мене немає, тому озброївшись Python, BeautifulSoup, psycopg2, matplotlib і PostgreSQL я вирішив провести власне міні-розслідування і заодно освіжити/придбати деякі навички.

вигляд і поведінка

Що таїти, я і сам любив іноді потролити, за багато досі соромно, але безцінний (ха-ха) досвід дозволив мені сформулювати основні ознаки троля:
  • Мало постів. Троль нічого не пише, він сргодується в чужих журналах і як наслідок у нього…
  • Мало отриманих коментарів.
  • Багато написаних в чужі журнали коментарів
  • Мало «зафрендивших» друзів. Троль заводить журнал не для спілкування, часто заради одного єдиного накиду.
Але ті, кого я шукав були не зовсім тролями.
Вони явно не були одинаками, схоже що вони діяли разом і у них було більше можливостей щодо маскування.
Вони могли писати осмислені пости і мати багато друзів, тому поки мій потворний скриптик смикав сторінки мобільної версії ЖЖ виділених мною топових блогерів, я ламав голову як потім обробити отримані дані.
  • Передбачалося, що велика кількість мурзилок повинно було з'явитися в короткий термін, тому для кожного юзера витягнули дата реєстрації.
  • Починаючи з якогось часу в ЖЖ ввели можливість коментувати через акаунти твіттер, фейсбук і інших сервісів. Бачачи як орди роботів в твіттері тягнуть в тренди все що завгодно, я вважав це підмножина юзерів перспективним.
  • Був придуманий «коефіцієнт мурзилкоподобия», який був ставленням написаних коментарів до отриманим. Цей коефіцієнт для ідеального троля повинен був прагнути до нескінченності, а для сферичного інтроверта очікувався рівним одиниці. Але все виявилося трохи дивніше.

Улов

Скрипт працював всі новорічні свята, консолі іноді виявлялися юзернеймы знайомих людей, іноді навіть вже пішли. Все-таки 10 років, це чималий термін…
За пару тижнів, зловивши три бана, вдалося розпарсити приблизно 11 тисяч постів, 2.3 мільйона коментарів, які залишили близько 90 тисяч юзерів не до всіх записів 7 топових блогерів. Негусто, і напевно близько 5% від того, що я хотів напарсить спочатку. Дамп бази даних можна скачати тут.
Настав час аналізувати дані. Першим ділом я вирішив вивести залежність «мурзилкоподобности» від часу реєстрації.
Мдаа...
Нормування, спроби розрахунку з впливом кількості власних постів, підбір вагових коефіцієнтів, все це не показувало ніяких аномалій і більше нагадувало спробу підгону рішення під відповідь. Глянемо для зовнішніх користувачів.
Хм...
Ну, цей стрибок цілком зрозумілий. Наприклад додали нові сервіси з яких можна авторизуватися.

Майже змирившись з тим, що натяку на докази немає, я вирішив наостанок побудувати графік простого відповідності дати реєстрації користувача його нинішньому кількістю друзів.
Он вони, голубчики


Так, я зібрав мало даних. Так, це не зовсім моя предметна область, що багато речей я робив вперше і міг помилитися. Так, я вже забув що таке коефіцієнт Стьюдента. Та й загалом-то це нічого не доводить.
Можливо, що юзери, реєструвалися в один день відрізняються більшою популярністю в блогосфері? Навряд чи. Пропоную подумати разом.

Замість епілогу

найсмішніше, що повністю графік виглядає так
Аномалія 2004 року крупніше.


Посилання на репозиторій. Не судіть код строго, дуже поспішав.
Особливу подяку за консультації в розслідуванні хочеться висловити моєму другові a11aud.
Як пояснити такі аномалії на графіках?

/>
/>


<input type=«radio» id=«vv64631»
class=«radio js-field-data»
name=«variant[]»
value=«64631» />
Що-то не так пораховано
<input type=«radio» id=«vv64633»
class=«radio js-field-data»
name=«variant[]»
value=«64633» />
На користувачів, що зареєструвалися в ці дні вплинув знак Зодіаку, фаза Місяця і Венери в другому будинку
<input type=«radio» id=«vv64635»
class=«radio js-field-data»
name=«variant[]»
value=«64635» />
Це неправильні тролі, боти або ще якась мережева нечисть
<input type=«radio» id=«vv64637»
class=«radio js-field-data»
name=«variant[]»
value=«64637» />
Інше

Проголосувало 69 осіб. Утрималося 47 осіб.


Тільки зареєстровані користувачі можуть брати участь в опитуванні. Увійдіть, будь ласка.


Джерело: Хабрахабр

0 коментарів

Тільки зареєстровані та авторизовані користувачі можуть залишати коментарі.