Як ми відфільтрували ботів і знизили показник відмов з 90% до 42%

Кілька місяців тому у нас сильно зріс показник відмов по Google Analytics. Ми зробили стандартний набір дій, який рекомендують робити в Мережі: створили в аналітиці подання «без павуків і ботів» (настройка «Фільтрація роботів» в поданні), перевірили якість налаштування коду Analytics, перевірили і налаштували тривалість сесії і так далі. Все це зайняло час, але не дало результатів. Показник відмов у деякі дні перевищував 90%. При цьому якість контенту на нашому сайті або структура вхідного трафіку ніяк очевидним чином не змінювалася. Це просто «сталося відразу» і все. Оскільки нічого подібного описаного в Мережі я не знайшов, вирішив описати як ми знайшли і виправили проблему і знизили показник відмов до прийнятних 42-55%.

Наведу скріншот для ілюстрації вихідної проблеми:

image

Оскільки всі стандартні схеми результату не дали, довелося думати самим і шукати проблему. Analytics нічим не допоміг, і я почав перевіряти через Яндекс.Метрика. Загальні показники по Метрики були досить прийнятні (до 10% відмов). Прочитавши кілька статей про те чому відмови в Метриці можуть бути прийнятні, а в Analytics зашкалювати, стало зрозуміло де шукати проблему. Якщо коротко: Метрика вважає відмовами все відвідування, які тривали менше 15 секунд, а Analytics – все, після яких не було інших відвідувань сторінки. Таким чином я почав дивитися звіт по тривалості відвідувань в Метриці і Аналитиксе і зрозумів, що у мене нереально великий відсоток відвідувань з тривалістю 0:00 секунд, до 50% денних сеансів. Ще кілька прочитаних статей дозволили відкинути гіпотезу про не срабатывающем коді і ботах, які пробираються через фільтр Аналитикса. Ніяких ознак реферального спаму у мене теж не було.

У підсумку я просто відфільтрував в Вебвизоре відвідування з тривалістю 0:00 і вирішив спробувати знайти закономірність. Ось що я отримав:

image

Кожен «відвідувач» заходив зі своєї підмережі, з явно вказаними User Agent, дозволом екрану і операційною системою, тобто для Метрики і Analytics він ніяк не сприймався як бот.

image

image

Єдине, що його видавало це ритмічний характер відвідувань кожні 1 годину 1 хвилину і 0 тривалість перегляду. Я скинув скріншоти нашому сисадміну Андрію і попросив подивитися, що це таке, по логів сервера. Перший же ІРшник змусив нас здивуватися: до нас ходив хтось із підмережі Ліга.Закон.

є айпішнік за 4:56, зараз перевірю інші заходи
inetnum: 193.150.7.0 — 193.150.7.255
netname: LIGA-UA-NET2
remarks: LIGA ZAKON


Всього по логам знайшлося 43 IP-адреси, які зверталися до різних сторінках нашого сайту з різних провайдерів, з різними User Agent.

За RIPE нічого цікавого ми не знайшли, нічим не примітні IP зі звичайних підмереж. Крім того, що боти ходили з інтервалом 1:01 більше явно нічого спільного в них не було.

Весь знайдений список ми заблокували в iptables.

Протягом доби ми ще виловили кілька нових IP, накидали алгоритм автоматичної фільтрації подібного бот-трафіку на випадок, якщо після блокування одних ботів, їм на зміну прийдуть нові. Однак більше нікого подібного не знайшли. Було тільки пара цікавих User Agent, але нікого з інтервалом 1:01.

Ще через добу показник відмов по Google Analytics почав приходити в норму і різко впав з 89% до 42,75%.

На сьогодні, через майже тиждень після описаних подій, показник відмов тримається в прийнятних рамках 42-55%, загальну динаміку можна побачити на графіку. Там, де різке зниження — це ми відфільтрували ботів.

image

Гіпотези про те «що це було» у нас всього дві.

Перша, це хтось із нас неправильно налаштував якихось моніторних ботів. Ми один час гралися з різним софтом для перевірки стану сервера. Могли щось включити і забути. Недолік цієї теорії в тому, що я не пам'ятаю жодного сервісу, який би декларував що вони відправляють запити з різних підмереж на різні сторінки сайту з різних User Agent. Тому швидше за все це не так.

Друга гіпотеза: це якась невідома широкій громадськості форма бот-атаки, можливо спрямована якраз на підвищення показника відмов і, як наслідок, пессимізації в пошуковій видачі Google.

Якщо ви теж з таким стикався, буду радий коментарям. Якщо вам будуть потрібні більш докладні інструкції про те, як ми шукали і блокували, пишіть теж.
Джерело: Хабрахабр

0 коментарів

Тільки зареєстровані та авторизовані користувачі можуть залишати коментарі.