Невізуальні методи захисту сайту від спаму. Частина 1. Статистика

Частина 1. Що говорить статистика
Невізуальні методи захисту сайту від спаму передбачають автоматичний аналіз надходять від відвідувача даних. Чим більше даних аналізується, тим повніше і точніше може бути визначений відвідувач і винесено рішення спамер він чи ні.

Системи, що аналізують такі дані, як правило, накопичують статистику даних відвідувача і винесених рішень. Вашій увазі пропонується короткий огляд статистичних даних, накопичених нами (сервісом захисту сайтів від спаму CleanTalk).


Тут я навмисно не наводжу даних аналізу IP-адрес з чорним списками. І без них можна отримати достатньо даних, аналізуючи вміст поля форм і HTTP-заголовків.

Мною будуть розглянуті дані по тексту повідомлення, ніку та адресу електронної пошти, а також HTTP-заголовків і результатами перевірки JavaScript-тесту.

Аналіз за наведеними показниками дуже простий алгоритмічно і не вимогливий до ресурсів, тому може використовуватися перед іншими, більш ресурсоємними перевірками.

Дані відображають реальну картину на момент написання статті і зроблені на основі аналізу нашого поточного трафіку (більше 2 000 000 запитів на добу). Дані можуть бути вільно використані при аналізі відвідувачів ваших сайтів. Хочу зазначити, що винесення рішення за кожним критерієм окремо не є вірним — кращий результат буде досягнутий при комплексному аналізі.

1. Текст повідомлення
Текст повідомлення — це, звичайно, головне в спамі. Отже, спамери будуть будувати свої повідомлення так, що за кількома критеріями вони будуть явно відрізнятися від звичайних повідомлень.

У таблиці наведені найбільш, з моєї точки зору, інформативні статистичні дані.

Параметри тексту повідомлення (середні значення) Не спам Спам
Кількість посилань, шт 1.47 4.27
Кількість контактів (телефон, e-mail), шт 1.72 6.38
Час заповнення форми, c 177 8
Відношення довжини повідомлення до часу заповнення, символи/с 23.81 308.54
Кількість посилань говорить сама за себе. Кількість контактної інформації також може сказати про спам. Час заповнення форми і, як наслідок, швидкість набору повідомлення різняться найбільш сильно.

2. Нік відвідувача
Нік також може сказати багато про що. Ймовірна причина — якість алгоритмів генерації ників, які використовують спамери.

Параметри ніка (середні значення) Не спам Спам
Довжина, символи 7.40 16.52
Кількість символів-роздільників, шт 1.89 3.80
Кількість цифр, шт 3.29 7.59
Довжина безперервної послідовності приголосних літер (латиниця), символи 3.61 5.90
Одне із завдань спамера — не наткнутися на помилку, що користувач з таким ніком вже є на сайті. Тому унікальність ників у даний час забезпечується, судячи зі статистики, в лоб — довжиною, вставкою роздільників і цифр. Як наслідок, трапляється багато ніків з великим числом стоять поруч голосних і приголосних, причому останніх більше.

3. Ім'я електронною поштою
Все сказане для ників справедливо і для імен в пошті.

Параметри імені e-mail (середні значення) Не спам Спам
Довжина, символи 10.09 19.16
Кількість символів-роздільників, шт 1.62 4.12
Кількість цифр, шт 4.30 9.57
Зауважу, що в якості символів роздільників часто використовуються точки — генерується рядок символів, потім в неї випадково додаються точки, виходить безліч поштових імен.

4. HTTP-заголовки
Спам-ботів підробляють свої заголовки, щоб не сильно відрізнятися від браузерів.
Однак, як показує статистика, це часто справедливо лише на момент написання бота. У подальшому він продовжує працювати і слати явно застарілі заголовки, що і видно в таблиці нижче.

Відсоток HTTP-заголовка User-Agent Не спам Спам
Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1) 0.01% 11.42%
Opera/9.80 (Windows NT 6.2; Win64; x64) Presto/2.12.388 Version/12.17 0.01% 10.84%
Готові спам-рішення також можуть залишати свої заголовки, зокрема, при використанні HTTP-проксі. І це також відображається в нашій статистиці.

Відсоток HTTP-заголовків Via Не спам Спам
Mikrotik HttpProxy 0.86% 33.07%


5. JavaScript-тест
Додаткової простою, але дуже ефективною перевіркою може виявитися JavaScript-тест. Наприклад, зміна JS-код потрібної куки, варіантів багато.

Найбільш просунуті (і дорогі) боти проходять JS-тести. Однак, як видно зі статистики, великий відсоток спаму йде від дуже простих програм, здатних на це.

Відсоток непроходження JS-тесту Не спам Спам
зміна куки через JS 0.41% 68.53%


6. Висновок
Я показав статистичні дані, накопичені нашою системою на даний момент. Повторю, для найбільш точного рішення спам/не спам потрібно аналізувати наведені показники комплексно, а також у поєднанні з іншими способами перевірок на спам.

Джерело: Хабрахабр

0 коментарів

Тільки зареєстровані та авторизовані користувачі можуть залишати коментарі.