Для чого використовують TOR?

Вступ
Я не буду розводити параноїдальні казки про те, що NSA і ФСБ за всіма стежить. Просто візьмемо за базовий тезу, що tor і i2p — «наше все». На жаль, в контексті TORа часто можна чути тільки про silkroad і дитячу порнографію. Мовляв, розсадник, раскачивающий і покушающийся.

Я керую кількома tor-exit node'ами і i2p маршрутизаторами. Найстарішому з них вже майже рік, наймолодшому — приблизно 4 місяці. За цей час я не отримав жодного abuse report'а (я сам працюю в хостинговом бізнесі, так що добре уявляю собі процес реакції на «абузу» — вона в першу чергу надсилається клієнту). Щоб уникнути питань, мій роботодавець до них не має ніякого відношення: всі ці ноди — виключно за мій рахунок, у вільний від роботи час.

Не дивлячись на відсутність abuse'ів, питання залишалося: для чого люди використовують TOR?

Контроль над exit node'ой дозволяє подивитися на що проходить трафік. Зрозуміло, що ми виключаємо весь шифрований трафік (TLS, SSH), а так само весь трафік .onion вузли. Однак, серед іншого ми можемо подивитися на зразкову розподіл ресурсів по популярності.

Забігаючи вперед, злегка спрощений відповідь на питання статті:


(більш детальна табличка — в кінці статті)

Методологія виміру
Використовувалися дані з декількох exit nodes в Росії, Франції та Німеччини. Дані збиралися протягом тижня з допомогою pcap, наступною рядком:

while true;do tshark-i venet0-O http-Y http.request-T fields-e http.request.full_uri >>http_log7;rm /tmp/wire*;done

(tshark глючен і періодично падає, для цього while/true. Натомість він отримує URI з http-запитів в чистому вигляді)

Перед початком збору даних ноди «устоялися» приблизно за три тижні (з моменту останнього перезавантаження) і у всіх tor виїдав всю доступну йому смугу. Всього було записано 3.9 мільйони хітів, з них були викинуті js/css/ico/xml файли, залишилося 3.7 мільйона.

Аналіз
Я накидав простий скрипт: github.com/amarao/url_prober для аналізу.

Почнемо з простого — топ відвідувань, топ доменів і т. д. Оскільки ніякого трекінгу користувачів не було, єдине, з чим ми можемо оперувати — це число хітів.

Top10 самих відвідуваних сторінок (адреса, кількість, відсоток від загальної кількості):

cloud.tvigle.ua//img/zero_rkm_chk.gif 193330 hits, 5.73%
dmg.digitaltarget.ru/ 83905 hits, 2.48%
ib.adnxs.com/getuid 65007 hits, 1.93%
stat.tvigle.ua/track/ 42513 hits, 1.26%
asg.vidigital.ru/ 31966 hits, 0.95%
www.google analytics.com/__utm.gif 31259 hits, 0.93%
advombat.ua/api/id 23363 hits, 0.69%
x.ulogix.ua/match/digitaltarget 23040 hits, 0.68%
blurb.vidigital.ru/ 22726 hits, 0.67%
tags.bluekai.com/site/5400 22488 hits, 0.67%

Як ми бачимо, найбільш часті сторінки — службові і пов'язані зі спостереженням за користувачами рекламними мережами — нічого цікавого.

Далі йде top11 доменів з top'ом сторінок домену:

cloud.tvigle.ru (243405 hits, 7.21%)
cloud.tvigle.ru//img/zero_rkm_chk.gif 193330
cloud.tvigle.ru/api/player/46/ 18696
photo.tvigle.ru (116943 hits, 3.46%)
photo.tvigle.ru/resource/rf/flv_lst/232904/src.jpg 1696
photo.tvigle.ru/resource/rf/flv_lst/232899/src.jpg 1602
mc.yandex.ru (110897 hits, 3.28%)
mc.yandex.ru/watch/219670 15381
mc.yandex.ru/watch/27181436 15212
www.tns-counter.ru (107708 hits, 3.19%)
www.tns-counter.ru/V13a***R%3Ehttp://forum.kinomania.ru/showthread.php 792
www.tns-counter.ru/V13a***R%3Ehttp://brandcase.info/auto/index.php 153
ib.adnxs.com (91854 hits, 2.72%)
ib.adnxs.com/getuid 65007
ib.adnxs.com/ttj 14706
asg.vidigital.ru (79994 hits, 2.37%)
asg.vidigital.ru/ 31966
asg.vidigital.ru/1/3414/c/v/2 7688
bcp.crwdcntrl.net (44450 hits, 1.32%)
bcp.crwdcntrl.net/5/c=2962 22309
bcp.crwdcntrl.net/5/ct=y/c=2962 1377
www.google-analytics.com (44145 hits, 1.31%)
www.google-analytics.com/__utm.gif 31259
www.google-analytics.com/collect 11003
ad.adriver.ru (44087 hits, 1.31%)
ad.adriver.ru/cgi-bin/merle.cgi 22142
ad.adriver.ru/cgi-bin/rle.cgi 9378
stat.tvigle.ru (42514 hits, 1.26%)
stat.tvigle.ru/track/ 42513
htthttp://stat.tvigle.ua/track/ 1
vk.com (38796 hits, 1.15%)
vk.com/share.php 9811
vk.com/widget_community.php 9744
vk.com/al_photos.php 6214

Знову в топі суцільні баннерні мережі і трекери, за рідкісним винятком у вигляді vk.com (соціальна мережа) і tvigle.ru (онлайн-кінотеатр). Заради vk.com мені навіть довелося зробити top11, а не top10.

Так справа не піде. А що люди _смотрят_? Легенда говорить, що там повинен бути екстрімізм, суїцид, наркотики, котки, поркотики, дитяча порнографія, опозиціонери та інші заборонені речі. Що ж, top-метод не працює. Давайте вчинимо інакше:

Возмьем всі ресурси, на домени яких було хоча б кілька десятків звернень (наприклад, 10), виберемо з них приблизно 300 і зробимо по кожному з них вибірку сторінок, на які заходили хоча б кілька разів (більше 1). Візьмемо цих сторінок хоча б штуки 4 (для кожного підійшов домену), спробуємо класифікувати їх вручну. Це дасть нам статистичне уявлення про те, на яких сайтах бували користувачі.

Далі починається найцікавіше. Я вручну подивився цю 300 випадково відібраних посилань. Самі посилання, з мінімальною модерацією (забиті до и в разі клінічної небезпеки takedown'а) можна подивитися тут.

Пішло в мене на цей процес близько тижня. Завдання ця виявилася складніше, ніж здається, тому що як ви будете класифікувати бразильський сайт без англійської версії, присвячений незрозуміло чому? Плюс, ви не повірите, наскільки нудно отсматрівать сайти, які не цікаво. Спочатку я хотів зробити вибірку 500 сайтів, але на двохсотий сайті я повністю видихався, так що триста — це мій особистий героїчний подвиг. Не дивлячись на те, що отсмотренных результатів 300, це випадкова вибірка серед «відвідуваних» вузлів протягом тижня, причому нормалізована по домену — тобто короткочасні сплески популярності на вибірці не повинні були значно вплинути на результат.

Нижче наводяться результати класифікації. Вони можуть здатися занадто крупно згрупованими, але мені дійсно було не цікаво розбирати по категоріям різні інтернет-магазини тортиків і сумочок.

Повний посилань отсмотренного, разом зі скриптом для рандомно вибірки, викладений тут.
Категорія Відсотків
Порнографія звичайна 11.0%
Корпоративні сайти 11.0%
Інтернет-магазини 7.3%
Новинні сайти 7.0%
HTTP-based API 7.7%
Блоги, форуми, BBS 6.7%
Реклама і банерні мережі 5.7%
Фільми, відео (крім трекерів) 3.7%
Соціальні мережі 3.3%
Хостингові послуги 3.3%
Програмне забезпечення 3.0%
Спроби злому сайтів 3.0%
Автомобілі 3.0%
Хостинг зображень або файлів 2.7%
Ігри 2.7%
Сторінки для пошукових систем (SEO) і landing'в. 2.3%
Сторінки з інформацією різного (невинної) виду 2.3%
Спорт і подорожі 1.7%
Нерухомість 1.7%
Хобі 1.7%
Релігія та езотерика (включаючи сайти культів) 1.3%
Інше (goverment, dating, instant messaging, torrents, по 1 шт кожне) 1.3%
Музика та аудіокниги 1.3%
Сайти з malware і відверто шахрайські 1.3%
Сайти з вакансіями 1.3%
Дитяча порнографія 0.7%
Веб-пошта 0.7%
Сайти медичних організацій 0.7%
Освітні сайти 0.7%


Висновки

  • Велика частина інтернет-ресурсів (білою його частини), які відвідують через TOR не має під собою ніякої кримінальної складової і мало відрізняється від звичайного серфінгу.
  • Помітна частина трафіку присвячена питанням розмноження homo sapiens.
  • У білих інтернетах досі залишилося CP, але його частка у відвідинах — менше відсотка.
  • TOR може використовуватися і використовується для проведення атак на сайти
  • Наркотиків і нелегальних субстанцій, зброї, взывчатки і т. д. знайдено не було.
  • Політична активність в TOR'е майже відсутня.


Я трохи дивувався, навіщо люди використовують TOR для замовлення тортиків в інтернет-магазині, але колеги з роботи мені підказали, що деякі включають TOR на домашньому роутері і використовують його для всього», тобто через TOR проходить звичайний побутовий трафік домашнього користувача.

Повторю ще раз, в розрахунок бралися тільки http-трафік, на який ходять з exit-nodes. За кадром залишилися всі onion-сайти і не-http трафік в білий інтернет.

P. S. Якщо ви не використовуєте HTTPS, то будь-оператор exit-node може бачити весь ваш «білий» трафік, включаючи куки і паролі.

Джерело: Хабрахабр

0 коментарів

Тільки зареєстровані та авторизовані користувачі можуть залишати коментарі.