Twitter передав шести університетам всю базу твітів з 2006 року

    
 
Кожен день в Twitter публікується 500 млн повідомлень. Такий масив інформації з персональними даними — справжня золота жила для дата-Майнінг. На базі твітів вчені вивчають патерни в людській поведінці, соціальні зв'язки, поширення інфекційних хвороб, фактори ризику для організму людини і багато іншого, пише червневий випуск журналу Scientific American.
 
Наприклад, дослідники з Microsoft розробили алгоритм, який по вмісту твітів вагітної жінки визначає ризик розвитку післяпологової депресії. Геологічна служба США відстежує твіти, щоб визначати епіцентр землетрусу .
 
До цих пір вчені були змушені працювати з дуже обмеженою вибіркою даних. Єдиною можливістю для пошуку по всіх твітів було звернення до стандартного Twitter API, а він дає доступ лише до 1% всіх повідомлень.
 
Але тепер Twitter повернувся обличчям до наукового співтовариства. У лютому компанія оголосила , що надасть їм для аналізу повну базу з усіма повідомленнями, починаючи з 2006 року.
 
У квітні Twitter повідомив про надходження понад 1300 заявок з 60 + країн на доступ до бази даних в наукових цілях, при цьому більше половини запитів надійшло з-за меж США. Після відбору кандидатів компанія вибрала шість університетів з чотирьох країн, яким погодилася надати інформацію.
 
Хоча доступ отримали лише обрані університети, але все одно це дуже позитивна новина. У майбутньому база стане доступна більш широкому колу дослідників, що може призвести до вибухового зростання кількості наукових робіт на основі дата-Майнінг твітів. Маючи більше даних, вчені можуть відстежувати більш складні і специфічні закономірності. Зрештою, база може потрапити і у відкритий доступ.
 
Правда, неминуче виникає ряд питань. Наприклад, чи отримає Twitter якісь права на результати наукових досліджень? Чи потрібно питати дозволу у користувачів на використання їх даних для дата-Майнінг?
 
Щоб заздалегідь домовитися про нюанси, група вчених з Політехнічного університету Вірджинії запропонувала Правила етичного використання даних Twitter, під якими можуть підписатися всі, хто збирається використовувати дані від Twitter. Серед іншого, правила містять заборону на публікацію імен користувачів і ніків, а також вимога відкрито заявляти про цілі дослідження. Автори документа вважають, що важливо домовитися про такі правила, перш ніж у пресі з'явиться безліч наукових робіт, зроблених з використанням цієї бази даних.
 
 
 Програма Maltego
 
Потрібно додати, що вже розроблені програмні інструменти, які прямо суперечать Правилам етичного використання даних Twitter, а саме — автоматично збирають дані про конкретних користувачів і організаціях. Серед таких програм — Maltego і Creepy .
    
Джерело: Хабрахабр

0 коментарів

Тільки зареєстровані та авторизовані користувачі можуть залишати коментарі.