Вчені створили нейромережу, що розпізнає «п'яні» повідомлення в Twitter

У світлі поточних вихідних, важливо не забувати, що алкоголь і спілкування, разом складають не завжди хорошу комбінацію, навіть у зірок. Тим не менш, багато хто з нас повторюють цей досвід знову і знову. І цей досвід дав американським вченим (Набіль Hossain з приятелями з University of Rochester) цікаву ідею. У підсумку, американські вчені розробили нейронну мережу, здатну розпізнавати в Twitter пости написані в стані алкогольного сп'яніння. Крім того, отримана математична модель може визначати, де автори «п'яних» постів перебували в момент їх написання.
Про це повідомляє MIT Technology Review.



Для створення своєї нейромережі фахівці з University of Rochester протягом цілого року збирали твіти, в яких використовується специфічна «алкогольна» лексика. З цього набору, фільтрувалися всі твіти, які згадують алкоголь або пов'язаних з алкоголем слів, таких, як «п'яний», «пиво», «вечірка» і так далі. Аналіз близько 11 000 постів допоміг встановити, чи є автор повідомлення тим, хто п'є спиртне, і був твіт, написаний безпосередньо під час вживання напою. Це досить великий набір твітів для алгоритму машинного навчання.

Вчені також вирішили визначити, звідки користувачі найчастіше пишуть «п'яні» твіти.



Щоб зрозуміти, чи перебував автор посту будинку, аналізувався вживання специфічної «домашньої» лексики (наприклад, «диван» або «ванна»). Крім того, по можливості використовувалися дані геолокації. Для уточнення координат користувачів, були розроблені додаткові алгоритми, наприклад, було цікаво дізнатися, будинки користувачі, або де-небудь ще? Типові алгоритми включають в себе аналіз місць останнього повідомлення в інтервалі часу від 1 години ночі до 6 години ранку. Тим не менш методи мають свої недоліки і не високу точність.

Hossain з колегами розробили інший підхід. Вони склали список слів і фраз, найбільш ймовірно відправлених зі своїх будинків, таких як «Нарешті вдома!», або у ванні», «на дивані», «перед телевізором» і так далі. Дані твіти були вихідним набором даних для уточнення місця розташування людей, на основі яких нейромережею були сформовані власні моделі визначення людей вдома. Алгоритм уточнював, як місце розташування користувача будинку, корелює з іншими показниками, такими як місце останнього твіту вдень, наймасовішим розташуванням твіти, відсоток твітів з певного місця і т. п.

Спираючись на декілька показників, нейромережа значно підвищила точність. У підсумку Hossain і співавтори стверджують, що можуть визначати користувачів поза будинку з точністю до 100 метрів з імовірністю 80%. Це значно краще, ніж будь-яка попередня робота.

Разом, ці два методи дозволили команді розробити модель, коли і де люди п'ють. І вони використали це, щоб порівняти типові приклади пиття Нью-Йорку, і в приміській зоні округу Монро.

Дослідники роблять це шляхом ділення кожної області сітку з 100 х 100 осередків та маркування тих областей, де є твіти, пов'язані з алкоголем. Що дозволяє їм розробляти і порівнювати «теплові карти» вживання алкоголю для кожної області.

Також розрізняються твіти про тему пиття зроблених з домашнього місця розташування, від твітів в інших місцях. Намічаються точки продажу алкоголю в кожній області. Це дозволяє дослідникам вивчити взаємозв'язок між щільністю твітів, надісланих з різних регіонів у стані алкогольного сп'яніння і щільності продажу алкоголю.

Результати цікаві для ознайомлення. По-перше, Hossain зазначив, що більш висока частка твітів в Нью-Йорку пов'язані з алкоголем, ніж у графстві Монро. «Одне з можливих пояснень є те, що переповнений місто, як Нью-Йорк з високою щільністю продажу алкоголю, сприяє тому, що більше людей при спілкуванні, використовують більш високий рівень споживання алкоголю з-за його доступності» кажуть вони.



Більш того, дані геолокації показують, що більш висока частка людей п'є вдома (або в межах 100 метрів від будинку) в Нью-Йорку, ніж у графстві Монро, де велика частина людей п'є далі, ніж в кілометрі від будинку.

Теплові карти, також, виявляють цікаві закономірності. Це дозволяє команді знаходити області в 100 х 100 метрів, в квадратах сітки, де були, принаймні п'ять твітів про алкоголь. «Ми вважаємо, що такі області є ознакою діяльності незвичайної питної активності» стверджує Hossain.

Вони також виявили кореляцію між щільністю продажу алкоголю в регіоні, і кількістю твітів, які вказують, що хтось п'є в даний час. Виникає цікаве питання про те, як кореляція і причинно-наслідковий зв'язок пов'язані в даному випадку. Висока щільність продажу алкоголю змушує людей пити більше? Або п'ють стікаються в райони з високою щільністю продажу алкоголю? Звичайно, такого роду дані, самі по собі не можуть відповісти на це питання.

Тим не менш, гідність цього методу є те, що це дешево і швидко. Інші методи, для отримання аналогічної інформації, є надзвичайно дорогими і віднімають багато часу.

Як правило, потрібно, щоб люди були ретельно відібрані для заповнення заздалегідь підготовлених анкет, які повинні бути далі ретельно проаналізовані. Нейромережа ж, навчена до цього методу, може навіть контролювати вживання алкоголю в режимі реального часу. «Наші результати показують, що твіти можуть забезпечити детальною інформацією про події в містах», кажуть дослідники.

Є особливості, звичайно. Існує спотворення даних, зібраних з Twitter, так як переважають молоді люди і представлена невелика частина населення, активно користується соціальними мережами. Але, подібні спотворення, присутні в інших методах збору інформації, наприклад, опитування, як правило, не враховують людей, які не хочуть проходити обстеження, таких як деякі іммігранти.



Виявлення перекручень статистичних даних є важливою частиною всіх методів збору інформації.

Надалі автори дослідження хочуть навчити нейромережа визначати стать, вік, етнічну приналежність та інші особливості щодо записів в Twitter. Вчені вважають, що це допоможе у вивченні впливу алкоголю на здоров'я. Таке, здавалося б не серйозне дослідження, має досить високу практичну важливість, так як тільки в США, за зловживання алкогольними напоями помирає 75 000 чоловік в рік. Наявність моделі споживання алкоголю в суспільстві, дозволить намітити обґрунтовані шляхи вирішення даної проблеми з мінімальними витратами.

Можна визначити ваші координати по мітках в соціальних мережах?

/>
/>


<input type=«checkbox» id=«vv72272»
class=«checkbox js-field-data»
name=«variant[]»
value=«72272» />
Так, кожен день пишу кілька повідомлень про те, що відбувається навколо
<input type=«checkbox» id=«vv72274»
class=«checkbox js-field-data»
name=«variant[]»
value=«72274» />
Пишу рідко, інформації про розташування залишаю мало
<input type=«checkbox» id=«vv72276»
class=«checkbox js-field-data»
name=«variant[]»
value=«72276» />
Ніколи не згадую свого распложения
<input type=«checkbox» id=«vv72278»
class=«checkbox js-field-data»
name=«variant[]»
value=«72278» />
Не користуюся соціальними мережами

Проголосувало 123 людини. Утрималося 24 людини.


Тільки зареєстровані користувачі можуть брати участь в опитуванні. Увійдіть, будь ласка.


Джерело: Хабрахабр

0 коментарів

Тільки зареєстровані та авторизовані користувачі можуть залишати коментарі.