Елементарно, Ватсон, або аналіз соцмедіа по-айбиэмовски

21 століття можна по праву назвати століттям соціальних медіа. Незліченна кількість постів, репостов, відповідей на посади та коментарів, сотні щомиті завантажених відео на Ютьюб і фотографій в Инстаграмм. Якщо ти не в мережі — ти не в тренді. Найбільші університети (як, наприклад, Массачусетський Інститут Технологій MIT) викладають онлайн лекції та підручники. Питання, що зачіпають самі різні теми-від політики і культури до кулінарії і особливостей виконання тієї чи іншої асани в йозі, тепер обговорюються не тільки і не стільки на кухні або в курилці, а на інтернет форумах. Що краще? Правильна екранізація у книжки? В тому напрямі рухається сюжет улюбленого серіалу? Буде нова модель телефону успішнішим і крутіше, ніж у конкурентів? Сьогодні на ці питання відповідає аналіз біг дата, так і системи, що виробляють подібні дослідження на даних соціальних медіа, хоча ще і не вчорашній день, але вже ранок сьогоднішнього точно. Одна з подібних систем створена гігантом у сфері програмного забезпечення і носить горде ім'я вірного соратника британського детектива. Варто відзначити, що мова піде лише про систему аналітики соцмедіа (IBM Watson Analytics for Social Media), а це лише частина знаменитої когнітивної системи Watson, і наведені нижче плюси і мінуси стосуються безпосередньо даного сервісу, який для простоти згадки умовимося надалі називати просто Ватсоном.

1. Як і в багатьох систем аналізу великих даних основна мета Ватсона — дати користувачеві в зручному вигляді (графіки та малюнки) уявлення про те, як часто і в якому ключі пишуть про продукти, компанії, бренди і послуги в соц медіа. Ака частота згадки на потоці повідомлень, відсортована з урахуванням результатів сентимент аналізу. Одна з ключових особливостей Ватсона сховалося вже на цьому етапі. Потік покупної. Тобто інформація збирається окремою компанією і потім передається на аналіз. І якщо не знайшлося твіту або коментаря, і він виявився не врахований в аналітиці — всі питання до… не Ватсону. На сьогодні для аналізу доступний матеріал з Твіттера, форумів, новин, Ютьюба (точніше всіх тих коментарів, що люди залишають на стіні), публічних сторінок Фейсбуку, відгуків і блогів. При цьому, повідомлення із зазначених вище джерел використовуються тільки для кількісного аналізу, і згідно з угодою з Твіттером компанія не має права дати користувачеві прочитати, що ж пишуть люди в мережі і чим громадськість (не)задоволена. У той же час в самому Твіттері це зробити легко і просто, достатньо ввести потрібне нам слово в рядок пошуку…

2. Позитивною стороною, безпосередньо залежить від попереднього пункту, можна вважати можливість завести необмежену кількість тем. Наприклад: 1 Машина, Машина 2, Машина 3, Машина 4… Машина N… А також додатковий бонус системі за створення окремих топіків до теми, або по-іншому, характеристик: габарити, витрата палива, особливості двигунів та інше. Всередині кожного топіка можна вказати необхідні пошукові слова або терміни, які вам важливо виловити в потоці повідомлень, так і мінус-слова. Наприклад, в ситуації з аналізом повідомлень про німецький гіпермаркет OBI (ОБІ), потрібно виключити персонажа «Зоряних Воєн». Для створення найбільш коректного пошукового запиту, у разі багатозначності об'єкта для аналізу можна скористатися підказкою: у правому полі видно хмару найбільш частотних слів, вживаних з об'єктом. На жаль, система не завжди може розпізнати, багатозначний об'єкт чи ні, і підказки працюють тільки зі списком заздалегідь відомих полисемичных слів.



3. У цьому пункті ми розбираємо власне аналітику, вироблену Ватсоном. Одним з найважливіших і основних пунктів аналізу повідомлень соцмедіа є демографія. Тобто розподіл за статтю, віком і гео положення. Тут слід зазначити, що даний аналіз проводиться завдяки лінгвістиці, а значить, з цим пов'язаний ряд проблем.



  1. Розподіл за статтю чоловічий/жіночий в основному йде по іменах (словники), по никам (Містер Х стає індикатором чоловіки, а «Русалочка99» — жінки), а також за певними словами, використовуваним в тексті повідомлення «Я стала мамою» — жіночий підлогу, «я став батьком» — чоловічий. Чи завжди це спрацьовує правильно — питання окреме. Частина ників не дозволяє однозначно приписати певний підлогу людині, до того ж іронічне використання протилежної статі в коментарях ніхто не забороняв.
  2. Також є метрика «одружений/неодружений» — інформація береться з профайла і тексту повідомлення. Тобто, якщо зустрічається вираз «моя дружина», призивається статус «одружений».
  3. Подібним чином працює і метрика «бездітний / з дітьми». Останні дві метрики на мій погляд найбільш спірні. У Ватсон не розрізняє пряму мову. Це означає, що повідомлення типу: «Далі зі слів подруги/друга… Мій чоловік/син зробив те-то» будуть оброблені неправильно. Інформація від друга/подруги буде приписана мовця.
  4. А що ж з найважливішими метриками: вік та географія? А немає даних за віком. Зовсім. Ніяких. І географія визначається за згадування назв міст і країн у повідомленні. І скільки з нас писали, що ми в Москві або Пітері, перебуваючи в Саратові або Воронежі? Так що, без коментарів.
4. Спектр мов, якими володіє Ватсон, досить широкий, але, якщо нас цікавить сентимент аналіз повідомлень (головний інгредієнт тортика під назвою Analysis of Social Media), то ситуація гірша. На додавання однієї мови йде приблизно 9 місяців. На даний момент вже досить непогано працюють англійську (хто б сумнівався), французька, німецька, іспанська, голландська, китайська (традиційна і спрощена варіанти), російська, а також португальський.

Ватсон розрізняє наступні види тональності: позитив, негатив і амбівалентність. Якщо перші два типу зрозумілі і без пояснення, то під останнім мається на увазі той випадок, коли неясно, позитивно чи негативно висловлювання. Приклад: «У цієї камери гарна передача кольору, але звук відстійний». Якщо ми беремо до уваги тільки камеру, а не окремі її характеристики, то тональність стає амбівалентною. Одним з плюсів тональності Ватсона можна вважати можливість власноруч внести в «тональний словник» ті слова, що не мають оброблятися позитивно або негативно. Приклад — слогани рекламних кампаній («Танки бруду не бояться!»). Якщо не додати «в ігнор» слоган — отримаємо недостовірні дані по тональності, велика кількість позитиву, якого насправді немає. Це працює тільки під конкретних клієнтів, тобто змінює тональність тільки для певного продукту, а не глобально, для всього. Один з великих мінусів використовуваних словників — не ведеться обліку сили тональності. Тобто слова «поганий — жахливий — огидний» для Ватсона однаково негативні. Але будь-яка людина скаже, що це не так.



Далі, лінгвістика (сентимент аналіз, поділ речень на частини і вище зазначена демографика) працює на правилах. Для опису синтаксису і роботи тональності використовується AQL (annotation query language). Подивитися, як це працює, можна на офіційному сайті IBM.

Перевага підходу на правилах: при достатній посидючості можна описати 85 — 90% випадків і особливостей вживання тих чи інших фраз в мові.

Недоліки: може випасти іноді істотний пласт повідомлень, що не були враховані при створенні правил. І якщо машинний алгоритм можна досить просто перевчити, то для прописування нові правила (щоб вони не конфліктували з попередніми, щоб пріоритетність виконання не порушилася) потрібно набагато більше витрат. До того ж правила варіюються від мови до мови. Якщо для споріднених мов однієї групи можна використовувати ті ж «формулювання» з невеликими коригуваннями, то для опису більш рідкісних мов так зробити не вийде. Ні, якась база залишиться, але…

На жаль, Ватсон не дозволяє завантажувати свої повідомлення, щоб перевірити роботу тональності і ніде не можна знайти даних по точності роботи модуля. Навіть при роботі з системою аналізу як позитивних або негативних повідомлень користувач бачить абсолютно не кожне висловлювання, а лише малу частину, та й то тільки ту, що однозначно визначилася.

Резюме
Система приємно радує око великою кількістю яскравих і барвистих графіків і схем, а також різновидом критеріїв порівняння (демографія, тональність). Проста у використанні, тобто не треба бути Шерлоком, досить просто бути Ватсоном, щоб з нею працювати. Істотно більшу кількість пропонованих мов. Але, відсутність даних за віком, сумнівні дані щодо розподілу за статтю та географії, неможливість точно дізнатися, чим незадоволені покупці (скажімо так, найбільш цікаві саме амбівалентні висловлювання, ті самі, що можна перетворити на позитив) викликає деякі побоювання в достовірності системи. Тобто, Ватсону ще є куди рости і розвиватися, сказати, що він набагато краще вітчизняних систем аналізу соцмедіа я, на жаль, поки не можу.
Джерело: Хабрахабр

0 коментарів

Тільки зареєстровані та авторизовані користувачі можуть залишати коментарі.