Робота мрії і безкоштовний кластер на 1 мільйон мета-даних

Доброго часу доби!

Ми вирішили дати публічний доступ до архіву 1 млн насичених мета-даними повідомлень соцмедіа (кілька сотень джерел, включаючи пости і коментарі соцмереж, блогів, форумів, ЗМІ тощо).
Пропонуємо спробувати свої сили в створенні різних евристик, що закладаються в класичні SMA-системи (Social Media Analytics). Чим більше евристик ви придумаєте і зможете реалізувати, тим вище ваш клас Data Scientist. Можливо у вас живе справжній профі: Data Scientist — одна з крутих професій найближчого майбутнього!

Для фанатів-профі — це можливість перевірити і показати свої здібності, а також, при обопільному бажанні і радості, отримати річний контракт на $30.000 — $50.000.



Детальніше під катом

ситуаційний Стратегічний рівень:

— Щодня людство генерує десятки (30-40) млрд онлайн-повідомлень, з яких 5-7% публічних.
— Російськомовні повідомлення становлять 2-3% світового потоку, тобто ~100 млн на добу.
— На відміну від структурованих даних (чеки в магазині, інформація про дзвінки, електронні платежі та ін) Неструктуровані дані вимагають інших інструментів для створення аналітичних систем і підходів до аналізу даних аналітиками: швидкісна лінгвістика, нечіткі мета-дані, «розмазана» геолокація, виявлення та протидія «чужого розуму» (ботам) і т. д. і т. п.

Тактичний рівень:

— Людство практично «закінчилося» — темпи приросту в онлайн і генерації контенту становлять природні одиниці відсотків.
— Платформи збору даних, а також первинного аналізу (SMA — Social Media Analytics), включаючи і лінгвістичні модулі (зазвичай самі повільні процеси) вийшли на промисловий рівень, справляючись з поточними потоками генерації даних.
— Тепер справа за «мізками» — які (адаптивні) алгоритми AI (AI, штучного інтелекту або машинного самонавчання) будуть створюватися, розвиватися і застосовуватися для вирішення реальних завдань людського соціуму.

Понятійний приклад (див. зображення вище):

Є набір насичених мета-даними соцмедіа-повідомлень, а також певний стандартний набір евристик, вироблених аналітиками для клієнтів протягом декількох років, наприклад: кількість повідомлень (іноді з розбивкою по періоду), разблюдовка по комунікаційних каналах і т. д. Якщо повідомлення доповнити «непрямий» інформацією мета-даних, отсуствующих у вихідному повідомленні (тобто задіяти «мізки і пам'ять»), то для твітів можна довизначити підлога (відсутнє поле в записі), а для коментаря до статті в ЗМІ довизначити, наприклад, гео по фразі «Вболіваю за наших у Парижі». Тоді можна створити НОВУ евристику — показати повідомлення на карті, актуалізуючи такі атрибут, як концентрація і гео-динаміка події.

Насичення і розширення мета-даних — сама по собі цікава задача, яка вже частково й різною мірою успішності вирішується у великих компаніях (IBM, Google, MS), та соцмережах (Facebook, Twitter, LinkedIn). Для цих процесів найчастіше задіюють з'являються нові технології — наприклад, визначення людей з фотографій, або отримання доступу до даних про фізичних переміщення людей (телеком-мітки).

Настає момент, коли технології і завдання виходять на наступний рівень «мозговитости» — коли системи САМОСТІЙНО знаходять нові закономірності і роблять прогноз про розвиток подій та ситуацій.

Подібні фази розвитку пройшли, наприклад, автоматичні фінансові роботи: на аналізі минулих даних будувалися різні моделі та евристики, які далі в автоматичному режимі працюють і заробляють (як мінімум розробники цих роботів).

Професія Data Scientist передбачає якогось кентавра: суміш програміста з аналітиком. Чого в кентаврі більше — справа важлива, але вторинна, головне — результат діяльності фахівця. За прогнозами дослідницьких агентств потреба DS тільки в США складе 180.000 осіб.

Конкретика:

1. 1млн+ публічних повідомлень з мета-даними викладені в публічний доступ:
JSON, 350мб
CSV, 55 мб
Дані являють собою певну вибірку за ~6 годин одного дня.

2. Для цікавляться і бажаючих спробувати свої сили і можливості — спробуйте повторити найпростіші евристики, що закладаються в класичні SMA-системи. Чим більше евристик ви придумаєте (підглянете) і зможете реалізувати, тим вище ваш клас у DS. В обов'язковому порядку знайдіть критерій вибірки даного 1 млн повідомлень. Нагадаю, що за статистикою денний набір російськомовного потоку ~100 млн, то за кілька годин повинно було б бути 10-15 млн, а у вибірці — тільки 1 млн. Що могло бути критерієм вибірки? Невелика підказка — зазвичай прості вибірки робляться за словами («ключовикам»).

3. На Хабре періодично з'являються пости з аналізу неструктурованих даних, цілком можливо, що хтось із фанатів-профі погодиться брати участь у нашому новому R&D-спиноффе на постійній основі (річний контракт, $30-50тис). Не має значення стать, вік, освіта, місце проживання, значення має тільки результат, який потрібно реалізувати на даному наборі даних, і бажання творити і створювати НОВІ евристики.

Яким результатом може похвалитися профі:

— Стандартні статистики SMA — даних полів мета-даних цілком вистачає для розуміння.
— Розширення новими мета-даними, за рахунок збору додаткових даних по авторам набору із соцмереж, наприклад: одружений/неодружений, навчається/працює, діти/батьки.
— «Інтелектуальні» мета-дані — дуже сильний плюс. Наприклад: динаміка тональності висловлювань, або кластеризація інтересів.
— І, звичайно, НОВІ евристики, які тільки прийдуть в голову.

Якщо буде виходити щось цікаве — надсилайте на sz@palitrumlab.ru.
Код надсилати не треба! Тільки таблички або картинки з результатами.

P. S. На існуючій Платформі даних SDS і лінгвістичної платформі EurekaEngine ми зараз ведемо розробку Платформи мета-даних. Сподіваємося, що до кінця року ми зможемо забезпечити доступ до всіх Платформ для розробників різних рівнів, а також груп і команд, в цілях створення сторонніх нових рішень і систем, для роботи яких необхідно отримувати відкриті дані з соцмедіа і публічні набори даних.

UPD: не минуло й години, як прийшли перші «картинки» з евристиками «А що за вибірка»:


Джерело: Хабрахабр

0 коментарів

Тільки зареєстровані та авторизовані користувачі можуть залишати коментарі.