Data Science Week 2016. Огляд третього і четвертого дня

Хабр, привіт! Публікуємо огляд третього і четвертого дня Data Science Week 2016, а саме це були Sberbank Data Day і день, присвячений темі штучного інтелекту.

image

День 3
У третій день Data Science Week, в основному, говорили про досвід вирішення Ощадбанком конкретних завдань за допомогою технологій великих даних, але деякі виступи носили загальний концептуальний характер.

Спікери повідомили про бажання Ощадбанку стати data-driven організацією – гнучкою структурою, в якій у відповідь на зміни в приходять даних змінюються бізнес-процеси і приймаються рішення. За рахунок цього Ощадбанк розраховує отримати конкурентну перевагу у швидкості виведення на ринок нових затребуваних клієнтами рішень.

В Ощадбанку була створена ефективна інфраструктура зберігання і обробки великих даних, основою якої виступають Hadoop, Spark і NoSQL рішення.

Основний фокус у збиранні та використанні даних в Ощадбанку роблять на клієнтах, «об'єднують навколо дані клієнта». Для вирішення бізнес-завдань компанії аналізують широкий спектр внутрішніх і зовнішніх даних.
За внутрішніми даними анкет та заявок клієнтів, історії трансакцій і користування послугами банку будуються додаткові клієнтські профілі. Клієнтів сегментують за соціально-демографічними параметрами, потребам, смакам, щоб розуміти, які пропозиції їм будуть цікаві, через які канали з ними краще працювати.

У кредитному скоринг використовуються не тільки традиційні дані, такі як соціально-демографічні параметри, кредитна історія, історія трансакцій, фінансова звітність, але і ряд інших. Наприклад, компанія використовує дані стільникових операторів, як в кредитному скоринг, так і для виявлення шахрайства. На схильність до шахрайства вказує велика кількість активних сім-карт і невеликий час їх роботи, дрібні й численні поповнення рахунків, географія дзвінків. Також для завдань скорингу використовуються графи зв'язків клієнтів, які будують на основі даних про грошові перекази і даних соціальних мереж. Для кредитного скорингу компаній використовуються тексти новин з їх згадкою, для яких проводиться автоматичний аналіз тональності.

В даний час в компанії процедура андеррайтингу (в частині прийняття рішення за базовим категоріям) значною мірою автоматизовано. Автоматизована і перебудова скорингової карти, хоча рішення про те, брати автоматично перебудовану скорингову карту чи ні, приймає експерт.

Олександр Куликов компанії Segmento розповів про те, як аналіз послідовності трансакцій і платіжних патернів дозволяє виявляти важливі події в житті клієнтів (наприклад, витрата великої суми на лікування або покупка машини) і передбачати, які трансакції клієнт швидше за все зробить в найближчому майбутньому, у яких категоріях. Це дозволяє робити клієнтам найбільш релевантні пропозиції. Аналіз даних про клієнтів і їх поведінці дозволяє формувати пропозиції предодобренных кредитів і пропонувати їх клієнтам саме тоді, коли вони найбільш затребувані.

Дані про пошукові запити використовуються для персоналізації відображення сайту Ощадбанку. Наприклад, якщо клієнт цікавився туризмом, йому буде запропоновано страхування для виїжджаючих за кордон.

В компанії застосовується і аналіз зображень методами глибокого навчання. Деякий час тому в Ощадбанку була впроваджена АС САФІ – система аналізу фотографій для запобігання шахрайства з документами, ідентифікації клієнтів. В результаті втрати від такого виду шахрайства скоротилися в 10 разів.

Окремий виступ було присвячено ризиків застосування моделей. Тут спікер виділив три основні області ризику: дані, моделі і процеси. Ризики в даних пов'язані з їх неузгодженістю, неповнотою, нерепрезентативностью, наявністю викидів. Якщо не помітити і не виправити ці проблеми в даних, ціна помилки дуже висока. У частині моделей і їх застосування можливі помилки, пов'язані з неправомірністю прийнятих передумов, зі спробами сліпо перенести модель, розроблену для однієї предметної галузі на іншу, а також з людським фактором (шахрайство, конфлікт інтересів всередині організації). Для обмеження модельного ризику в компанії використовують зворотний зв'язок від користувачів, чіткі стандарти моделювання та підготовки даних, процедури тестування моделей на предмет їх застосовності.

Останній виступ в цей день було присвячено платформі соціального трейдингу eToro, з якої Ощадбанк розпочав активну співпрацю. Ця система побудована за принципом соціальної мережі, агрегує і показує в доступній формі дані, одержувані від успішних трейдерів системи – аналітику, історію угод. З успішних трейдерів автоматично формуються аналоги фондів довірчого управління. На основі профілю користувача, його досвіду та ставлення до ризику змінюється доступне йому кредитне плече, робиться автоматизоване пропозицію відповідних активів і трейдерів, поведінку яких можна копіювати. Мета даної платформи – надати простий і зрозумілий доступ до фінансових ринків всім бажаючим, у тому числі і клієнтам Ощадбанку, бажаючим через неї керувати своїми активами.

День 4
Останній день Data Science Week був присвячений штучного інтелекту. Про штучний інтелект в широкому сенсі говорили мало, в основному – про перспективи застосування чат-ботів і персональних асистентів.

image

Безпосередньо цій темі було присвячено виступи Костянтина Савенкова з компанії Inten.to. На думку спікера, ряд тенденцій вказує на стрімкий розвиток цієї галузі в майбутньому.

По-перше, люди зараз проводять в месенджерах більше часу, ніж в соціальних мережах, і бізнес хоче йти до своїх клієнтів в тому числі і через цей канал. Одним з рішень може бути використання ботів.

По-друге, практично всі найбільші компанії, що розробляють месенджери, створюють платформи для роботи ботів і персональних асистентів, хоча ними поки ще майже ніхто не користується. В це направлення вкладаються величезні інвестиції. З'являються сервіси-коннектори, дозволяють запустити один раз написаного бота на різних платформах.

Нарешті, зростає ринок API, тому тепер персональних асистентів є чим керувати.

Говорячи про перспективи застосування ботів і асистентів, спікер зазначив, що спроби замінити спілкуванням з ботом зручні графічні інтерфейси ні до чого не призводять, вони тільки ускладнюють процес (наприклад, при замовленні авіаквитків). Однак, коли взаємодія ґрунтується на обмеженому введенні інформації, як при спілкуванні з людьми, чат-боти можуть виявитися ефективними (приклади: консьєрж, виконання доручень, юридичні послуги). Інтелектуальні програми допоможуть користувачам уникати помилок, нададуть консультації у виборі, прийнятті рішень (як офіціант).

На думку спікера, сьогодні в цій області найбільш перспективна парадигма персонального асистента, який використовує складні технології розуміння мови і контексту повідомлення, але надає просту послугу. За розумінням мови і контексту не випливає етап прийняття рішення. Наприклад, це може бути підбір вина до страви по вхідних в нього інгредієнтів. Далі в гру вступає сервісна платформа, яка використовується для того, щоб виконати доручення користувача.

Сьогодні способи виконання конкретних доручень, як правило, прописуються вручну компанією або підбираються методами краудсорсингу. Компанія Inten.to бачить своє місце на ринку в тому, щоб створити засіб автоматичного підбору персональним асистентом потрібних API для вирішення поставлених завдань.

Євген Легкий, представляв компанію Segmento, розповів про роль штучного інтелекту в розвитку технологій і про основні тенденції, які можуть дозволити уникнути в майбутньому падіння продуктивності праці. На думку спікера, в майбутньому сфера людської праці сильно зміниться. Розшириться сектор економіки за запитом (приклади: Uber, GetTaxi), коли ми замовляємо і отримуємо послугу тоді, коли вона нам потрібна. Відбудеться розширення фріланса, все більше людей паралельно з основною роботою буде зайнято ще в якихось проектах. Будуть створюватися гнучкі команди під певні проекти, стане популярним замовлення робочої сили. Все більше людей почнуть виконувати невеликі завдання (микротаскинг), і на цих невеликих операціях зросте микропроизводительность праці. Нарешті, в наше життя ввійдуть технології, що базуються на штучному інтелекті.

image

Виступ представника NVIDIA Антона Джораева було присвячено не власне штучного інтелекту, а апаратних і обчислювальних платформ для реалізації глибокого навчання, яке широко використовується в цій сфері.

Сьогодні нейронні мережі, наприклад, Baidu Deep Speech 2, вже зрівнялися в якості розпізнавання мови з людиною. Однак це було досягнуто ціною багаторазового ускладнення обчислень і збільшення обсягів використовуваних даних. При цьому для використання таких технологій в додатках потрібна швидкість відповіді – користувач не буде чекати надто довго. Тому компанія NVIDIA зробила акцент на створенні програмних і апаратних засобів, що генерують стратегію виконання вже навченої нейронної мережі та забезпечують високу продуктивність. Компанія розробила власний аналог фреймворку TensorFlow, що використовується в глибокому навчанні, який розроблений для використання з конкретними апаратними засобами і тому працює швидше, вміє робити логічні оптимізації.

Компанія Riftman, представник якої виступав останнім, у своїй системі Xor планує використовувати ботів у наймі персоналу в сфері IT. Система аналізує приклади коду, викладеного розробниками на GitHub, StackOverflow та інших ресурсах, і таким чином знаходить фахівців, що володіють потрібними навичками. Схожі механізми система використовує для валідації резюме. Далі зв'язок з кандидатом здійснюється з допомогою бота, незалежно від того, чи він зараз шукає роботу, чи ні.

На думку Миколи Манолова, дуже більшу кількість фахівців вже переросли займану посаду і чекають цікавих пропозицій, але фактично випадають з поля зору HR-фахівців. Через бота з людиною простіше зв'язатися: лист потрапить у спам, а дзвінок може викликати негативну реакцію. Якщо кандидата не подобається пропозицію, бот збирає від нього зворотний зв'язок, щоб надалі поліпшити модель відбору, розуміти, які умови потрібно пропонувати і кому. Також бот зможе призначати інтерв'ю, надсилати тестові завдання. Таким чином, майже всі процеси в цій області можуть бути автоматизовані.

» Всі презентації викладені тут.

» Доступ до відео виступів можна отримати тут.
Джерело: Хабрахабр

0 коментарів

Тільки зареєстровані та авторизовані користувачі можуть залишати коментарі.