Palantir 101. Що дозволено знати простим смертним про другий по крутості приватної компанії в Кремнієвій Долині



(За переклад спасибі Олексію Ворсину)

Доброго ранку і ласкаво просимо на GovCon7.
Мене звуть Сод Абдулли і я провідний інженер з впровадження Palantir Technologies і це Palantir 101.
Я хотів би в найближчі півгодини або сорок п'ять хвилин розповісти про те що це, хто ми, що таке Palantir, і що він робить для організацій, з якими ми працюємо, а також, ближче до кінця заходу, ми проведемо невелику презентацію.

Перш ніж перейти до всього цього, я хочу почати з кількох історій, які повинні пролити світло на те, що ми і Palantir, думаємо про проблему аналізу в світі Big Data.


Перша історія — це історія про шахи.
Багато з ваз знають, що в 1997 я брав участь у розробці шахового суперкомп'ютера Deep Blue, який здолав Гаррі Каспарова, на той момент, колишнього кращим шахістом у світі. Зараз в простій мобільник можуть бути встановлені шахи, грають на турнірному рівні, і питання про те, хто сильніший у шахах, людина чи комп'ютер, вже не актуальне.

Новий цікавий питання: «Що буде, якщо людина і комп'ютер будуть грати в шахи разом, як команда?»

По-перше, такі команди показали високу ефективність, і, насправді, це цілком очікувано, так як люди гарні в шахах, комп'ютери дуже гарні в шахах, але хороші вони з різних причин: комп'ютери мають серйозне тактичну перевагу, вони можуть оцінювати багато тисяч комбінацій щомиті; у людей є досвід, здатність до трюків, чуття та вміння відчути опонента, що комп'ютера важко дається.

Ці сили поєднані і команда чоловік/комп'ютер здатна перемогти і команди найсильніших гравців і об'єднання найсильніших суперкомп'ютерів.

Друге трохи складніше: ви можете вирішити, що саме командна гра сильніше, можна взяти найсильнішого гравця і найсильніший суперкомп'ютер, посадити їх разом, і вони будуть нагинати весь шаховий світ. Ви помилитеся.

Крім власної сили гравця, яка є навик, і власної сили комп'ютера, який є обладнання та програма, є ще третій фактор — якість взаємодії між ними. Наскільки легко гравцеві сформулювати запит? Можливо для нього сконцентруватися на тому, в чому він дійсно хороший, залишивши комп'ютера інше? Ці питання близькі тій точці зору, яку ми сповідуємо в Palantir, щоб допомогти організаціям ефективно взаємодіяти з Big Data.

Всі наші зусилля, таким чином, сфокусовані на тому, щоб зменшити «любов» (frictions) період звернення оператора з даними.

Наступна історія про компанії PayPal, можливо ви чули про неї.



Коли PayPal починали, було ще кілька компаній, зайнятих в індустрії онлайн-платежів, включаючи фінансових важкоатлетів: Citibank, Western Union та інтернет-гіганта Ebay. У всіх свої системи розрахунків. Врешті-решт вони, один за одним, зійшли з дистанції, а стартап PayPal, досяг успіху.

Як так вийшло?

Є одне важливе зауваження про платіжних системах тих часів: з основною проблемою, вчиненням транзакцій від одного рахунку до іншого, всі справлялися, більше або менше; іншою проблемою, не менш важливою, здійснення транзакції так, щоб її не поцупили росіяни.
Величезна кількість транзакцій, величезний потік вхідних даних, і дуже мало часу на те, щоб все це перевірити, — тут дійсно є можливості для афери. Покупці не збираються чекати тижнями, поки ви проводите розслідування по кожному платежу, тому те що потрібно, — це можливість швидко вирішувати, чиста чи підозріла транзакція. Це і зараз, в основі своїй, проблема, до якої, PayPal та інші підійшли по-різному:

Багато вирішили, що раз у нас є багато рішень і мало часу, то людина не впорається і потрібно максимально розкласти такі рішення на операції, формалізувати їх, зробити повторюваними і швидкими, — алгоритмичными, іншими словами. Цього виявилося мало.

PayPal почали з того ж: багато рішень, велика кількість даних для обробки і мало часу, — але висновок був протилежним — максимально підвищити ефективність людини за допомогою апаратних засобів. Таким чином фокус змістився на те, щоб допомогти людині швидше приймати рішення, прискорити обробку і полегшити пошук інформації. Ebay купив PayPal за півтора мільйона доларів. Вони вирішили для себе проблему таким чином.

Люди, які створили PayPal, прославилися в Силіконовій Долині, частина з них заснувала Palantir, ну, ви про нього чули.

Перед Palantir стоять наступні завдання: забезпечити швидкий аналіз і прийняття рішень при все зростаючому потоці вхідних даних, що актуально в платіжних системах, в тому числі і при протидії шахраям, а так само і в охороні правопорядку, в медицині, в розвідці, в військовій сфері. Кількість даних постійно зростає, як і необхідність приймати рішення, користуючись даними.



Що ж таке Palantir?, — можете запитати ви. Одним реченням — це аналітична інфраструктура.
Слово аналітична я використовую дуже-дуже навмисно, справа в тому, що Palantir, — це точно не інструмент візуалізації, (мабуть товаришеві занадто часто доводиться це пояснювати) спочатку багато хто саме так і думають. Інтерфейс — це просто інтерфейс, всередині ще багато чого цікавого, трохи пізніше ми це побачимо.

Palantir, також, — це не закрита середовище, і спочатку замислювався максимально відкритим. На практиці це означає, що Palantir підтримує формат відкритих даних і будь-які дані, в якій би формі вони не існували, можуть бути завантажені і вивантажені назад. Також, це означає сумісність з будь-якими сторонніми додатками, якщо ви використовуєте їх. Ми використовуємо відкритий і публічний інтерфейс програмування додатків, тобто сторонні компанії можуть створювати нові програми і розширювати функціонал на нашій платформі, як на смартфонах. Нарешті, Palantir, — це не одна база даних над усіма іншими (one database to rule them all — алюзія на Володар Кілець), тобто ідея в тому щоб не замінювати Palantir'ом всі ваші напрацювання, а доповнити їх, полегшити вам роботу.

Якщо говорити про те, що саме Palantir робить, то можна виділити чотири основних пласту, починаючи з базового:

1. Інтеграція даних.
2. Пошук і дослідження.
3. Менеджмент знань.
4. Спільна робота.

Тепер детальніше:


1. Інтеграція даних, — це те, що послужило початком Palantir. Мається на увазі, що ми беремо всі дані, які у вас є, в будь-яких формах, і інтегруємо в вашу єдину базу даних, в єдину доступну середу. Це швидко, займе дні і тижні, а не місяці. Це гнучка система дозволяє інтегрувати не тільки традиційні джерела даних, але і спеціалізовані, наприклад дані GPS, карти або відео. Це містка система, здатна оперувати мільярдами записів, пов'язаних з даними.


2. Пошук і дослідження, — другий великий пласт роботи. Palantir дає можливість пошуку і доступу до всіх даних через одне одну пошукову рядок, причому мова йде не тільки про пошук того, що ви знаєте, але і про інструменти, які надають вам те, що ви не знали. Це пошук понятійний, заснований на взаємозв'язках між даними, на мережах таких взаємозв'язків, на те що можна назвати суттю речей, це наполегливий пошук, і, після того як я сформую якісь основні вимоги щодо інформації, яку хочу побачити, Palantir, попередить мене про будь-якої інформації, що підпадає під характер запиту (pattern — шаблон, тенденція, схема; швидше за все мова йде про суті запиту, яку розумна система виловлює). Це пошук за часом і місцем, так що ми можемо зрозуміти що відбувалося там-то й тоді-то. Пошук зроблений з огляду на прагнення зменшити періоди звернення оператора з даними. Це не тільки знайомий нам пошук по назвам, типами файлів і баз даних, але і, наприклад, пошук по людям, подіям. Я можу прямо запитати: «Покажи мені всі таксі, які зупинялися тут за три тижні», — або: «Покажи мені карту з позначками всіх злочинів, які сталися в моєму районі за останні півроку, і в чому різниця з попереднім півріччям». Це просто і не вимагає спеціальних зусиль з програмування або розробці під кожен запит.


3. Взагалі кажучи, пошук — це важливо, але недостатньо. Ви можете отримати інформацію про те, що Сод — співробітник Palantir, але вам потрібні додаткові відомості, щоб скористатися їй, такі як: звідки ця інформація надійшла, коли була введена в систему, хто має доступ до інформації. Це третій пласт — менеджмент знань, ідея в тому, що кожне знання колись і кимось створено, де введено у систему, так змінювалося з плином часу, володіє таким рівнем доступу, і все це враховується. Важливі дані та метадані.


4. Що-то ми упускаємо. Дані та метадані рясні, вони дешеві, і в зборі і зберіганні. Найбільш цінується ресурс — аналіз, те що ваші аналітики роблять, — людське сприйняття сирої інформації. Palantir ми розробляли так, щоб не тільки спрощувати аналіз, але і мати можливість ділитися результатами. Це четвертий пласт — спільна робота. Ми даємо можливість ділитися результатами, створювати повноцінну картину явища зусиллями багатьох аналітиків. Сама ідея виявилася глибшою, ніж ми спочатку припускали. Ідея в тому щоб мати загальну картину світу. Якщо ми бачимо різні дані, різні сторони явища, ми працюємо окремо. У той же час, напрацювавши різні картини світу, ми шукаємо способи їх перевірити, порівнюємо і синтезуємо загальну. Наприклад, якщо є великий проект по софту, сотні фахівців можуть вносити до нього поправки кожен день. Використовуючи такий підхід, ми отримуємо контроль версії продукту, можливість керувати процесом. Ми отримуємо простір, де можемо, почавши з загальної картини, вносити зміни по трохи, перевіряти гіпотези і врешті, знову зібрати загальну картину. Це, крім того захищений спосіб роботи — кожен бачить тільки ту частину, яку йому дозволено бачити.



У загальному і цілому, Palantir:

  1. Масштабований, дозволяє працювати безлічі людей з петабайтами даних, крім того, ці дані можуть продовжувати рости в ході роботи.
  2. Захищений, тобто кожна клята частинка інформації відстежується, і Palantir вже працює з одними з найбільш sensitive (швидше за все Сод має на увазі середовища, сильно залежні від безпеки) середовищ у світі.
  3. Ризикований, тобто Palantir — це не такий проект, де ви посадили насіннячко, і чекаєте півроку-рік, поки зійде, його можна інтегрувати за тижні.
  4. Довів свою ефективність. Його вже використовують в охороні здоров'я, в охороні правопорядку, використовують банки, при протидії шахраям.


Технологія готова, технологія працює. Зараз подивимося як саме.

Зараз ми з вами проведемо демонстрацію можливостей Palantir, такий день аналітика-контртеррориста, розслідує діяльність по фінансуванню тероризму в Північній Африці. Ви побачите як я знайду дещо в Єгипті. Побачите весь процес цілком, з моменту надходження нової інформації. Я проведу розслідування, і підведу підсумки.

Я залогінився, ось так програма виглядає.



Зліва наповнення, нові вхідні документи, в нашому випадку нові розвіддані «з полів». Подивимося мої нові зачіпки.
Агент CT-Blue, з Каїра, повідомляє, що присутній на благодійному заході Аль-Муджа, де було кілька запрошених організацій. Докладає картки трьох запрошених, неамериканців, які обговорювали атаку на значущий об'єкт в американському місті. Я візьму ці дані, введу в Palantir і подивлюся, чи є що-небудь, що ми можемо виявити.



Як ви бачите, тут сині посилання, це означає що хтось із моїх колег вже працював над документом і зробив його більш зручним, присвоїв теги, і що частина цих даних перегукується з тими, що вже є в системі. Ця синя посилання веде до досьє, яка у нас є на хлопця, Майка Фікрі. Я додам телефонний номер, позначивши його для Palantir так. Це спосіб надати зміст і структуру, неструктурированному звіту.


Я перетягую цих хлопців на граф (вікісловник: граф — сукупність об'єктів зі зв'язками ), основний інструмент аналізу зв'язків у Palantir, щоб дізнатися, як вони пов'язані один з одним, чи є у них зв'язки з ким-небудь ще. У Майка є фото, значить у нас точно є інформація про нього.


Ми зараз бачимо інформацію, зібрану з різних джерел, таких як: сирі відомості, звіти, бази даних, або зовнішні джерела — наприклад, тут є відомості про платежі і телефонних переговорах. Це своєрідний огляд людини. Ми бачимо різні варіанти написання імені, адреси, ім'я написано на двох мовах, тобто ми можемо працювати з інформацією на багатьох мовах.


Бачимо декілька номерів телефону, різні вкладення, тобто ви можете додати сюди відео, аудіо або зображення. Нарешті, тут є зв'язки з іншими. Майк пов'язаний з двадцятьма трьома викликами і двома платежами, введеними в систему. Повернемося до графу, на ньому зручно аналізувати взаємозв'язки.

Я краще не буду займатися деталями на цьому рівні або читати досьє, а поставлю більш загальний, більш пряме питання: «Як ці троє пов'язані не тільки один з одним, але і в більш загальному сенсі, на підставі тієї інформації, що є в Palantir зараз?». Для цього у нас є чудовий інструмент, який називається «Пошукай навколо так близько». Я створюю новий пошук. Palantir запитує якого роду збігу або зв'язку я хочу побачити. Я можу подивитися з ким пов'язані ці хлопці, і з ким пов'язані ті, хто пов'язані з ними. Я можу побачити де саме інформація збігається. Я можу запитати, спливав чи де-небудь цю адресу, мейл або ім'я. Також, ми можемо подивитися хто пов'язаний через ці події (дзвінки та оплати), хто був з іншого боку, і з ким вони пов'язані. Тобто Palantir дозволяє задавати питання досить точно.



Мені не потрібно змінювати що-небудь у запиті, тому я просто скористаюся створеним заздалегідь.

Тут задається декілька питань:

— Є хлопці частиною якоїсь групи і є ще учасники в цих групах?
— В яких події (такі події, як телефонний дзвінок, в тому числі) брали участь хлопці і хто ще пов'язаний з цими подіями?



Тут є чотири ступені поділу, тобто питання задавалися не один раз, а повторювалися раз за разом, щоб отримати більш повну схему. Як ви бачите схема вийшла досить великий, так що я завешу пошук і приступлю до дослідження.


Перше, що я хочу зробити, отримавши такий об'ємний результат — запитати Palantir, на що я дивлюся, і для цього використовую інструмент Гістограма, яка дає короткий уявлення про все, на що я дивлюся.


Дивлюся я на 14 різних людей, а так само бачу те, що повторюється часто, наприклад четверо хлопців живуть в одному місці, в Брукліні, що в Каліфорнії, вони зараз підсвічені. Троє живуть разом у Ванкувері, троє в Торонто, легко побачити ці групи, коли вони виділені. Так само я можу побачити скільки з них живе в Сан-Франциско Берклі, Дейлі-сіті.

Тут популярний домен для пошти, hotmail.com видно у кого пошта hotmail, у кого на aol (America on line). Видно збіги за прізвищем, за національністю і т. п.

Тут важливо пам'ятати, що Palantir не тільки дозволяє володіти всіма цими типами інформації, але і самі типи інформації, якими ви хочете володіти, що настроюються. У контексті контр-тероризму, — це ті речі, на які ви зверніть увагу: на людей і їх національність, особливості біографії, події, такі як дзвінки і платежі. Якщо ми подивимося на іншу область, таку як кібербезпека, то замість людей можуть бути цікаві, наприклад, комп'ютери і сервери, а подією стане трафік між ними. В охороні здоров'я це будуть спалахи хвороб.

Подивимося ближче.
Перше, що кидається в очі — це те, що тільки один з трьох підозрюваних нами хлопців з чим пов'язана. Інших прибираємо, причому я не видалив їх, просто приховав до часу.


Що залишився, Майк Фікрі, пов'язаний з цією цікавою групою людей. Є придивитися, то хтось із моїх колег спостерігає їх як групу підозрюваних у тероризмі, з комірки працює в районі затоки (Bay area cell). Майк пов'язаний з ними через іншого хлопця, це відразу підвищує мій інтерес до нього. Наш підозрюваний з Каїра, може бути пов'язаний з атакою де-небудь у США. Також ми бачимо, що він пов'язаний з великою і цікавою групою суб'єктів ось тут. Як саме пов'язаний?


Справжній суб'єкт Майк Фікрі пов'язаний з тими хлопцями через невідому сутність під ім'ям MF. Мені це підозріло, так як схоже на ініціали Майка, давайте подивимося.


Я відкриваю зв'язку між цими хлопцями, щоб побачити що у них спільного: вони обидва живуть в Каліфорнії, обидва Іранці, і на двох у них один телефонний номер. Це звичайно не достовірно, але я б хотів перевірити гіпотезу, що Майк і MP — одна людина.


У Palantir це досить просто, я вибираю команду звести (Resolve) цих двох, програма об'єднує всю оригінальну інформацію про них, і, крім того, інформацію про те звідки кожен фрагмент даних прийшов і коли він з'явився у системі, ця інформація, як і раніше існує. Зараз у нас є комбінований вид, який включає в себе всю цю інформацію, всі об'єднані адреси та телефонні номери з самостійних записів.

У будь-який момент може з'явитися інформація, яка робить мою гіпотезу неспроможною — це не так вже й важливо, я, як і кожен з моїх колег, можемо легко скасувати об'єднання і відновити початкові записи. Може з'явитися і інформація, співзвучна цій гіпотезі. Я хочу поділитися цією гіпотезою з колегами, для цього я виділяю і публікую (publish) цю інформацію. Досі я працював в особистому просторі, тепер кожен, хто буде дивитися про Майка, побачить моє припущення, про те, що він і MF — одна особа.

Тепер ми бачимо, що Майк Фікрі безпосередньо пов'язаний з цією великою і цікавою групою людей. Тут ви бачите багато різного роду активностей: оплати, дзвінки, загальні адреси і польоти, тобто ці люди пересувалися разом. Досить складно зрозуміти, що відбувається тут, хто платить, коли ці події мали місце. Є два способи зробити цю інформацію повніше, які я хочу показати вам.


По-перше, я хочу показати вам напрямку. Коли еть оплата, хто платить іншому, і я хочу показати це. У Palantir є відмінний інструмент, потоки (flows). Зараз ми бачимо де гроші з'являються і куди вони йдуть. Червоні точки маю різний розмір, щоб показати розмір грошових потоків, так що ви бачите невелику активність там, і дійсно серйозні руху тут. Великі суми рухаються від цієї людини до цих трьох груп людей. Це цікаво.



Дві речі про потоках.
По-перше потоки повністю широкі, і це не тільки інструмент візуалізації платежів, але і будь-яких інших рухів.
У цьому дослідженні ми так само можемо поглянути на дзвінки. Ось так буде виглядати мережа дзвінків між ними.



По-друге, і це показує нашу відкритість, інструмент потоків розроблявся як стороннє додаток, хоча виглядає і працює як наша власна розробка. Це демонструє ступінь кастомізації платформи під різні завдання.

І так, ми побачили грошові потоки. Цей хлопець пов'язаний з іншими тим, що посилає їм гроші. Ми також поглянемо на час: ми знаємо що платежі йдуть, що хлопці подорожують. Який порядок? Йдуть гроші одночасно або в якійсь послідовності? Перед польотами або після них?

У нас є ще один інструмент, він називається часовий графік (timeline) і робить саме те, що ви подумали: показує події у часі. Буде легше, якщо я виділю події кольором.


Польоти будуть синіми, платежі зеленими, дзвінки червоними. Тепер ми бачимо трохи більш ясну картину того, що відбувається. Ми бачимо що перший платіж пройшов 20.10.2007 року і перед ним активні дзвінки. Ми бачимо телефонний дзвінок, що послідував за платежем через короткий час. На наступний день повторюється те ж саме з другим платежем. Третій платіж здійснений через ще через два дні, знову супроводжуваний дзвінком. Якщо ми подивимося трохи далі, то побачимо багато польотів. Ці три групи живуть у Ванкувері, Торонто і Мехіко, отримали великі суми грошей від хлопця, пов'язаного з нашим підозрюваним, здзвонилися після грошей, і в найближчі наступні дні сіли на літак. Куди вони подалися?

Повернемося до гістограмі. Подивимося, що ми можемо дізнатися про аеропортах. Ми бачимо три польоту: Ванкувер, Мехіко, Торонто, і четвертий, всі разом, в Чикаго. Я знайшов щось цікаве. Надійшли разведданые про те, що група людей може бути пов'язана з атакою на місто в США. Ми виявили, що один з них пов'язаний з передачею великих сум грошей трьом різним групам за межами США, і з'ясували, що всі три групи їздили в один і той же американський місто. Для мене це виглядає схоже на те, як може поводитися активізувалася осередок, ніби готується операція.

Тепер я можу поділитися своїми результатами, своїм аналізом з колегами, з органами правопорядку. Я зроблю скріншоти найважливіших підтверджень: графіка і графа, і експортують в зручному (adjustable) форматі, у вигляді презентації в PowerPoint.

Palantir тут відтворює всі мої кроки за час дослідження: спочатку я подивився на цього хлопця, потім побудував цю мережу, потім з'ясував ряд деталей. Зараз поясню, що значить ось цей конкретний часовий графік. Зараз у мене є майже готовий матеріал, я майже готовий поділитися ним, після того як допрацюю трохи.



Ми зараз пройшли через повний життєвий цикл, своєрідний день з життя аналітика Palantir. Ми почали з надходження нової інформації «з полів», провели невелике розслідування і аналіз, трохи поисследовали і поділилися з іншими. Чи звернули ви увагу, на що пішла більша частина часу? Найбільше часу пішло на розмови про самому аналітичному процесі, про питання, які я формулював про те, хто ці хлопці і що ми знаємо про них. Ми не витрачали час на пошуки в базах даних по іменах. Ви не бачили мене розважається (fascinating) з різними типами даних або таємним чимось (quiveries). Ви ж не бачили, щоб мені довелося витратити багато часу на переробку моєї роботи під зручний (adjustable) формат, на те щоб зробити презентацію або звіт про свою роботу. Ви бачили як я витрачаю час на те, в чому я, як аналітик, хороший, на те, щоб застосувати свої спеціальні знання, на те, щоб використовувати свою інтуїцію, на те, щоб піти з цікавим мені слідах. Я залишив комп'ютера те, в чому він хороший: пошук інформації, конвертування інформації в різні формати, щоб зробити її зручною. Все це підпорядковано ідеї про те, щоб зменшити кількість взаємодії мене, як аналітика, з інформацією. Дати мені можливість швидко відповідати на запитання, швидко проводити дослідження і швидко ділитися результатами з іншими.

Я сподіваюся це була корисна демонстрація, дуже поверхнева демонстрація того, що є Palantir, повірте мені. Є ще фантастична здатність до спеціалізації по території (geospecial ability), якої ми навіть не торкнулися. Безліч можливостей по роботі з даними великого масштабу.



Радий також зазначити наші зростаючі мобільні можливості, що відкриває доступ до всіх можливостей Palantir на смартфоні. Спасибі вам, сподіваюся ви поспілкуєтеся з нами та нашими клієнтами.

Всього вам доброго, спасибі за ваш час.

Джерело: Хабрахабр

0 коментарів

Тільки зареєстровані та авторизовані користувачі можуть залишати коментарі.