Багато хто з нас все ще потрапляють в ситуації, коли потрібно швидко знайти важливу інформацію, але доступ в інтернет обмежений або відсутній. І одна справа – намагатися відкрити розважальний пост на сайті, і зовсім інша – шукати номер телефону гарячої лінії банку або лікарні. Сьогодні я вперше розповім читачам Хабра про те, як прискорення пошуку в додатку Яндекс призвело до можливості шукати важливу інформацію без інтернету.



Але для початку потрібно зрозуміти головне: навіщо ми взагалі взялися за офлайн-пошук, якщо сайти з результатів пошуку все одно недоступні при відсутності мережі?


Читати далі →

Штучний інтелект в пошуку. Як Яндекс навчився застосовувати нейронні мережі, щоб шукати за змістом, а не за словами

Сьогодні ми анонсували новий пошуковий алгоритм «Палех». Він включає в себе всі ті поліпшення, над якими ми працювали останнім часом.

Наприклад, пошук тепер вперше використовує нейронні мережі для того, щоб знаходити документи не за словами, які використовуються в запиті, і в самому документі, а за змістом запиту і заголовка.



Вже багато десятиліть дослідники б'ються над проблемою семантичного пошуку, в якому документи ранжуються, виходячи з смислового відповідності запиту. І тепер це стає реальністю.

У цьому пості я спробую трохи розповісти про те, як у нас це вийшло і чому це не просто ще один алгоритм машинного навчання, а важливий крок в майбутнє.

Читати далі →

Як знайти вектор розвитку програмного продукту? Планування як наука

Основний принцип, за яким ми розвиваємо Macroscop сьогодні – «почути користувача і зробити те і так, як йому потрібно». Ми не просто придумали для себе таку стратегію, а отримали її на своєму досвіді, і цей шлях зайняв у нас 6 років. Про це ми розповідали в одному з попередніх постів. При цьому ми впевнені, що шлях виключно задоволення поточних потреб користувачів не може зробити компанію абсолютним лідером ринку. І якщо ви цього хочете, необхідно робити те, чого ніхто не робить, втілювати у своїх розробках те, що іншим здається неможливим.

Перетворюємо планування в точну науку

Як визначити вектор розвитку продукту і поєднати його корисність і інноваційність? Для того, щоб наші нові розробки з більшою ймовірністю «потрапили в ціль», було прийнято рішення провести глибоке дослідження і на основі його результатів запланувати нову версію. Визначенням стратегії розвитку Macroscop займається продакт-менеджер компанії, і ось за яким алгоритмом діяв він:
Читати далі →

Тематичне моделювання на шляху до розвідувального інформаційного пошуку. Лекція в Яндексі

Нещодавно в Москві пройшла конференція Data Fest, організована спільнотою Open Data Science і Яндексом. Цією публікацією ми відкриваємо серію расшировок доповідей з Data Fest. Автор першої доповіді — доктор наук, визнаний фахівець з машинного навчання і викладач Школи аналізу даних Костянтин В'ячеславович Воронцов.


Всяку чи пошукову функцію виконує Яндекс або Google? На жаль, поки немає. Існують такі типи пошуку, при яких ніяка видача не буде вважатися правильною. І справа навіть не в релевантності, а в тому, що потрібен інший пошук — крім звичного нам усім. Під катом ви знайдете розшифровку лекції про розвідувальному пошуку, а також більшість слайдів.


Читати далі →

Лекції Техносфери. 2 семестр. Інформаційний пошук (весна 2016)

Сучасна пошукова система, якість роботи якої сприймається як даність, є складними програмно-апаратним комплексом, творцям якого довелося вирішити величезну кількість практичних проблем, починаючи від великого обсягу оброблюваних даних і закінчуючи нюансами сприйняття людиною пошукової видачі. На курсі другого семестру Техносфери «Сучасні методи та засоби побудови систем інформаційного пошуку» ми розповідаємо про основні методи, які застосовуються при створенні пошукових систем. Деякі з них — хороший приклад кмітливості, деякі показують, де і як може застосовуватися сучасний математичний апарат.

Автори курсу — творці пошукової системи на порталі Mail.Ru — діляться власним досвідом розробки систем штучного інтелекту. В курсі розповідається, наскільки цікаво і захоплююче робити пошукову систему, розв'язувати задачі опрацювання текстів на природній мові, а також які використовуються методи і засоби вирішення таких завдань.

Лекція 1. «Введення в інформаційний пошук»


Олексій Воропаєв, керівник групи рекомендацій Пошуку Mail.Ru дає визначення поняття інформаційного пошуку, робить огляд існуючих пошукових систем, розповідає про індексацію та пошукових кластерах.

Читати далі →

Пошук Яндекса з інженерної точки зору. Лекція в Яндексі

Сьогодні ми публікуємо ще один з доповідей, що прозвучали на літній зустрічі про пристрої пошуку Яндекса. Виступ керівника відділу ранжирування Петра Попова вийшло в той день самим доступним для широкої аудиторії: мінімум формул, максимум загальних понять про пошук. Але цікаво було всім, тому що Петро кілька разів переходив до деталей і в підсумку розповів багато такого, про що Яндекс ніколи раніше публічно не заявляв.

До речі, одночасно з публікацією цієї розшифровки починається друга зустріч з серії, присвяченій технологіям Яндекса. Сьогоднішній захід — вже не про пошук, а про інфраструктуру. Ось посилання на трансляцію.


Ну а під катом — лекція Петра Попова і частина слайдів.


Читати далі →

Парсинг резюме

Ті хто стикався з завданнями автоматизованого аналізу резюме, представляють сучасний стан справ в цій області — існуючі парсери в основному обмежуються виділенням контактних даних та ще кількох полів, таких як «посада» і «місто».

Для скільки-небудь осмисленого аналізу цього мало. Важливо не тільки виділити якісь рядки і позначити їх тегами, але і визначити, що за об'єкти криються за ними.

Живий приклад (шматок XML результату аналізу резюме від одного з лідерів галузі Sovren):

<EmployerOrg>
<EmployerOrgName>ТОВ Зірка-DSME</EmployerOrgName>
<PositionHistory positionType="directHire">
<Title>Провідний спеціаліст відділу розвитку інформаційних систем</Title>
<OrgName>
<OrganizationName>ТОВ Зірка-DSME</OrganizationName>
</OrgName>


Парсер Sovren чудово впорався з виділенням полів. Хлопці не дарма займаються цією справою без малого 20 років!
Але що далі робити з «Провідний спеціаліст відділу розвитку інформаційних систем»? Як зрозуміти, що ж це за посада, наскільки досвід роботи цієї людини релевантним для тієї чи іншої вакансії?


Читати далі →

Виклики пошукового хмари. Лекція в Яндексі

Інтернет-компанії вибирають і тестують обладнання для дата-центрів не тільки за номінальним специфікаціям, що надійшли від виробника, але і з урахуванням реальних продакшен-завдань, які будуть виконуватися на цьому обладнанні. Потім, коли дата-центр уже спроектований, побудований і запущений, проводяться навчання — вузли відключають без відома сервісів і дивляться, наскільки вони підготовлені до подібної ситуації. Справа в тому, що за такої складної інфраструктури неможливо добитися повної відмовостійкості. У якомусь сенсі ідеальний дата-центр — це той, який можна вимкнути без шкоди для сервісів, наприклад для пошуку Яндекса.


Керівник групи експертизи runtime пошуку Олег Федоров був у числі доповідачів на великій пошуковій зустрічі Яндекса, яка пройшла на початку серпня. Він розповів про всі основні аспекти проектування дата-центрів під завдання, пов'язані з обробкою великих обсягів даних. Під катом — розшифровка та слайди Олега.


Читати далі →

Як влаштований пошук

Андрій Аксьонов

Андрій Аксьонов ( shodan, Розробник пошукового движка Sphinx)
Пошук влаштований ось так:

Короткий пристрій пошуку

Індексація – за великим рахунком, нічого складного. Ясна річ, що по малому рахунку, там в кожній з трьох «деталей» захований не те, що демон, а ціле десь стадо, десь легіон, не зовсім зрозуміло. Але концепція завжди проста. Все починається з маленького простенького патчика до Многосерчу, а потім 15 років цієї хернею займаєшся.

Береш документи, разваливаешь їх на ключові слова. І просто взяти і розвалити документ на ключові слова «мама, мила, раму» – це ти не далеко пішов від grep'а, тому що потім все одно ці ключові слова перебирати. Треба будувати якусь спец. структуру – повнотекстовий індекс. Варіантів для його побудови людство придумало у свій час досить багато, але, слава Богу, від усіх відмовилося і в нормальних продакшн системах, за великим рахунком, переміг на даний момент варіант рівно один. Про нього і буду розповідати. Всі інші мають скоріше історичне значення, чи що, і практичного інтересу не представляють.

Читати далі →