Лекції Техносфери. 2 семестр. Інформаційний пошук (весна 2016)

Сучасна пошукова система, якість роботи якої сприймається як даність, є складними програмно-апаратним комплексом, творцям якого довелося вирішити величезну кількість практичних проблем, починаючи від великого обсягу оброблюваних даних і закінчуючи нюансами сприйняття людиною пошукової видачі. На курсі другого семестру Техносфери «Сучасні методи та засоби побудови систем інформаційного пошуку» ми розповідаємо про основні методи, які застосовуються при створенні пошукових систем. Деякі з них — хороший приклад кмітливості, деякі показують, де і як може застосовуватися сучасний математичний апарат.

Автори курсу — творці пошукової системи на порталі Mail.Ru — діляться власним досвідом розробки систем штучного інтелекту. В курсі розповідається, наскільки цікаво і захоплююче робити пошукову систему, розв'язувати задачі опрацювання текстів на природній мові, а також які використовуються методи і засоби вирішення таких завдань.

Лекція 1. «Введення в інформаційний пошук»


Олексій Воропаєв, керівник групи рекомендацій Пошуку Mail.Ru дає визначення поняття інформаційного пошуку, робить огляд існуючих пошукових систем, розповідає про індексацію та пошукових кластерах.

Лекція 2. «Особливості web-пошуку. Архітектура пошукового робота»


З цієї лекції ви дізнаєтеся про історію пошукових систем, сучасних основи веб-пошуку, користувацькі уподобання та емпіричної оцінки пошукової видачі. Лекцію читає Ян Кисіль, керівник групи інфраструктури Пошуку Mail.Ru.

Лекція 3. «Пріоритезація краулера»


Дмитро Соловйов, провідний розробник групи ранжування, розповідає про пошукових роботів. Дається огляд краулеров, дані про аналіз кластерів сайту, експериментів з квотуванням, визначень якості індексу і т. д.

Лекція 4. «Застосування самоорганізуючих карт в пошуковій машині»


Дмитро Соловйов вирішує завдання аналізу і візуалізації даних, говорить про варіанти використання самоорганізуючих карт в пошуковій машині і проводить семінар щодо виділення та аналізу сегментів для пріоритезації.

Лекція 5. «Пошук дублікатів документів»


Ян Кисіль дає визначення дублікатів, їх видами, показує приклад шинглирования (shingling: перетворення документів у безлічі). Розглядаються всі етапи для визначення схожих документів, включаючи minhashing (перетворення великих множин в короткі сигнатури) і прийоми для масштабування.

Лекція 6. «Пошук дублікатів документів. Частина 2»


Продовження попередньої лекції. Ян розповідає про методи видалення обв'язки сторінок, нормалізації тексту, глобальної детекції і закінчує лекцію інформацією про те, що далі робити з дублями тексту і зображень.

Лекція 7. «Індексація та булев пошук»


Розглядається підхід до індексації та методами стиснення. Що є у пошуку індексом, які існують підходи до швидкого перетину списків, різні варіанти стиснення в web. Лекцію читає Ян Кисіль.

Лекція 8. «Методи оптимізації зворотного індексу»


Ян продовжує тему індексації. На цей раз мова піде про створення словника індексу, збір результатів у великому web, і про те, які особливості існують при роботі з пам'яттю і написанні демонів.

Лекція 9. «Очищення пошукового індексу: антиспам»


Перша лекція, присвячена фільтрації контенту. Ця частина стосується методів впливу спаму на пошуковик і способів протидії. Дмитро Соловйов показує методи виявлення спам-сайтів і детекції спаму на основі аналізу вмісту сторінок.

Лекція 10. «Очищення пошукового індексу: антипорн»


Друга частина фільтрації: на цей раз боремося з порно. Завдання вимагає інших підходів, на відміну від методів боротьби зі спамом. Розглядаються методики фільтрації запитів, web-сторінок і картинок, включаючи способи на основі роботи сверточной нейронної мережі.

Лекція 11. «Микроразметка. Детектор решт пропозицій»


Прикладний лінгвіст Ігор Андрєєв присвятив свою лекцію сниппетам (фрагменти тексту, які використовуються в якості опису посилання в результатах пошуку). Ігор говорить про дизайні пошукової видачі, семантичному вебі, RDF (resource description framework), микроразметке і те, як це все поєднується з сниппета.

Лекція 12. «Побудова снипетов»


Друга частина розмови про фрагментах: автоматичне реферування (automatic text summarization), перехід на формування органічних фрагмента, короткий пристрій прямого індексу і в останній частині дається оцінка якості фрагментів.

Лекція 13. «Виправлення помилок. Саджесты. Переформулювання»


Керівник групи аналізу запитів Євген Чернов дві лекції присвятив виправлення помилок у пошукових запитах. Євген говорить про типи помилок, простому пошуку помилок, відстані Левенштейна, статистикою моделі мови, генерації варіантів заміни і різних типів виправлень.

Лекція 14. «Саджесты, переформулювання, класифікатори»


У заключній лекції Євген Чернов розповідає про пошукових підказках саджестах), переформулировках (наборах запитів, мають щось спільне з заданим) і цілої групи різних класифікаторів.

Плейлист всіх лекцій знаходиться за посилання. Нагадаємо, що актуальні лекції та майстер-класи про програмуванні від наших ІТ-фахівців в проектах Технопарк, Техносфера і Технотрек як і раніше, публікуються на каналі Технострим.
Джерело: Хабрахабр

0 коментарів

Тільки зареєстровані та авторизовані користувачі можуть залишати коментарі.