Чому в пошуку без лінгвістики не обійтися?

    Сьогодні мова піде про те, яку роль в Інтернет-пошуку грає лінгвістика. Щоб помістити це в контекст, почну з того, як пов'язані між собою лінгвісти і велика пошукова компанія, наприклад, «Яндекс» (більше 5000 чол.), «Гугл» (більше 50 000 чол.), «Байду» (більше 20 000 ). Від третини до половини цих людей працюють безпосередньо на пошук. Лінгвісти всередині цих компаній приблизно порівну діляться між пошуком і іншими напрямками — новинами, перекладом і т.д.
 
 
 
Я сьогодні буду говорити про ту частину лінгвістів, яка перетинається з пошуком. На діаграмі вона позначена штрихуванням. Можливо, в Google та інших компаніях все влаштовано трошки інакше, ніж у нас, проте, загальна картина приблизно така: лінгвістика є важливим, але не визначальним напрямком роботи пошукових компаній. Ще одне важливе доповнення: у житті, звичайно, межі розпливчасті — неможливо сказати, наприклад, де закінчується лінгвістика і починається машинне навчання. Кожен лінгвіст, що працює в пошуку, трохи займається програмуванням, небагато — машинним навчанням.
 
Читати далі →

Розумні закладки на основі Elasticsearch

  Періодично став помічати, що не можу знайти потрібну статтю, яку бачив раніше.
Начебто все просто — по запам'ятався відомостями статтю можна легко знайти. Але немає. Пошук в Google часто нічого не дає, тому що я пам'ятаю тільки обривки вмісту, і пошукова видача містить багато шуму.
 
Актуально це і на роботі. Для зберігання та обміну корисними посиланнями на різні Github проекти, статті, сервіси раніше ми використовували Skype, але зараз стали використовувати для цих цілей Yammer. Обидва ці способи мають свої недоліки. Основний недолік Skype для обміну посиланнями — це складність пошуку по історії. Проблема Yammer — він не індексує текст статті, а тільки сниппет. Жоден з них не має можливості автоматичної категоризації.
 
У вільний час я написав додаток, спеціально заточене для пошуку статей. Його можливості:
 
     
  • додавання статті однією кнопкою з браузера
  •  
  • автоматична категоризація
  •  
  • російська і англійська морфологія
  •  
  • перегляд тексту статті
  •  
  • оператори пошукового запиту
  •  
 
Читати далі →

Штучний інтелект і чому мій комп'ютер мене не розуміє?



Гектор Левек wiki стверджує, що його комп'ютер тупий. І ваш теж. Siri і голосовий пошук Google вміють розуміти приготовані пропозиції. Наприклад «Які фільми будуть показувати неподалік в 7 годин?» Але що щодо питання «Чи може алігатор пробігти стометрівку з бар'єрами?» Таке питання ніхто раніше не ставив. Але будь-який дорослий може знайти відповідь на нього (Ні. Алігатори не можуть брати участь у бігу з бар'єрами). Але якщо ви спробуєте ввести це питання в Google, то отримаєте тонни інформації про спортивній команді з легкої атлетики Florida Gators. Інші пошукові системи, такі як Wolfram Alpha, теж не здатні знайти відповідь на поставлене запитання. Watson, комп'ютерна система виграла вікторину «Jeopardy!», Навряд чи покаже себе краще.

Читати далі →