Product API від Fetchee: автоматичний парсинг товарів інтернет-магазинів

З початку роботи над Fetchee у нас був план запропонувати рішення для парсингу даних про товари інтернет-магазинів корпоративних клієнтів і стартап-спільноти. Відгуки, які ми зібрали за час роботи, говорили про його потенційну затребуваності і підвели до запуску нового продукту, який допоможе розробникам швидко створювати власні програми, на основі однієї з головних функцій Fetchee — збору eCommerce даних і стеження за цінами в будь-яких інтернет-магазинах світу.

На старті проекту ми хотіли якомога швидше показати готовий продукт користувачам, тому намагалися спростити додаток всіма способами. Одним з варіантів була відмова від розробки власного парсера інтернет-магазинів і впровадження готового рішення.

В цілях скорочення обсягу оповідання, втрачу порівняння популярних додатків з вилучення даних з сайтів (якщо хочете побачити це порівняння, залиште свій голос в опитуванні в кінці статті). Достатньо буде сказати, що найбільш підходящим для нашої задачі виявився diffbot — дуже недешевий сервіс, популярний серед великих компаній і стартапів з пристойним фінансуванням. Його використовують багато програм для створення закладок, адже якісний парсинг — це важко.

По-перше, рішення нам було не по кишені, а по-друге, diffbot погано працював з російськими інтернет-магазинами. Довелося придумувати свою технологію парсинга, яка повинна вміти:

  • Максимально автоматично визначати основні параметри товару;
  • Працювати з будь-якою валютою і мовою;
  • Враховувати географічне положення користувачів і особливості роботи магазинів з цим регіоном (мова, валюта і країна);
  • Визначати магазини з дискримінаційним ціноутворенням (версія операційної системи і місто в межах країни).
Нам вдалося реалізувати всі описані вище принципи. Система навчається на нових даних і розумнішає на очах. Чим більше запитів — тим точніше вона стає. Наше бажання зробити вибірку більш різноманітною і стало однією з причин надання доступу до Product API стороннім розробникам, т. к. темпи появи нових даних з боку користувачів сповільнилися — 90% купують в одних і тих же інтернет-магазинах.

Отже, зустрічайте Product API від Fetchee. З його допомогою ви зможете, вказавши будь URL товару в інтернет-магазині, отримати основні дані про речі, включаючи назву, зображення, ціну і валюту. У випадку з нашим API, вам не доведеться налаштовувати парсер під кожен сайт, система самостійно аналізує сторінку і визначає потрібні дані.

image

Наприклад, ось результати парсинга велосипеда з Avito.

{
"id":"58234b6cfd920b507bfd6b1f",
"url":"https://www.avito.ru/sankt-peterburg/velosipedy/velosiped_author_basic_rama_19_i_21_835103333",
"title":"Велосипед Author Basic, рама 19\" і 21\"",
"price":14900,
"currency":"RUB",
"img_url":"https://fetch.ee/assets/item-images/5823/4b78475d39467b4b25eb.jpg",
"created_at":"2016-11-09T16:14:36.542 Z",
"last_track_at":"2016-11-09T16:14:48.061 Z"
}

Модною сумки з Wildberries.

{
"id":"5824212c65ef60477b38b890",
"url":"https://www.wildberries.ru/catalog/3095060/detail.aspx?targetUrl=GP",
"title":"Сумка, GUESS",
"price":13560,
"currency":"RUB",
"img_url":"https://fetch.ee/assets/item-images/5824/2144475d39467b4b26de.jpg",
"created_at":"2016-11-10T07:26:36.368 Z",
"last_track_at":"2016-11-10T07:27:00.544 Z"
}

Або позашляховика з автомобільного сайту.

{
"id":"5824219b65ef60477b38b8be",
"url":"https://auto.ru/cars/new/sale/bmw/x6_m/1044423007-94d1a/",
"title":"Продаж BMW X6 M II (F86) у Москві",
"price":8099000,
"currency":"RUB",
"img_url":"https://fetch.ee/assets/item-images/5824/21ad475d39467b4b26df.jpg",
"created_at":"2016-11-10T07:28:27.038 Z",
"last_track_at":"2016-11-10T07:28:45.516 Z"
}

На будь-якій сторінці, де є ціна, зображення і назва товару — Product API знайде ці дані і поверне їх вам в JSON для подальшої обробки.

Спробувати API можна прямо на сторінці Beta-програми. Якщо сподобається результат тест-драйву, реєструйтеся як розробник — чим більше буде заявок, тим раніше ми надамо повний доступ до API.

Нам дуже цікаво побачити як ваші ідеї втілюються в життя за допомогою Product API.

Джерело: Хабрахабр

0 коментарів

Тільки зареєстровані та авторизовані користувачі можуть залишати коментарі.