Спеціально для тих, хто не встиг зареєструватися на Superjob Data Science Meetup, ми організуємо пряму трансляцію події на Youtube або Facebook.

Початок у 19:00 за московським часом.
image

Читати далі →

Superjob запрошує на Data Science Meetup. Зустрічаємося 2 березня в нашому офісі на Малій Дмитрівці.

image

Теми та спікери:

  • «Застосування алгоритмів пошуку нечітких дублікатів в пошуку вакансій»
Дмитро Кожокарь, старший розробник Superjob, розповість про досвід створення ефективного алгоритму пошуку нечітких дублікатів серед великої кількості напівструктурованих текстових записів. У доповіді розглядається використання функції з сімейства locality-sensitive hashing з додатковими оптимизациями для виявлення схожих вакансій і подальшого об'єднання їх у кластери.

Читати далі →

Chatbot на базі рекурентної нейронної мережі своїми руками за 1 вечір/6$ і ~ 100 рядків коду

У даній статті я хочу показати наскільки просто сьогодні використовувати нейронні мережі. Навколо мене досить багато людей одержимі ідеєю того, що нейронки може використовувати тільки дослідник. І що б отримати хоч якийсь вихід, потрібно мати як мінімум кандидатський ступінь. А давайте на реальному прикладі подивимося як воно насправді, взяти і з нуля за один вечір навчити chatbot. Так ще не просто аби чим а самим що нинаесть ламповим TensorFlow. При цьому я постарався описати все настільки просто, що-б він був зрозумілий навіть починаючому програмісту! У шлях!

image

Читати далі →

Приклад використання Product API від Fetchee для парсингу товарів інтернет-магазину

image

У цій інструкції ми розповімо про те, як з допомогою Fetchee Product API отримати дані про товар URL на прикладі інтернет-магазину lamoda.

Для тих, хто не читав нашу минулу замітку — Product API буде корисний розробників, яким потрібно отримувати дані про товари з будь-якого магазину, але які не хочуть витрачати час на створення власної системи парсинга або вже усвідомили, що open-source бібліотеки володіють істотними обмеженнями і вимагають багато часу на підтримку. Наш автоматичний і не вимагає налаштування API для парсингу eCommerce даних дає можливість зосередиться на розробці основних функцій програми. До того ж спробувати його дуже просто. Деталі під катом.

Читати далі →

Product API від Fetchee: автоматичний парсинг товарів інтернет-магазинів

З початку роботи над Fetchee у нас був план запропонувати рішення для парсингу даних про товари інтернет-магазинів корпоративних клієнтів і стартап-спільноти. Відгуки, які ми зібрали за час роботи, говорили про його потенційну затребуваності і підвели до запуску нового продукту, який допоможе розробникам швидко створювати власні програми, на основі однієї з головних функцій Fetchee — збору eCommerce даних і стеження за цінами в будь-яких інтернет-магазинах світу.

Читати далі →

Що таке великі дані, частина 3


першої частини ми дізналися про даних, і про те, як вони можуть бути використані для вилучення з них метаданих або якихось значень.
Друга частина пояснила сам термін Big Data і показала, як він перетворився на індустрію, причиною появи якої стало вплив економіки. Ця, третя частина, в якій має бути логічне продовження двох попередніх і у всього цього повинен з'явитися сенс — сумна, місцями іронічна, а місцями лякає. Ви бачите самі, як технологічні, бізнес, і навіть соціальні контракти в перспективі вже переопределялись великими даними таким шляхом, який ми тільки зараз починаємо розуміти. І, можливо, вони ніколи вже не стануть контрольованими.
З допомогою чого б не проводився аналіз — суперкомп'ютера чи складеної вручну в 1665 році таблиці зі списків мертвих, деякі аспекти великих даних існували набагато довше, ніж ми можемо уявити.
Темна сторона великих даних. Історично роль великих даних не завжди була кришталево чистотою. Ідея переробки цифр, призводить до кількісної раціоналізації для чого, що ми хотіли зробити, існує з тих пір, як у нас з'явилися зайві гроші.
Читати далі →

Що таке великі дані, частина 2


першої частини цієї серії статей ви дізналися про даних і про те, як можна використовувати комп'ютери щоб добувати смислове значення з великих блоків таких даних. Ви навіть бачили щось схоже на великі дані у Amazon.com середини дев'яностих, коли компанія запустила технологію для спостереження і запису в реальному часі все, що багатотисячна аудиторія клієнтів одночасно робила на їх сайті. Досить вражаюче, але назвати це великими даними можна з натяжкою, пухкі дані — більше підійде. Організації на зразок Агентства національної безпеки США (NSA) та Центру урядового зв'язку Великобританії (GCHQ) вже збирали великі дані в рамках шпигунських операцій, записуючи цифрові повідомлення, хоча у них і не було простого способу розшифрувати їх і знайти в них сенс. Бібліотеки урядових записів були переповнені наборами бессвязних даних.
Те, що зробив Amazon.com, було простіше. Рівень задоволеності їхніх клієнтів міг бути легко визначений, навіть якщо він охоплював всі десятки тисяч продуктів і мільйони споживачів. Дій, які клієнт може вчинити в магазині, він реальний або віртуальний, не так вже й багато. Клієнт може подивитися що в доступі, запросити додаткову інформацію, порівняти продукти, що покласти у кошик, купити або піти. Все це було в межах можливостей реляційних баз даних, де відносини між усіма видами дій можливо задати заздалегідь. І вони повинні бути задані заздалегідь, з чим у реляційних баз даних проблема — вони не так легко розширювана.
Заздалегідь знати структуру такої бази даних — як скласти список всіх потенційних друзів вашого ненароджену дитину… на все життя. У ньому повинні бути перераховані всі ненароджені друзі, тому що як тільки список буде складений, яке додавання нової позиції вимагає серйозного хірургічного втручання.
Читати далі →

ORegex: Достатньо швидко для об'єктів?

image
Добрий вечір, хабражітелі! Сьогодні хочу поділитися невеликими перфоманс оцінками ORegex .NET.
Якщо ви читали мою попередню статтю тут, то на мій погляд було не дуже переконливо представляти щось без порівняльної оцінки швидкості, Ви так не вважаєте? Якщо так, то Вам під кат.
Читати далі →

Пошук зв'язків у соціальних мережах

Привіт, Хабр! У цьому пості ми хочемо поділитися нашим рішенням задачі з передрікання прихованих зв'язків у корпоративній соціальній мережі «Вулик» компанії Білайн. Це завдання ми вирішували в рамках віртуального хакатона Microsoft. Треба сказати, що до цього хакатона у нашої команди вже був успішний досвід вирішення таких завдань на хакатоне від Однокласників і нам дуже хотілося випробувати наші напрацювання на нових даних. У статті ми розповімо про основні підходи, які застосовуються при вирішенні подібних завдань і поділимося деталями нашого рішення.

Читати далі →

Power Query: стероїди для MS Excel

image

У даній статті я хочу розповісти про деяких можливостях безкоштовною і вкрай корисною, але поки ще мало відомою надбудови над MS Excel під назвою Power Query.

Power Query дозволяє забирати дані з різних джерел (таких як csv, xls, json, текстових файлів, папок з цими файлами різних баз даних, різних api кшталт Facebook opengraph, Google Analytics, Яндекс.Метрика, CallTouch і багато чого ще), створювати повторювані послідовності обробки цих даних і завантажувати їх всередину таблиць Excel або самого data model.

І ось під катом ви можете знайти подробиці усього цього пишноти можливостей.

Читати далі →