ще трохи Заглибимося в малохоженные нетрі Data Science. Сьогодні у черзі на препарацію алгоритм кластеризації DBSCAN. Прошу під кат людей, які стикалися або збираються зіткнутися з кластеризацией даних, в яких зустрічаються згустки довільної форми — сьогодні ваш арсенал поповниться відмінним інструментом.



Читати далі →

Як розрізняти британську та американську літературу з допомогою машинного навчання

Одного разу мені стало цікаво, чи відрізняється британська та американська література з точки зору вибору слів, і якщо відрізняється, чи вдасться мені навчити класифікатор, який розрізняв літературні тексти з точки зору частоти використаних слів. Розрізняти тексти, написані на різних мовах, досить легко, потужність перетину безлічі слів невелика відносно множини слів у вибірці. Класифікація тексту за категоріями «наука», «християнство», «комп'ютерна графіка», «атеїзм», — всім відомий hello world серед завдань по роботі з частотністю тексту. Переді мною стояла більш складна задача, так як я порівнювала два діалекти однієї мови, а тексти не мали спільної смислової спрямованості.
image
Читати далі →

Візуалізація фото-портфоліо. Частина 1: Нестандартне застосування deep learning

image

Коротко про задачі: є фото-портфоліо з великою кількістю фото, хочемо дізнатися список популярних і не популярних тем.

Читати далі →

Візуалізація фото-портфоліо. Частина 2: Word embedding

image
У попередній частині йшлося про розбиття фото-портфоліо за сигналами з передостаннього шару моделі inceptionV3. У цій частині я розповім, як розбивати портфоліо за ключовими словами.

Читати далі →

Розв'язання завдання «Оцінка продуктивності» mlbootcamp.ru

Залишилося менше трьох днів до закінчення конкурсу «Оцінка продуктивності». Можливо, дана стаття комусь допоможе поліпшити своє рішення. Суть завдання — передбачити час множення двох матриць на різних обчислювальних системах. В якості оцінки якості передбачення береться найменша середня відносна помилка MAPE.

На поточний момент перше місце — 4.68%. Нижче хочу описати свій шлях до 6.69% (а це вже 70+ місце).

Читати далі →

Як працює метод головних компонент (PCA) на простому прикладі



У цій статті я б хотів розповісти про те, як саме працює метод аналізу головних компонент (PCA – principal component analysis) з точки зору інтуїції, що стоїть за її математичним апаратом. Максимально просто, але докладно.

Читати далі →