Дослідження датасета з IMDB



Проблематика
Фільми — це круто, фільми надихають нас, наповнюють упевненістю, загалом дають нам багато чого. І тому у цій статті я б хотів розповісти вам про дослідження тенденцій сучасного кінематографа з допомогою інструментів аналізу даних, який вже був презентований у фіналі Science Slam ITMO University 2.0. Повний випуск доступний тут.

Одного разу на Кинопоиск я натрапив на незнайомий фільм. Це виявився «Зелений Слоник» — горезвісна стрічка епохи VHS. Ті, хто чули про нього, можуть зрозуміти враження, які я відчув після прочитання сторінки про цьому фільмі на Вікіпедії…


Але безглуздих фільмів греблю гати і чи варто їм взагалі приділяти хоч якусь увагу? А ось рейтинг цього фільму виявився аномально високим. І це дуже здивувало, адже як такий відвертий кінематографічний «шлак» набирає рейтинг вище середнього(по всіх фільмів).

І ось я, сповнений скептицизму і недовіри до Яндексу систему рейтингування, озброївся інструментами для аналізу і візуалізації даних на основі python стека (sklearn, pandas, matplotlib, numpy) і вирішив розібратися чому в подібних фільмів можуть з'являтися пристойні рейтинги. Під катом ви знайдете цікаві і неочевидні висновки про сучасний (і не дуже) кінематографі, а також багато ілюстрацій до них.

Дані в першу чергу
Отже, починати треба з пошуку даних, які ми власне і збираємося аналізувати. Звичайно, не дуже хотілося збирати дані вручну, а хотілося відразу зосередитися саме на їх аналізі. Тому я тут же почав шукати потрібний датасет в інтернеті. Знайшов його в тому місці, куди варто заглянути в першу чергу — на сайті kaggle.com. Це виявився датасет, що містить більше 5000 фільмів з відомого сайту про кінематографі imdb. В признаковом описі кожного фільму містилося чимало категоріальних і речових ознак, з якими ви можете ознайомитися на сторінці датасета сторінці датасета.

Але так як мені спочатку був цікавий саме рейтинг Кинопоиск, пошук потрібного датасета продовжився. АПІ Кинопоиск виявився закритий, а писати парсер html сторінок сервісу було лінь не було часу з-за завалу на навчанні. Тому я зважився і написав в службу підтримки Кинопоиск з проханням надати датасет для дослідження виключно в академічних цілях. На превеликий подив мені навіть відповіли, але відповіли негативно. У підсумку знайти нічого іншого не вдалося. Датасет з Кинопоиск я обов'язково зберу, але не раніше, ніж після сесії. А зараз для аналізу довелося взяти той датасет IMDB.

З чого складається стаття
Дослідження знайденого датасета розділилося на дві об'ємні частини:

  1. Навчання алгоритму передбачення (рейтинг фільму є цільовою міткою)
  2. Пошук цікавих і нетривіальних кореляцій в даних
У даній статті я хотів би приділити більше уваги саме другий частини дослідження, але лише зауважу, що в першій частині я пробував навчати велику кількість різних моделей. Точність передбачення, якій вдалося домогтися за допомогою градієнтного бустинга становить 0.4 бали (mse помилка) за шкалою IMDB. Але процес побудови предсказательная моделі заслуговує окремої статті, а в цій пропоную зосередитися на другому пункті.

Почнемо
Другу частину свого дослідження я почав з того, що взяв алгоритм лінійної регресії з lasso регуляризацией, навчений в першій частині і побудував діаграму вагових коефіцієнтів ознак. Давайте поглянемо на неї:


Стовпці «Режисер», "[123] Актор" відповідають кількістю лайків на Facebook у відповідних особистостей. «Формат» — це співвідношення сторін зображення. «Обличчя» — це цікавий речовий ознака, що відображає кількість осіб на постері фільму. Значення інших ознак очевидно. На даній діаграмі можна відзначити кілька цікавих моментів:

  • Тривалість фільму дає позитивний внесок у рейтинг фільму(мабуть довгі фільми краще заходять глядачам)
  • Рік дає негативний внесок (тобто чим новіше фільм, тим більше ймовірність, що рейтинг виявиться низьким)
  • Кількість осіб на постері теж дає негативний внесок

Останній пункт у мене, як шанувальника фільму «Готель Гранд Будапешт», викликав обурення, але з алгоритмом не посперечаєшся.

Жанр
Тепер давайте поглянемо на, мабуть, головна ознака кінострічки — «Жанр».





На першій діаграмі відображено перша топ десятка жанрів, на другий жанри з 11 по 20 місце за середнім рейтингом.

Виявляється найбільший рейтинг набирають документальні, біографічні та історичні фільми. У свою чергу з великим відривом найменший рейтинг набирають фільми з жанру жахів.

Країна виробництва
Досить цікавий результат можна спостерігати на діаграмі, що відбиває середній рейтинг фільму з різних країн. Давайте розглянемо топ шістку країн за середнім рейтингом:



Як бачимо найбільш рейтингові фільми (в середньому) знімають у Великобританії, після якої йде Франція, а от Австралія на третьому місці стала вельми цікавою несподіванкою. Особисто мені важко було відразу згадатихоч який-высокорейтинговый фільм з Австралії. Погугливши, вдалося з'ясувати, що недавно вийшов фільм «Божевільний Макс: Дорога люті». А ось те, що американці, зайняли місце поза топ трійки, вельми дивує.

А тепер давайте поглянемо на фінансову складову — на витрати кожної з країн на своє кіновиробництво:


Тут все цілком очікувано, США лідирує з величезним відривом, правда це не зістикується з попередньою діаграмою. Виходить, що американці нераціонально використовують свої ресурси, раз витрачають більше, але за якістю програють. Хоча ніхто не заперечує, що вони можуть брати не якістю, а кількістю.


Тепер давайте розглянемо, як різні ознаки фільмів залежать від часу. На цьому графіку відображається середній рейтинг фільмів в якийсь момент часу:



Можемо побачити, що середній рейтинг фільмів зростає обернено пропорційно року випуску фільму.

У свою чергу цей факт не зістиковується з вмістом наступного графіка:



На даному графіку відображена динаміка зміни середнього бюджету фільму. З останніх двох графіків можна зробити висновок, що з роками ми витрачаємо на фільми більше, а отримуємо їх за якістю нижче.

Також вельми цікаву картину дала залежність середньої тривалість фільму від часу:


Можна бачити, що найбільш тривалі фільми знімали в 70ті роки. Це дуже важко піддається поясненню і можна бути впевненим, що ніхто точної відповіді на це не знає. Можна лише припустити, що в 70ті роки відео — та аудіоапаратура отримала серйозний розвиток, у той же час у режисерів і сценаристів було море ідей і тому їм було важко зупинити потік думок. А в наш час вже знято настільки багато фільмів, що вже важко придумати щось нове і тому фільми роблять коротше.

Висновки
Як бачимо Data Mining дослідження дає дуже цікаві результати і можуть бути використані для аналізу різних поточних процесів в одному з найбільш динамічних і швидко індустрій світу. Гарним прикладом використання цих залежностей на практиці є серіал «Картковий будиночок». Про те, як компанія Netflix підбирала режисерів і акторів з допомогою методів аналізу даних ви можете почитати здесь.
Джерело: Хабрахабр

0 коментарів

Тільки зареєстровані та авторизовані користувачі можуть залишати коментарі.