Chart Wars: Діаграми наносять удар у відповідь

Що може бути гірше кругової діаграми?
Дві кругові діаграми! Едвард Тафти
Всі ми вже не раз бачили, що може піти не так з візуалізацією даних. Сьогодні обговоримо кілька важливих принципів, що лежать в основі якісної графіки, і що набагато цікавіше, дізнаємося, що станеться, якщо ці правила НЕ дотримуватися.



Структура статті
  1. Сприйняття вимірювань
  2. Співвідношення чорнило-дані
  3. Фактор обману
  4. Парадокс Сімпсона
  5. Джон Сноу все-таки щось знає — приклад класики візуалізації
  6. Що ще подивитися-почитати
  7. Кругова діаграма в реальному житті

(*обережно трафік*)

Сприйняття вимірювань

Найчастіше нам необхідно зображати лінійні величини на графіку тобто залежність однієї змінної Х, наприклад, час у годинах, від другої Y, наприклад пройдений шлях км. Нехай 1 см на графіку дорівнює 1 годині по Х і 5 км Y. Вася їде на велосипеді 10 км в годину і їхав протягом 4 годин. Отже, зміна Х складе 4 см, а по Y 40/5=8 див.

Що в подібній ситуації може піти не так?

Площа і тривимірні ефекти
Вся хитрість в деталях: уявімо, що деякої реальної вимірюваною величиною X1 відповідає точка Y1 на графіку, а X2 точка Y2, а значить, що при зміні даних від X1 до X2 різниця на графіку складе Y2 — Y1. Але не тут-то було — на круговій діаграмі це буде відповідати різниці площ, а якщо додати тривимірні ефекти, то і обсягів.

Приклади в студію! Уявімо, що частка Андроїда зросла на кілька відсотків. Тоді на графіку нижче частка зросте пропорційно обсягу, а не лінійною шкалою. Чим це загрожує? Насамперед, це веде до абсолютного нерозуміння читачем розглянутих величин і неможливості коректного порівняння величин. Хто зможе вгадати, яка частка в Blackberry на цьому графіку і наскільки вона менше частки iPhone?



Сприйняття об'єму
Чи врятують ситуацію явно прописані на графіку величини? Насправді немає. Розглянемо простий приклад, де всі величини явно прописані. На графіку нижче зелена частина явно в два рази більше жовтої, але насправді це не так.


(кликабельно; взято звідси

Тортиковая вечірка
Ось тут уважний читач може заявити, що ми розглядали виключно патологічні приклади з тривимірними ефектами і якщо використовувати стандартні кругові діаграми, то все пройде як по маслу. Увага питання, наскільки точно можна порівняти дані між категоріями за даним графіком?


(кликабельно)

Співвідношення чорнило-дані

Тепер перейдемо від питання сприйняття даних на графіку до інформативності. Питання: яка кількість інформації передає цей графік?


Відповідь: 4(!) числа, причому коричнева частина візуально виглядає помітно менше зеленої через тривимірної перспективи.

Чи можемо ми поліпшити цю кругову діаграму? Для цього задамо кілька важливих питань:
  • Справді тут потрібний колір? Якщо так, то яку функцію він виконує?
  • Яку функціональну роль відіграє тут тривимірний ефект?
  • Легко можна порівнювати числа між собою, варто змінити тип графіка?
  • Полегшує фон читання і сприйняття графіка?
  • Не дублюють чи функціональні елементи один одного, наприклад, текстові мітки і використання кольору?
Якщо ми відповімо на ці питання, то можемо отримати щось схоже з ось таким графіком:

Мінімалістичний приклад, не відволікає читача від головного.

На дану тему всіляко рекомендую курс на Udacity: Data Visualization and D3.js

Зокрема з цього питання, у них є відмінне відео:


Після перегляду відео порівняйте цю візуалізацію


і цю

(хоча деякі з цим прикладом як «неправильної візуалізації» не згодні, і дебати не скончаются донині).

Фактор обману

Якщо графіки з площами та обсягами не переконали, то настала пора написати переконливу формулу.


На графіку вище кількість миль на галон палива змінилося c 18 27.5, 53%, зростання на графіку склав 783%, тепер давайте розрахуємо фактор обману.



Підставивши числа, отримаємо 783/53 = 14.8, ми перебільшили зростання з допомогою графіки практично в 15(!) раз.

Детальніше і прикладами можна прочитати тут.

Вправи із зірочкою: порахувати фактор обману з урахуванням того, графік показує обсяг замість лінійних розмірів. Мені здається чи тут справді 11 неймовірно більше 9, а 6 і 11 взагалі не можна порівняти?


(Взято звідси

Парадокс Сімпсона

Підступ може перебувати там, де його найменше чекають. Візуалізуючи дані, ми часто розбиваємо їх на категорії або групи і один з класичних сюрпризів, який при цьому може виникнути і називається парадоксом Сімпсона.


Розглянемо в якості прикладу Гомера, який вирішив поправити своє здоров'я і почав бігати по стадіону і записувати результати тренування по місяцях. Перші чотири місяці він стабільно нарощував на навантаження, але на п'ятий місяць знайшов коробку з пончиками і припинив тренування. Через два місяці совість і зайву вагу знову підштовхнули його почати тренування і знову кожен місяць він нарощував навантаження.

Виходить, і в перший період, і в другій навантаження зростала, а в середньому навантаження стабільно падала.



Парадокс полягає в тому, що розбивши дані на групи, можна звернути негативний тренд на позитивний і навпаки.
Графіки і приклади разом з детальним поясненням парадокса можна також знайти тут (рекомендую).

Джон Сноу все-таки щось знає — приклад класики візуалізації

Джон Сноу тільки охороняв Стіну, але і врятував жителів Лондона від холери, використовуючи візуалізацію. Він завдав кожного загиблого на картку і помітив, що навколо водяної колонки на Broad Stree кластер смертей. Тоді-то він і висунув гіпотезу про те, що джерело холери в зараженій воді колонки. І виявився правий.


(кликабельно)

Одним з цікавих висновків стало те, що пивоварня була найбезпечнішим місцем (нуль смертей), використана вода і сам процес приготування робили пиво набагато більш безпечним для вживання, ніж звичайну воду з колонки (правда тільки в середині 19го століття в Лондоні).

Докладна історія з інтерактивною картою тут.

Що ще подивитися-почитати

Відео про зростання ролі візуалізації в політичному житті.


(відео перебере на іншу сторінку; можна також натиснути сюди

Корисні книги (must read, зараз насолоджуюся прочитанням першої)


Real life pie chart

<гумор> Кругова діаграма в реальному житті </гумор>



З п'ятницею!

Джерело: Хабрахабр

0 коментарів

Тільки зареєстровані та авторизовані користувачі можуть залишати коментарі.