Про те чому «відкриті дані Ощадбанку» це не відкриті дані і що нам з цим робити

image
Днями відбулося, в якійсь мірі, знаменна подія і одна з найбільших компаній Росії заявила про те, що тепер публікує відкриті дані на своєму сайті. Цією компанією є Ощадбанк і розділ на їх сайті. Відкриття розділу удостоїлося пресс-релиза на їх сайті і про нього як про важливу подію написали десятки фінансових і не фінансових ЗМІ.
Справді Ощадбанк зробив щось неймовірне? Рядове це явище і є те що зробив Ощадбанк зараз відкритими даними? Ось про що далі піде мова.

В якості вступу

Перш ніж продовжити про Ощадбанку, давайте повернемося до терміну відкриті дані.
1-е офіційне визначення з закону 112-ФЗ (це поправки до 8-ФЗ)
Інформація, що розміщується її власниками мережі "Інтернет" в форматі, що допускає автоматизовану обробку без попередніх змін людиною з метою повторного її використання, є загальнодоступною інформацією, яка розміщується у формі відкритих даних.
2-ге визначення з Вікіпедії
Відкриті дані (англ. open data) — концепція, що відбиває ідею про те, що певні дані повинні бути вільно доступні для машиночитаемого використання і подальшого передруку без обмежень авторського права, патентів та інших механізмів контролю. Звільнити дані від обмежень авторського права можна за допомогою вільних ліцензій, таких як ліцензій Creative Commons. Якщо який-небудь набір даних не є суспільним надбанням, або не пов'язаний ліцензією, що дає права на вільне повторне використання, то такий набір даних не вважається відкритим, навіть якщо він викладений в машиночитаемом вигляді в Інтернет.
3-е з хартії відкритих даних
Open data is digital data that is made available with the technical characteristics and legal necessary for it to be freely used, reused, and redistributed by anyone, anytime, anywhere.
або на сумбурному російською
Відкриті дані — це цифрові дані зроблені загальнодоступними з технічними та юридичними характеристиками обов'язковими для того, щоб вони вільно використовувалися, використовувалися повторно і поширювалися ким завгодно, коли завгодно і де завгодно
Також у відкритих даних є чітко сформульовані принципи їх публікації, відображені як раз в хартії відкритих даних.
Ці принципи:
  1. Відкритість за замовчуванням
  2. Своєчасно і повно
  3. Доступно і зручно
  4. Порівнянно і интегрируемо
  5. Для поліпшення управління і залучення громадян
  6. Для розвитку та інновацій
За ті 7 років, що я особисто займаюся темою відкритих даних в Росії я чув і бачив як відкритими даними називали дуже і дуже багато що ними не є. Найвидатніший по дурості питання було в тому, коли визначення дається через опис "вільно доступних машиночитаних даних", то питання "машиночитані дані — це ті які я можу в машині прочитати?".
Але у всіх визначеннях важливо пам'ятати одне — відкриті дані орієнтовані на технологічно кваліфікованого споживача. Держава не виробляє сама нових інформаційних продуктів, воно дає можливість це робити стартапам, ІТ компаніями і громадським діячам.

Чому публікують відкриті дані?

Щоб розібрати цей конкретний випадок важливо знати навіщо взагалі власники даних їх публікують? Особливо компанії і держоргани — іноді це може здатися абсолютно дивним.
Піар. Зобов'язання або Вигода
Це три головний причини чому хто-небудь дані публікує (питання фана і марнославства я свідомо залишаю за дужками).
якщо Ви бачите активність якої-небудь організації у відкритих даних, так і взагалі в питаннях відкритості та прозорості, то шукайте відповідь в одній з цих трьох причин.
Піар
Наприклад, як влаштований піар на відкритих даних. Головна його відмінна здатність орієнтація на масового споживача, масового виборця, масового громадянина.
Питання технологій і даних залишаються осторонь. Питання відвідуваності, медійного охоплення, кількість статей зі згадуванням — виходять на перше місце.
Живий приклад — це портал відкритих даних Москви — влада міста поширюють новини про публікаціях навіть якщо там розміщений який-небудь безглуздий набір даних з 28 рядків.
Зобов'язання
Зобов'язання або примус — це відкриті дані публікуються тому що закон вимагає їх публікації. Власник даних не завжди може бути зацікавлений у відкритості, але він дотримується вимог закону та їх публікує.
Наприклад, Центробанк збирає з банків форми звітності та розкриває в спеціальному розділі на сайті — це нормативно закріплені зобов'язання банків і ЦБ.
Інший приклад — згадуваний вище 112-ФЗ і 8-ФЗ. Органи влади зобов'язані розкривати базові набори даних і публікують їх саме як їхні зобов'язання за невиконання яких вони несуть відповідальність перед законом.
Зобов'язання — це фундамент відкритості. Саме з цієї причини багато хто з тих хто зобов'язані розкривати дані не вживають додаткові дії по їх доступності. Вони тільки дотримуються обов'язкові вимоги, але не пише про це рекламних прес-релізів.
Наприклад, якщо Уряд Москви публікує набір даних з адресами 28 военторгов і поширює це по новинним сайтам, то зовсім не факт, що, наприклад, декларації про доходи чиновників міста вони опублікують як відкриті дані і також поширять по ЗМІ.
Інакше кажучи, зобов'язання виконуються тихо і непомітно, настільки, наскільки це можливо
Вигода
Навіщо комусь може бути вигідна публікація власних даних? Здавалося б — володій і мовчи, кому-то ще знати зовсім необов'язково.
Тим не менш є причини чому відкриті дані публікуються державними і комерційними структурами. Наприклад, розділ Datasets в Kaggle заповнюється у пошуках нових знахідок, рішень і інсайтів для яких потрібні тисячі data scientist'ів.
Або чому Федеральне Казначейство поширює ось вже багато років дані з порталу держзакупівель через FTP сервер (ще до історій з відкритими даними) — тому що це простіше і дешевше при поширенні бази даних необхідною сотням контрагентів в суб'єктах федерації.
Якісь компанії організують хакатони і шукають собі співробітників. Інші публікують відкриті дані для підтримання репутації в співтоваристві, як це робить Google в їх Transparency Report

Так що ж Ощадбанк?

Якщо Ви знову подивіться на розділ відкритих даних Ощадбанку, то виявите наступні особливості:
Немає вільних ліцензій
Замість свободи використання і поширення там тільки відмова від відповідальності звучить як
Представлена інформація — результат аналізу даних ПАТ Ощадбанк, 4 квартал, 2016 рік. Дані не є управлінською, бухгалтерською, фінансовою звітністю. При використанні посилань на зазначену інформацію згадка ПАТ Ощадбанк обов'язково. Не є рекламою.
Що не має близького відношення до вільних ліцензій
Немає наборів даних
Щоб завантажити дані на графіку знайти спеціальну кнопку і там в меню ще знайти розділ вивантаження в XLSX, CSV або JSON. Особливість в тому, що всі ці вивантаження — це вивантаження з Javascript файлів виконуються на стороні клієнтів.
Всі дані, за фактом, зберігаються в 13 Javascript файлах починаючи з http://www.rdatascience.ru/opendata/data1.js, http://www.rdatascience.ru/opendata/data13.js
А вивантаження в CSV і тд робиться за допомогою Javascript коду. І викачати якийсь набір даних безпосередньо неможливо. Акцент зроблений на візуалізацію, а не на роботу з даними аналітиками.
Відсутній опис наборів
Незважаючи на те що на сайті навіть використовують термін "Паспорт датасета" який активно використовується в реальних паспортах наборів даних на державних порталах, звичайно ж нічого такого там немає. Ні інформації про відповідальних, ні опису структури наборів — нічого немає
Продаж послуг і змішання з великими даними
Розділ закінчується продажем досліджень Ощадбанку і тим що все це зроблено на великих даних. А сам формат подачі більше схожий на лонгрид якогось інфобізнес, а не розділ відкритих даних.

Висновки

З усього цього можна зробити лише один висновок — метою Ощадбанк для цього розділу був лише піар і нічого більше. Хочеться лише сподіватися, що коли-небудь Ощадбанк знайде форму роботи з відкритими даними яка приносила б користь і їм і спільноти. Бо поки це більше схоже на спробу скористатися популярним терміном для розкрутки своїх комерційних послуг
Джерело: Хабрахабр

0 коментарів

Тільки зареєстровані та авторизовані користувачі можуть залишати коментарі.