Показники якості публічних даних

Проблема якості даних являє собою досить серйозну тему і не тільки у зв'язку з їх обробкою та аналізом. На даних в сучасному цифровому світі побудовано безліч процесів, у тому числі і пов'язаних з безпекою. Тому від того, наскільки якісні дані використовуються в державних і комерційних організаціях залежить ефективність і результат їх роботи.

Розглянемо кілька показників, які могли б скласти інтегровану оцінку якості публічних (відкритих).

Перш ніж почати.

Дана публікація є продовженням у загальній серії по темі публічних даних. Багато понять, що зустрічаються в тексті розглядалися в попередніх статтях. Незважаючи на те, що йдеться про публічних (відкритих, поділюваних) даних, пропонований набір показників якості може використовуватися і для оцінки інших категорій даних з деякими поправками. Пропонований список є в деякому сенсі гіпотезою і не претендує на звання «вичерпного».

Посилання на попередні статті
  1. Чому дані можуть бути відкритими і безкоштовними

  2. Трансфер відкритих даних
  3. відкритих даних, що розділяються і делегованих
  4. Зміст, метадані та контекст відкритих даних

Дані мають обмежений термін придатності

Первинні дані завжди актуальні на якийсь конкретний момент часу в минулому і дуже рідко актуальні протягом будь-якого тривалого періоду.

Це одна з проблем якості: цифрові дані, як реєстрація історичного стану об'єкта або системи постійно втрачають свою актуальність з часом і їх доводиться оновлювати.

Якість даних – характеристика наборів цифрових даних, що показує ступінь їх придатності до обробки і аналізу та відповідності обов'язковим і спеціальним вимогам, у зв'язку з цим до них пред'являються.

А що може становити таке поняття як «якість публічних даних»? Виділимо дев'ять показників.


1. Актуальність даних
Означений чи опосередковано визначений момент часу, на який дані відображають реальний стан цільового суб'єкта (об'єкта, системи, явища, моделі, події тощо).

Актуальність даних також може бути позначена через період часу протягом якого вони зберігають свою значущість. Враховуючи постійні зміни економічних систем, публічні економічні дані мають досить короткі терміни актуальності.

Актуальність даних найчастіше встановлюється постачальником, на додаток до якої він також може «дати обіцянку» періодичного оновлення для її підтримки.

Одержувач даних може самостійно оцінювати їх актуальність на підставі інформації від постачальника або іншими способами.

2. Об'єктивність даних
Точність відображення даними реального стану цільового суб'єкта (об'єкта, системи, явища, моделі, події тощо).

Об'єктивність безпосередньо залежить від застосовуваного методу і процедур збору інформації, а також від щільності реєстрованих даних. В процесі обробки наборів цифрових даних, вони втрачають свою об'єктивність і збагачуються агрегованими, заокругленими, наведеними і розрахунковими показниками. Однак за рахунок цього дані «насичуються» знаннями, тим самим дозволяючи в подальшому скорочувати послідовність операцій по вилученню з них значущих для практики відомостей.

Постачальник може вказати об'єктивність публічних даних охарактеризувавши їх первинність і описавши процедуру їх отримання.

Одержувач вправі критично поставитися до вторинних даних, особливо якщо їх об'єктивність не доведена застосовуваними формулами і розрахунковими математичними моделями.

3. Цілісність даних
Повнота відображення даних реального стану цільового суб'єкта (об'єкта, системи, явища, моделі, події тощо).

На відміну від об'єктивності, цілісність показує наскільки повними і безпомилковими є дані як в частині смислового непротиворечия, так і в частині відповідності заданій структурі або вибраного формату. Цілісність залежить від коректного поділу на елементарні неподільні одиниці, збереження їх неподільності, правильної ідентифікації та взаємної пов'язаності.

Дані публікуються сумлінним постачальником за замовчуванням повинні бути цілісними.

Одержувач визначає цілісність спеціальними перевірочними методами оцінюючи смисловий зміст, коректність визначення структури і технічно перевіряючи формат.

4. Релевантність даних
Відповідність даних про реальний стан цільового суб'єкта (об'єкта, системи, явища, моделі, події тощо) розв'язуваної задачі (поставленої мети) і можливість їх застосування з урахуванням наявного змісту, структури і формату.

Розуміння релевантності безпосередньо пов'язується з метою користувача даних і конкретної виконуваної ним завдання, а значить і з розташовуваним вихідним набором даних.

Постачальник не може вплинути на релевантність даних, але може істотно спростити розуміння даного показника якості за допомогою розширених метаданих, застосування поширених форматів і традиційних структур, а також зазначенням рекомендацій щодо їх використання.

Одержувач в кожному конкретному випадку оцінює релевантність наборів даних виходячи із тематики робочого формату (тобто використовуваних інструментів).

5. Сумісність даних
Спільна обробка даних про реальний стан цільового суб'єкта (об'єкта, системи, явища, моделі, події тощо) з наявними в рамках розв'язуваної задачі (поставленої мети).

На відміну від релевантності, сумісність — це процедурний показник, який характеризує можливість включити дані в оброблюваний масив для подальшого аналізу і не пов'язаний безпосередньо з суттю і критеріями поточної задачі. З іншого боку, сумісність на змістовному рівні з тематикою завдання, що виконується важлива для ефективної обробки цифрових даних. Публічні дані повинні особливо ретельно оцінюватися на сумісність, в тому числі з точки зору їх різновиди. Припустимо для конкретних цілей суміщення – взаємне використання відкритих даних і поділюваних даних або разделяемы і делегованих даних залежить від оцінки аналітика. Найчастіше необхідно дотримуватися умови роздільного зберігання і контролю різних видів публічних даних.

Постачальник публічних даних задає сумісність через метадані та посилання на контекст.

Одержувач визначає можливість спільного використання даних для кожного набору як за змістом і структурою, так і за форматом. Але на відміну від релевантності, несумісні дані можна спробувати привести до сумісного з допомогою різних операцій трансформації, перекодування, перекладу і т. п.

6. Вимірність даних
Присутність в даних оброблюваних якісних або кількісних характеристик реального стану цільового суб'єкта (об'єкта, системи, явища, моделі, події тощо), а також підрахований кінцевий обсяг набору цифрових даних.

Змістовна вимірність даних є основою для виконання подальших процедур їх обробки та аналізу. Вимірювання загального обсягу даних необхідно для вибору інструментарію та контролю їх цілісності в процесі обробки та за підсумками аналізу.

Постачальник може явно вказувати «вимірювання», включені в дані, як кількісні, так і якісні. Як мінімум, супровід наборів публічних даних записом про підсумковому або пофайловом їх розмір у байтах майже є загальноприйнятим стандартом.

Одержувач публічних даних відновлює вимірність у змісті даних аналізуючи їх і досліджуючи структуру і завжди точно або побіжно перевіряє наскільки їх фізичний розмір відповідає заявленому.

7. Керованість даних
Можливість цільовим і осмисленим чином обробити, передати та контролювати дані про реальний стан цільового суб'єкта (об'єкта, системи, явища, моделі, події тощо).

Керованість обумовлена необхідністю змінювати, виправляти, структурувати, організовувати, фільтрувати, зберігати, передавати, оцінювати, розподіляти дані. Вона багато в чому ґрунтується на правильно вибраній структурі та формату.

Постачальник може заявити про керованість даних через супровід їх спеціальними метаданими, але одержувач, як правило, самостійно проводить її оцінку виходячи з наявних у нього компетенцій та інструментів.

8. Прив'язка до джерела даних
Пов'язана і достовірна ідентифікація ланцюжка поставки даних про реальний стан цільового суб'єкта (об'єкта, системи, явища, моделі, події тощо).

При цьому в опис «ланцюжка поставки публічних даних» краще включити вказівки на всі суб'єкти, які виконували головні ролі трансферу даних: генератор (автор), власник, постачальник. Прив'язка до джерела дозволяє постачальнику і одержувачу послатися і відновити авторство, правовідносини, достовірність джерела, довіра до розповсюджувачів.

Публічні дані майже завжди поширюються із зазначенням власника і постачальника. І більше того, одним з обмежень використання даних є необхідність вказати першоджерело при їх подальшої публікації або використання. Слід враховувати, що хороша прив'язка даних дозволяє за необхідності отримати її повторно з уточненнями, додаткової актуалізацією або з відновленої цілісністю, тобто – з підвищеною якістю.

9. Довіру до постачальника даних
Оцінка одержувачем ділових якостей постачальника публічних даних про цільове стан суб'єкта (об'єкта, системи, явища, моделі, події тощо), як відповідального, авторитетного, організованого і відносно незалежного видавця цифрової інформації високої якості.

Даний показник виступає деякою інтегрованої ретроспективною оцінкою всіх попередніх трансферів даних постачальника – репутація видавця публічних даних.

Одержувач завжди виходить з внутрішньої переконаності при визначенні такого показника якості даних, але у постачальника є кілька шляхів формування та підтримання потрібного йому рівня довіри. До них можна, наприклад, віднести: ретельну підготовку даних для публічного трансферу, високий рівень організації процесів видання «цифри», підтримку зворотного зв'язку зі споживачами, своєчасну актуалізацію і повідомлення про виявлені в даних проблемах, спеціальні заходи, участь в незалежній оцінці та асоціаціях.

Будь-який з зазначених показників якості даних суб'єктивний, як в частині смислового змісту даних, так і в частині його сприйняття різними постачальниками та споживачами.
Тим не менш усі показники можна розділити на:

  1. умовно-об'єктивні – це показники, значення яких слабо залежать від думки постачальника або одержувача даних і встановлюються у відповідності з контрольованими і частково перевіреними критеріями,
    до них відносяться: актуальність, цілісність, вимірність, сумісність, прив'язка до джерела.
  2. умовно-суб'єктивні – це показники, значення яких безпосередньо залежать від думки постачальника або одержувача даних і встановлюються у відповідності з внутрішньою переконаністю» як деяка допустима критеріальна оцінка,
    до них відносяться: об'єктивність, доречність, керованість, довіру до постачальника.
Формальна оцінка кожного з показників якості може здійснюватися як в балах (в заданому інтервалі), так і у відсотках. Причому бальна оцінка може даватися експертним шляхом, а відсоток може вираховуватися як частка даних відповідають заданому показнику якості до загального обсягу даних. В останньому випадку завдання виглядає набагато більш складна і вимагає спеціальних інструментів, хоча і буде давати зважену, але все-таки експертну оцінку якості. Одним з важливих аспектів формальної оцінки показників якості є їх контроль по мірі роботи з наборами цифрових даних. В динаміці якість не повинна погіршуватися, тобто експертна оцінка даних не повинна некеровано знижуватися після окремих операцій або цілої серії обробок.

Загальна проблема якості публічних даних залежить як від кожного з перерахованих показників, так і від інтегрованої суб'єктивної оцінки одержувача. У будь-якому випадку, якість важливо в першу чергу одержувачу, як особі, що виконує операції обробки та аналізу.

У разі завершення зворотного зв'язку стороннього результативного користувача даних з постачальником, «проблема» якості даних повертається останньому «бумерангом». Якщо дані були надані «погані» або з помилками, то чекати від тих, хто їх використовував, скільки-небудь хороших і адекватних підсумків не доводиться. Тоді втрачається весь сенс зусиль по вибору, підготовки і публікації даних – постачальник не отримує ніяких нових корисних рішень і знань (продуктів або сервісів).

Найважливіший показник якості даних – це їх цілісність

Він робить сильний вплив на сумісність керованість даних. А неодноразова публікація даних з порушенням цілісності обов'язково позначиться на довірі до їх постачальнику. Цілісність даних не є чимось відокремленим від змісту, структури або формату і повинна дотримуватися на всіх рівнях цифрової інформації.

Порушення цілісності даних можливо:

  • на смисловому рівні – при зборі допущена помилка в повноті або запису даних так, що стає незрозумілим саме значення, яке описують такі дані;
  • на структурному рівні – при впорядкуванні елементів даних або при обробці даних допущена помилка в повноті або запису даних так, що ставати «незрозумілою» частина або ціла структура;
  • на рівні кодування – при запису, зберігання або читанні даних допущена помилка на рівні перетворення окремих символів і понять, що дані не вдається прочитати і (або) присутні пропуски;
  • на рівні нотації – при запису, зберігання або читанні даних допущена помилка на рівні перетворення окремих елементів цифрових даних або їх спільної запису так, що в даних неможливо правильно встановити окремі відокремлені одиниці та зв'язки між ними;
  • на рівні схеми – при запису, зберігання або читанні даних допущена помилка на рівні логіки або формату окремих елементів цифрових даних чи їх взаємозв'язку, що з даних неможливо отримати значущу інформацію про предметної області.
Аналогічно, по кожному з рівнів – зміст, структура, формат – можна розглядати кожен показник якості даних.

За якість публікованих даних, звичайно ж, відповідає постачальник. Але одержувач змушений виконувати перевірку та за необхідності коригувати самі дані.

Якщо публічні дані виявляються низької якості, то має сенс відмовитися від їх використання та направити докладне повідомлення постачальнику. Сумлінний і зацікавлений постачальник обов'язково зробить зусилля по виправленню ситуації. Він, як мінімум, повинен закрити доступ до неякісним даними на час розгляду і маркувати їх відповідним чином.

Адресована претензія постачальнику щодо якості даних, в умовах максимальної відкритості мережевого спілкування, змушує в обов'язковому порядку поміщати спеціальний заявний відмова від прийняття претензії з обґрунтуванням такої відмови, або підвищувати якість даних і повторно їх видавати з відповідними роз'ясненнями. А в разі, якщо підтримується адресна зв'язок з одержувачами – повідомляти їх спеціальним чином.

Постачальник, який не готовий відповідати за якість даних досить швидко переходить в розряд «безвідповідальних» і втрачає всі переваги, що надаються співтовариством аналітиків та експертів, зайнятих у відповідній предметній області.

З вищесказаного випливає необхідність постійного контролю якості даних як з боку одержувача, так і з боку постачальника. Що в свою чергу змушує розробляти і застосовувати спеціальні контрольно-вимірювальні інструменти.

Дослідження проблеми якості цифрових даних, а особливо якості відкритих, поділюваних і делегованих даних повинно здійснюватися аналітиками і експертами як на мікро-рівні зацікавлених бізнесів, так і на макро-рівні спільнот і державних структур. У чому безпеку майбутньої цифрової економіки, що буде базуватися на активному моніторингу якості використовуваних даних.
Джерело: Хабрахабр

0 коментарів

Тільки зареєстровані та авторизовані користувачі можуть залишати коментарі.