Система автоматичної оцінки віку з зображень осіб

Анотація
Люди — це найважливіші об'єкти спостереження в системах відеоспостереження. Тим не менш, стеження за людиною саме по собі не дає достатньої інформації про його мотиви, наміри, бажання і т. п. В цій роботі ми представляємо нову і надійну систему для автоматичної оцінки віку за допомогою технологій комп'ютерного зору. Вона використовує глобальні особливості особи, отримані на основі комбінування вейвлетів Габора і збереження ортогональності локальних проекцій Orthogonal Locality Preserving Projections, OLPP). Крім того, система здатна оцінювати вік з зображень в реальному часі. Це означає, що запропонована система має більший потенціал порівняно з іншими напівавтоматичними системами. Результати, отримані в процесі застосування запропонованого підходу, можуть дозволити одержати більш ясне розуміння алгоритмів в області оцінки віку, необхідних для розробки додатків, актуальних для реального застосування.
Ключові слова: вейвлети Габора, зображення обличчя, оцінка віку, метод опорних векторів (Support Vector Machine, SVM).

1. Введення
Зображення людського обличчя містить багату інформацію про персони, що включає риси обличчя, емоції, стать, вік та ін загалом, зображення обличчя людини може бути розглянуто як складний сигнал, що складається з безлічі властивостей особи, таких як: колір шкіри, геометричні особливості рис обличчя. Ці атрибути грають важливу роль в реальних додатках з аналізу зображень осіб. В таких додатках різні властивості (атрибути) оцінені з захопленого зображення особи можуть використовуватись для подальшої реакції (дій) системи. Вік, в особливості, є одним з найбільш важливих атрибутів. Наприклад, користувачам може знадобитися залежна від віку інтерактивна комп'ютерна система, або система, яка може оцінювати вік для забезпечення контролю доступу або система для збору розвідувальних даних. Автоматична оцінка віку з використанням аналізу зображень осіб передбачає величезне число реальних додатків.
Система автоматичної оцінки віку складається з двох частин: виявлення обличчя на зображенні та власне оцінка віку. Досить складно виявляти особи на зображенні, тому що результати виявлення сильно залежать від багатьох умов: навколишнє середовище, рух, освітлення, орієнтація осіб у просторі, вираз емоцій. Ці фактори можуть вести до спотворення кольору, яскравості, тінях і контурах зображень. З цієї причини, Віола і Джонс запропонували свою знамениту систему для виявлення осіб в 2004. Класифікатор Віоли-Джонса використовує алгоритм AdaBoost в кожному вузлі каскаду класифікатора для навчання високого ступеня виявлення осіб за рахунок зниження числа ігнорованих осіб всього каскаду. Цей алгоритм має наступні особливості: 1) використовує ознаки Хаара — порівняння різниць сум інтенсивностей пікселів в двох прямокутних областях з пороговими значеннями; 2) використання інтегрального зображення для прискорення обчислень сум пікселів прямокутної області або прямокутної області поверненою на кут 45 градусів; 3) алгоритм AdaBoost використовує статистичний бустинг, щоб створити двійкові особа — особа) вузли класифікації, характеризуються хорошою ймовірністю виявлення осіб і маленькою ймовірністю пропуску особи; 4) вузли слабких класифікаторів організується в каскад з метою відсіювання зображень-не-осіб на початковій стадії роботи алгоритму (тобто перші рівні каскаду допускають більше помилок неправильної класифікації, але при цьому працюють швидше, ніж наступні рівні каскадного класифікатора). Особа класифікується як особа, якщо вона проходить через всі рівні каскадного класифікатора.
Хоча автоматичне виявлення осіб на зображенні є зрілою технікою включає безліч додатків, оцінка віку по зображенню особи — раніше складне завдання. Це тому, що процес старіння виражений по-різному не тільки серед різних рас, але так само і всередині раси. Цей процес здебільшого персональний. Крім того, він також визначається дією зовнішніх чинників: стилем життя (правильне харчування, спорт), місцевістю проживання, погодними умовами. Тому проблема стійкої оцінки віку є відкритою проблемою.
Загалом, є три категорії методів вилучення особливостей для оцінки віку людини в літературі. Перша категорія — це статистичні підходи. Xin Geng та ін [2, 3] запропонували AGing pattErn Subspace (AGES) — метод для автоматичної оцінки віку. Ідея цього підходу полягає в моделюванні патерну (шаблону) старіння, який визначається послідовністю персональних зображень старіння обличчя. Ця модель будується вивченням підпростору подібного EM-алгоритму ітеративного навчання методу головних компонент Principal Component Analysis, PCA). В інших роботах [4, 5], Guodong Guo та ін. порівнюють три типових методу зменшення розмірності простору ознак і різноманітні методи вкладення такі як: PCA, локально лінійне вкладення (Locally Linear Embedding, LLE), збереження ортогональності локальних проекцій (Orthogonal Locality Preserving Projections, OLPP). Відповідно до розподілу даних в OLPP-подпространстве, вони пропонують метод локально налаштованої стійкої регресії (Locally Adjusted Robust Regression, LARR) для навчання і передбачення віку людини. LARR використовує регресію опорних векторів (Support Vector Regression, SVR) для грубого передбачення і визначають локальні налаштування в межах невеликого обмеженого діапазону віку, центрованого щодо отриманого результату з допомогою методу опорних векторів (Support Vector Machine, SVM).
Друга категорія методів включає в себе підхід на основі моделі активного зовнішнього вигляду (Active Appearance Model, AAM). Використання моделі зовнішнього вигляду — це самий інтуїтивний метод серед всіх методів аналізу зображень осіб.
Young H. Kwon та ін [6] використовували візуальні вікові особливості для конструювання антропометричної моделі. Первинні особливості — це очі, ніс, рот і підборіддя. Відносини цих особливостей обчислювалися для розрізнення різних вікових категорій. При аналізі вторинних особливостей, використовувалася карта зморшок для управління детекцією і вимірюванням зморшок. Jun-Da Txia та ін [7] запропонували метод оцінки віку на основі active appearance model (AAM) для вилучення регіонів вікових особливостей. Кожна особа потребує обчислення 28 особливих точок і поділяється на 10 регіонів зморшок. Shuicheng Yan та ін [8] використовували модель зовнішнього вигляду на основі шляху, іменовану Patch-Kernel. Цей метод спроектований для визначення відстані Кульбак-Лейблера між моделями, які виведені з глобальної моделі гауссових сумішей (GMM) з використанням максимальної апостеріорної ймовірності (Maximum a Posteriori, MAP) будь-яких двох зображень. Здатність класифікувати посилювалася потім використанням процесу слабкого навчання, званого синхронізацією інтермодального подібності. Ядерна регресія використовується для оцінки віку.
Третя категорія методів використовує підхід, заснований на частоті. В обробці зображень та розпізнавання образів, аналіз частотної області є одним з найпопулярніших методів вилучення особливостей зображення. Guodong Guo та ін [9] досліджували «біологічні» особливості зображення (biologically inspired features, BIF) для оцінки віку людей по зображенню. На відміну від попередніх робіт [4, 5], Guo моделював обличчя людини за допомогою фільтрів Габора [10]. Фільтри Габора — це лінійні фільтри, використовувані в обробці зображень для виділення меж об'єктів всередині зображення. Частота і орієнтація уявлень фільтрів Габора схожа з людським зором і добре підходить для текстурного подання і розв'язання задачі дискримінації.
Пропонована нами система використовує каскадний AdaBoost для навчання, для виявлення осіб, а оцінку віку отримує шляхом застосування вейвлетів Габора і OLPP. Ця стаття складається з наступних розділів. Перший включає опис системи виявлення осіб: вирівнювання гістограми, вибір особливостей, каскадний класифікатор, навчений AdaBoost і алгоритм кластеризації регіонів зображення особи. Другий розділ: процес оцінки віку включає витяг особливостей за допомогою вейвлетів Габора, відсіювання особливостей і вибір кращих, класифікація віку. В кінці статті наводяться результати моделювання і робляться висновки.
У цій статті пропонується повністю автоматична система оцінки віку, використовує вейвлети Габора для представлення процесу старіння. Система, яку ми пропонуємо, має 4 головних модуля: 1) виявлення осіб; 2) аналіз на основі вейвлетів Габора; 3) OLPP редукція; 4) класифікація методом опорних векторів. Вхідне зображення може приходити з камери або зчитуватися з файлу. Зображення особи вибирається з вихідного зображення з допомогою детектора осіб, використовуючи підхід, визначений у [12]. Потім зображення масштабується, щоб мати розмір 64*64 пікселів. Далі, використовуючи 40 ядер вейвлетів Габора, витягуються особливості, і до них застосовується редукція OLPP. В кінці, запускається оцінка віку за допомогою навченого класифікатора SVM.
Решта статті організована наступним чином: розділ 2 описує підсистему виявлення осіб з допомогою AdaBoost. Розділ 3 описує алгоритм оцінки віку і включає: текстурний аналіз вейвлетами Габора, OLPP редукцію та SVM класифікацію. У розділі 4 представлені експериментальні результати. У розділі 5 робляться висновки по запропонованій системі.

Малюнок 1. Огляд системи

2. Виявлення осіб
Малюнок 1 показує архітектуру системи автоматичної оцінки віку, пропонованої в нашій роботі. Вся система складається з підсистеми виявлення особи, завдання якої є виявлення областей осіб на зображенні і підсистеми оцінки віку. Для пошуку осіб на зображенні застосовуються вікна сканування різного розміру, т. к. об'єкт при захопленні зображення може перебувати на різних відстанях від камери. Є в загальній складності 12 масштабних рівнів сканування, а розмір зображення змінюється, починаючи з 24*24 з масштабним множником 1,25. Залежно від умов освітленості, в яких відбувається захоплення зображень, можуть бути різні варіації яскравості зображень. Зображення може бути більш точно розпізнано (точніше, обличчя на зображенні) після нормалізації його яскравості.

2.1. Нормалізація освітленості
Нормалізація освітленості заснована на методі вирівнювання (підгонки) гістограм. Першочергове завдання підгонки гістограм — це перетворити вихідну гістограму H(l) в цільову гістограму G(l). Цільова гістограма G(l) обрана як гістограма зображення, близька до середньої гістограмі для бази даних осіб. Виберемо цільове зображення та гістограму G(l) як це показано на Малюнку 2(а). Зображення до і після нормалізації показано на рисунках 2(b)-©.

Малюнок 2. Нормалізація освітленості. (а) Цільове зображення. (b) Вхідні зображення. © Нормалізовані зображення

Вхідні зображення, які занадто темні чи занадто світлі нормалізуються у відповідності з гістограмою цільового зображення. Гістограми H(l) перетворюються в гістограми G(l) наступним чином:

де — пряме і зворотне відображення гістограм H(l) і G(l) в гістограми однорідних (рівномірних) розподілів.

2.2 Відбір особливостей
Ми обрали чотири прямокутних ознаки Хаара так, як це показано на рисунку 3 [13].

Малюнок 3. Чотири типу прямокутних особливостей

Допустимо використовувати композицію прямокутників різної яскравості для подання світлих і темних регіонів зображення. Особливості визначаються наступним чином:

де (х, y) позначає центр відносної прямокутної системи координат особливості в скануючому вікні. Важливість w і h позначає відносну ширину і висоту прямокутної особливості відповідно. Type — тип прямокутної особливості — різниця сум пікселів у світлій і темній областях.
Прямокутна особливість, яка може ефективно розділяти особи і не особи, розглядається як слабкий класифікатор:


Слабкий класифікатор використовується для визначення, чи є поточна частина зображення особою або особою не на основі підрахунку прямокутної особливості, порогу q і полярності (напрями нерівності) p. Для кожного слабкого класифікатора оптимальний поріг вибирається так, щоб мінімізувати помилку неправильної класифікації. Вибір порогу здійснюється за допомогою навчання на вибірці з 4000 зображень осіб і 59000 зображень не осіб. Малюнки 4(a)-(b) являють собою приклади з баз осіб і не осіб. У цій процедурі, ми підраховуємо розподіл кожної особливості для кожного зображення в базі і вибираємо поріг, який володіє максимальною дискриминативной здатністю (тобто розбиває зображення на два класу краще інших).

Малюнок 4. База даних осіб (а) і не осіб (b)

Хоча кожна прямокутна особливість обчислюється дуже ефективно, обчислення всіх комбінацій дуже обчислювально дорого. Для прикладу, для самого маленького ковзного вікна (24*24) повний набір особливостей становить 160000.
Алгоритм AdaBoost комбінує набір слабких класифікаторів, щоб сформувати сильний класифікатор. Хоча сильний класифікатор ефективний для додатків виявлення осіб, він досить довго працює у часі. Структура каскадних класифікаторів, яка покращує здатність виявлення та зменшує час обчислень, була запропонована Віолою і Джонсом [14]. Грунтуючись на цій ідеї, наш каскадний AdaBoost формує сильний класифікатор. У першому кроці, якщо зображення з ковзного вікна класифікується як особа, тоді ми переходимо до кроку 2, в іншому випадку — зображення відкидається. Аналогічний процес виконується для всіх кроків. Кількість кроків має бути достатньою для досягнення гарної ступеня розпізнавання і в той же час, має мінімізувати час обчислень. Наприклад, якщо на кожному кроці ймовірність виявлення особи 0,99, 10-кроковий класифікатор досягне ймовірності 0,9 (так як 0,9 ~= 0,99^10). Хоча досягнення такої ймовірності може звучати як дуже складна задача, це можна зробити легко, бо кожен крок повинен мати величину помилки хибнопозитивної розпізнавання всього лише близько 30%.
Процедура роботи алгоритму AdaBoost може бути описана наступним чином: якщо m і l — числа осіб і не осіб відповідно, а j — сума не осіб та осіб. Початкові ваги w_(i,j) для i-го кроку можуть бути визначені як . Нормалізована зважена помилка слабкої класифікатора може бути виражена наступним чином:

Ваги оновлюються за формулою (5) в кожній ітерації. Якщо об'єкт класифікований коректно, тоді в інших випадках ej=1.

Кінцевий класифікатор для i-го кроку визначається нижче:

де

2.3 Кластеризація на основі областей
Детектор осіб зазвичай знаходить більш ніж одна особа, навіть якщо на зображенні воно одне (як це показано на малюнку 5).

Малюнок 5. Результати роботи детектора осіб

Тому кластеризація на основі використовується для вирішення цієї проблеми. Пропонований метод складається з двох рівнів кластеризації — локальної і глобальної кластеризації. Локальна кластеризація використовується, щоб кластеризовать блоки в одному масштабі і сформувати простий фільтр для визначення кількості блоків зображень всередині кластерів. Якщо кількість блоків у певному кластері більше одного, тоді цей кластер позначений ймовірно містить особа, в іншому випадку — кластер відкидається. Метод локальної кластеризації також має наступне правило для прийняття рішення про помітки кластера:

У формулі (7) відсоток перекриття (x, y) позначає відстань між двома виявленими регіонами-кандидатами осіб і дорівнює відстані між центрами цих регіонів. Рівність означає, що x і y — в одному кластері і ці області майже повністю перекриваються одна одною
Малюнок 6 показує кілька можливих випадків перекриття областей.

Малюнок 6. Діаграми перекриття регіонів і відстані центрів блоків

На рисунку 6(а) два блоки потрапляють в один кластер. На рисунку 6(b) два блоки потрапляють в різні кластери, оскільки відстань між їх центрами більше порогу. Для особливих випадків, як показано на малюнку 6(з), всі блоки розглянуті як кандидати, але більшість з них помилкові особи. Тому в цій роботі для практичних додатків ми вибираємо тільки один блок, який задовольняє рівнянню (7) ніж кілька блоків. Зрештою, глобальна кластеризація буде використовувати блоки, отримані на етапі локальної кластеризації, а мітка особового регіону відповідає середньому розміру всіх доступних блоків. Деякі результати всього процесу кластеризації на основі вибору регіонів для локального та глобального рівнів показано на малюнку 7. З правого зображення на малюнку 7, фактично, лише один блок буде точно класифікований як лицьовій регіон в результаті застосування локальної та глобальної кластеризації (навіть якщо більше 5 особових кандидатів отримані для зображення, що включає лише 5 осіб).

Малюнок 7. Результати кластеризації. (а) Результати кластеризації на локальному рівні. (b) Результати кластеризації на глобальному рівні

3. Оцінка віку
Є три основні частини нашої системи оцінки віку, представлені в цій роботі: витяг вікових особливостей, зменшення кількості особливостей і класифікація особливостей. Витяг особливостей виконується з допомогою вейвлетів Габора, які використовуються для аналізу зображень з-за їх біологічної значущості і обчислювальних властивостей. Ядра вейвлетів Габора схожі 2D сприйняття молочних бактерій і виражають потужні здібності просторової орієнтації і селективності, а також є локально-оптимальними в просторовій та частотній областях. Перетворення Габора, загальновідомо, особливо підходить для декомпозиції зображень і їх поданні, коли метою є вибір локальних і відмітних особливостей. Більш того, Donato та інші [15] експериментально показали, що уявлення через вейвлети Габора є ефективною для класифікації особових особливостей. В цьому розділі вводяться основи вейвлетів Габора для представлення особливостей зображень і описується зменшення кількості особливостей, їх відбору у вектор, використовуваний для оцінки віку.

3.1 Вилучення особливостей за допомогою вейвлетів Габора
Вейвлет Габора може бути визначений наступним чином [16]:

де визначають орієнтацію і масштаб ядра Габорапозначає оператор обчислення норми, а хвильовий вектор визначається так:

де — максимальна частота, а f — просторовий множник між ядрами в частотній області. Загалом, ядра вейвлетів Габора в (8) є самоподобными, так як вони можуть бути виведені з одного фільтра — материнського вейвлету, з допомогою масштабування і обертання з допомогою хвильового вектора Кожне ядро — твір Гауссових згортки і комплексної хвильовий площині, тоді як перший терм в квадратних дужках в (9) визначає коливальну частина ядра, а другий терм компенсує значення постійного струму. Параметр сигма — стандартне відхилення ширини гауссових згортки від довжини хвилі.
У більшості випадків, дослідники використовують вейвлети Габора з п'ятьма різними масштабами і вісьмома орієнтаціями, На малюнку 8 показана реальна частина ядер Габора на 5 масштабних рівнях і у 8 напрямках, а також їх величини для наступних параметрів:

Малюнок 8. Подання вейвлетів Габора

Подання вейвлетів Габора для зображення — це згортка зображення з сімейством ядер Габора, використовуючи рівняння (8). Нехай — розподіл рівнів сірого зображення. Результат конволюции зображення I визначається як:

де і * позначає оператор конволюции (згортки).
Застосовуючи теорему згортки, швидке перетворення Фур'є (ШПФ) використовується для отримання результату операції згортки. Рівняння (11) і (12) — визначення конволюции через ШПФ.

де позначають перетворення Фур'є і зворотне перетворення Фур'є відповідно.

Малюнок 9. Одне із зображень вибірки і 40 виходів операції згортки

Малюнок 9 показує значення виходів операцій згортки для зображення вибірки. У відповідності з рисунком 9, вихідні значення згорток виявляють здібності просторової орієнтації та селективності. Такі характеристики роблять стійкі локальні особливості, які підходять для візуального розпізнавання. Надалі, ми позначимо величину виходів операції згортки.

3.2 Зменшення кількості особливостей за схемою
Загалом, МГК або інші алгоритми працюють з особливостями у вигляді вейвлетів Габора для зменшення розмірності перетворених даних [19, 20]. Результати конволюции, відповідні все вейвлетам Габора, збираються разом в єдине ціле, а щоб поліпшити обчислювальну ефективність — застосовується МГК для зменшення розмірності даних. Пропонуються 3 різні схеми: (а) схема паралельного зменшення розмірності (СПУР, Parallel Dimension Reduction Scheme, PDRS): особливості у вигляді вейвлетів Габора витягуються з кожного зображення вибірки, як показано на малюнку 10. Навчається кожна проекційна матриця БГК для кожного каналу, а об'єднання цих особливостей виконується методом голосування. (b) Схема зменшення розмірності ансамблю (СУРА, Ensemble Dimension Reduction Scheme, EDRS): СУРА — найбільш поширена схема, яка використовується для особливостей Габора. Як показано на малюнку 11, різниця між СПУР і СУРА в тому, що СУРА поєднує особливості Габора замість паралельного їх використання. © Схема багатоканального зменшення розмірності (СМУР, Multi-channel Dimension Reduction, MDRS). Xiaodong Li та інші [21] запропонували СМУР в 2009. Як показано на малюнку 12, основна ідея СМУР полягає у навчанні матриці проекції МГК для одного каналу за допомогою різних зображень вибірки. У [21] Xiaodong Li та ін. вже довели, що СМУР працює краще, ніж СУРА при використанні особливостей Габора.

Малюнок 10. Схема паралельного зменшення розмірності


Малюнок 11. Схема зменшення розмірності ансамблю


Малюнок 12. Схема багатоканального зменшення розмірності

Для порівняння роботи СПУР і СМУР використовується метод k-найближчих сусідів (KNN). Для СПУР ми використовуємо метод голосування, званий «Гауссового голосування», для об'єднання 40 каналів. Концепція Гауссового голосування описується як використання KNN класифікатора для кожного каналу для передбачення 40 віку. Кожен передбачений вік розглядається як математичне очікування нормального розподілу і визначає гістограму. Найвищий її пік — це кінцеве передбачене значення віку. Для СМУР ми використовуємо об'єднані особливості безпосередньо. FG-NET база даних віку [22] адоптируется для експериментів. База даних містить 1002 зображення облич людей (кольорових і напівтонових) з великою варіацією в освітленні, пози і вирази емоцій. У цій базі 82 різних персон (різної раси) з віками від 0 до 69 років. Ми використовували критерій на основі середньої абсолютної помилки (САО, mean absolute error, MAE) для оцінки роботи кожного способу оцінки віку. САО означає середнє значення абсолютної помилки між оціненим і відомим віками. Математична функція САО має вигляд:

де — відомий вік для досліджуваного зображення k — оцінений вік. N — загальна кількість досліджуваних зображень. У Таблиці 1 показані експериментальні результати для двох схем. СМУР виявилася кращою, ніж СПУР.
Таблиця 1. Значення САО для СПУР і СМУР


3.3 Відбір особливостей
Розмірність простору вейвлетів Габора надзвичайно велике, навіть незважаючи на застосування схеми зменшення розмірності. Тому важливо вибрати найбільш істотні особливості і ще більше скоротити розмірність простору. Три типових методу зменшення розмірності були запропоновані в останніх дослідженнях: (а) лінійний дискримінантний аналіз (ЛДА) схожий з МГК, але з тією різницею, що ЛДА використовує інформацію про приналежність до класу, щоб поліпшити себе [23]. (b) Збереження локальних проекцій (LPP) шукає підпростір, яке зберігає необхідну різноманітність, вимірюючи відстань до сусідніх точок [24]. © OLPP виробляє ортогональні базисні функції на основі LPP і зберігає структуру метрики [25]. Для визначення який метод редукції з перерахованих вище найбільш підходящий для використання вікових особливостей у вигляді вейвлетів Габора, ми використовували KNN класифікатор і САО критерій для оцінки ефективності. В експерименті ми змінили вагу близькості LPP і OLPP для отримання більшої детальності. У таблиці 2 показано значення САО для кожного методу редукції. OLPP з косинусным вагою відстані найбільш ефективний в оцінці віку.

Таблиця 2. САО для різних методів зменшення розмірності


3.4 Класифікація віку
Особливості у вигляді вейвлетів Габора використовуються в МПВ-класифікаторі для визначення віку. МОВ має достатній потенціал як класифікатор розряджених навчальних даних. МОВ має схожі з нейронними мережами коріння і також як вони володіє здатністю апроксимувати будь-яку функцію багатьох змінних з будь-якою бажаною точністю. Цей підхід був винайдений Володимиром Вапніком та ін., використовуючи статистичну теорію. [25-27]. Таблиця 1 і малюнок 11 показують результати порівняння нашого умовно ґрунтується на ентропійний підхід до вибору особливостей з цими підходами до вибору особливостей та класифікації. Всі порівняння в цій статті використовують однакову навчальну та тестову базу даних. База даних містить 1002 зображення облич людей (кольорових і напівтонових) з великою варіацією в освітленні, пози і вирази емоцій. У цій базі 82 різних персон (різної раси) з віками від 0 до 69 років. Ми використовували розмірність входу МОВ рівну 43 у процесі порівняння (як показано в таблиці 2). На додаток, ми порівняли точність з тими ж особливостями Габора і методом KNN.

4. Результати експериментів
Ми використовували адаптовану FG-NET базу зображень людей різного віку [20]. Ця база доступна публічно і містить 1002 зображення облич людей (кольорових і напівтонових) з великою варіацією в освітленні, пози і вирази емоцій. У цій базі 82 різних персон (різної раси) з віками від 0 до 69 років. На малюнку 13 показана серія зображень бази для однієї з персон.

Малюнок 13. Деякі зображення персони в FG-NET базі

Для оцінки роботи підсистеми оцінки віку, область особи на зображення була позначена за допомогою детектора осіб, описаного в розділі 2. Метод перехресної перевірки, в якому на кожному кроці перевірки, тільки одна персона використовувалася в якості тесту, а решта використовувались для навчання. Причому, по черзі в якості тестової персони використовувалися всі персони вибірки.
Кожне зображення обрізане і приведено до розміру 64*64 пікселів, а колірна інформація перетворена до 256 рівнів сірого. Ми використовували МОП з РБФ (Radial basis function kernel, RBF) ядром, у якому параметр c = 0,5 і гамма g = 0.0078125. Ми в основному сфокусувалися на нових особливості, отриманих на основі вейвлетів Габора.
Робота підсистеми оцінки віку може бути оцінена з допомогою двох заходів: середньої абсолютної помилки (САО) і накопичувальної сумою (НС). САО визначається як середня абсолютна помилка між оціненим віком і відомим. САО була використана [2-10]. НС визначається так:

де — кількість тестованих зображень, на яких оцінка віку має абсолютну похибку не більше ніж j.
Таблиця 3 показує результати експерименту. Ми порівнюємо наші результати з попередніми методами, що використовують на вікову базу даних FG-NET. Метод Габора-OLSS, використовуваний в даній роботі має САО що дорівнює 8.43 і 5.71 при використанні KNN і МОВ відповідно, які явно менше, ніж більшість попередніх результатів з аналогічних експериментів. Наш метод, пропонує приблизно 16% САО в порівнянні з результатами AGES [2]. У таблиці 3, можна бачити, що LARR [4] метод і BIF [9] метод мають більш сприятливі значення САО: 5.07 і 4.77, ніж наші.

Таліца 3. Значення САО для різних методів


Як згадувалося раніше, наша мета — побудувати повністю автоматичну систему оцінки віку. LARR метод використовує AAM особливості FG-NET безпосередньо і це означає, що даний метод зазвичай потребує залучення людей при вирівнюванні характерних точок. У нашому дослідженні ще немає ефективного методу, який би міг автоматично вирівнювати точки швидко і коректно. Наприклад, LARR метод може вимагати значних зусиль при вирівнюванні точок. САО у BIF явно ефективніше, ніж у методу, запропонованого нами. Щоб верифікувати їх результати, ми спробували здійснити BIF метод. Результати виявилися набагато гірше, з САО 10.32. Більш того, метод BIF вимагає велику кількість часу при витяганні рис старіння. Порівняно з нашим методом, BIF вимагає у двічі більше часу. Наш метод збільшує швидкість обробки виділених ознак до приблизно 12-15 зображень за секунду.
Порівняння НС проілюстровані на рисунку 14. Наш Gabor-OLPP метод виконується швидше, ніж WAS і методи, які використовують багатошарові перцептрони. Метод AGES близький до GAbor-OLPP методом на низькому рівні помилки віку, але нижче ніж ті Gabor-OLPP, де рівень помилки більше п'яти.

Малюнок 14. Накопичувальна сума для кожного методу

5. Висновок
У цій роботі ми запропонували нову систему для автоматичної оцінки віку по зображенню особи. Перетворення на основі вейвлетів Габора вводиться, насамперед, для оцінки віку з метою отримання вікових особливостей автоматично в режимі реального часу. Метод опорних векторів має хороший потенціал для класифікації розряджених навчальних даних, а також має стійку здатність до узагальнення.
В останніх дослідженнях в цій області використовується метод аналізу головних компонент тільки для зменшення розмірності особливостей Габора. Але МГК має неадекватну ефективність, коли використовуються особливості Габора безпосередньо. Підвищуючи ефективність за рахунок зниження точності класифікації, попередні дослідники намагалися вибирати певні особливості, ігноруючи всі інші. Тому методи зменшення розмірності більш зручні для вибору цільових особливостей. Ми порівнювали чотири різних типових методу зменшення розмірності даних. OLPP надає вектор особливостей найменшою розмірності і найзручніший відбір особливостей.

6. Подяки
Ця робота була підтримана кафедри Промислових технологій в рамках гранту: 100-EC-17-A-02-S1-032, а також, частково, Радою тайванської національної науки в рамках гранту: NSC-100-2218-E-009-023.

Література
[1] Paul V, Jones M. J. (2004) Robust Real-Time Face Detection. International Journal of Computer Vision 57(2), 137-154
[2] Ген X, Zhou Z-H, Zhang Y, Li G, Dai H. (2006) Learning from facial aging patterns for automatic age estimation, In ACM Conf. on Multimedia, pages 307 — 316
[3] Ген X, Zhou Z-H, Smith-Miles K. (2007) Automatic age estimation based on facial aging patterns. IEEE Trans. on PAMI, 29(12): 2234-2240
[4] Guo G, Fu Y, Dyer, C. R., Huang, T. S. (2008) Image-Based Human Age Estimation by Manifold Learning and Locally Adjusted Robust Regression. IEEE Trans. on Image Processing, 17(7): 1178-1188
[5] Guo G, Fu Y, Huang T. S. and Dyer, C. R. (2008) Locally Adjusted Robust Regression for Human Age Estimation. IEEE Workshop on Applications of Computer Vision, pages 1-6,.
[6] Kwon Y, Lobo N. (1999) Age classification from facial images. Computer Vision and Image Understanding, 74(1): 1-21
[7] Txia J-D and Huang C-L. (2009) Age Estimation Using AAM and Local Facial Features. Fifth International Conference on Intelligent Hiding Information and Multimedia Signal Processing, pages 885-888
[8] Yan S-C, Zhou X and Liu M. Hasegawa-Johnson, M., Huang, T. S. (2008) Regression from patch-kernel. IEEE Conference on CVPR, pages 1-8
[9] Guo G, Mu G, Fu Y and Huang T. S. (2009) Human age estimation using bio-inspired features. IEEE Conference on CVPR, pages 112-119.
[10] Serre T, Wolf L, Bileschi S, Riesenhuber M and Poggio T. (2007) “Robust Object Recognition with Cortex-Like Mechanisms. IEEE Trans. on PAMI, 29(3): 411-426
[11] Lin C-T, Siana L, Shou Y-W, Yang C-T (2010) Multiclient Identification System using Adaptive
Probabilistic Model. EURASIP Journal on Advances in Signal Processing. Vol. 2010
[12] Paul V and Jones M. J. (2004) Robust Real-Time Face Detection. International Journal of Computer Vision 57(2), 137-154
[13] Papageorgiou C. P, Oren M and Poggio T. (1998) A general framework for object detection. in
Proceedings of the 6th IEEE International Conference on Computer Vision, pp. 555-562
[14] Viola P and Jones M. J. (2004) Robust real-time face detection. International Journal of Computer Vision, vol. 57, no. 2, pp. 137-154
[15] Donato G, Bartlett MS, Hager J. C., Ekman P and Sejnowski T. J. (1999) Classifying facial actions. IEEE Trans. Pattern Anal. Machine Intell., vol. 21, pp. 974 — 989
[16] Wiskott L, Fellous J, Kruger N and Malsburg C. (1997) Face recognition by elastic bunch graph matching. IEEE Transactions on Pattern Аналізу and Intelligence Machine, vol. 19, pp. 775-779
[17] Liu C and Wechsler H. (2002) Gabor feature based classification using enhanced fisher linear discriminant model for face recognition. IEEE Transactions on Image Processing, vol. 11, pp. 467 — 476
[18] Liu C. (2004) Gabor-based kernel PCA with fractional power поліноміальні models for face recognition. IEEE Transactions on Pattern Analysis and Intelligence Machine, vol. 26, pp. 572-581.
[19] Belhumeur P. N., Hespanha J. P. and Kriegman D. J. (1997). ʺEigenfaces vs. Fisherfaces: Recognition using class specific linear projection.ʺ IEEE Transactions on Pattern Analysis and Intelligence Machine 19(7): 711- 720.
[20] Duda R. O., Hart P. E., and Stork D. G. (2000) Pattern Classification, 2nd ed. New York: Wiley Interscience
[21] Li X, Fei S and Zhang T. (2009) Novel Dimension Reduction Method of Gabor Feature and Its Application to Face Recognition. International Congress on Image and Signal Processing, 2009. CISP ʹ09. 2nd, Page(s): 1-5
[22] The FG-NET Aging Database [Online]. Available: www.fgnet.rsunit.com/
[23] He X-F, Yan S-C, Hu Y-X, Niyogi P and Zhang H-J. (2005) Face recognition using Laplacianfaces. IEEE Transactions on Pattern Аналізу and Intelligence Machine 27(3): 328-340.
[24] Cai D, He X-F, Han J-W and Zhang H-J. (2006) Orthogonal Laplacianfaces for Face Recognition. IEEE Transactions on Image Processing 15(11): 3608- 3614.
[25] Mercier G and Lennon M. (2003) Support vector machines for hyperspectral image classification with spectral-based kernels. in Proc. IGARSS, Toulouse, France, July 21-25.
[26] Abe S. (2005) Support Vector Machines for Pattern Classification. London: Springer-Verlag London Limited.
[27] Wang L. (2005) Support Vector Machines: Theory and Applications. New York: Springer, Berlin.
[28] Lanitis A, Draganova C and Christodoulou C. (2004) Comparing different classifiers for automatic age estimation. IEEE Trans. Syst., Man, Cybern. B, Cybern., vol. 34, no. 1, pp. 621-628

Джерело: Хабрахабр

0 коментарів

Тільки зареєстровані та авторизовані користувачі можуть залишати коментарі.