Таблиці спряженості: лог-лінійні моделі і Марківські мережі

У попередній частині публікації розглянуто метод факторизації невід'ємних матриць як зниження розмірності і візуалізації таблиць спряженості. В цій частині буде проведений статистичний аналіз отриманих діаграм з використанням лог-лінійних моделей. Нагадаю, демонструються приклади для complex survey даних — стратифікованих, кластерних і зважених вибірок. Ця обставина передбачає застосування спеціальних методів оцінки та вибору моделей. Для візуалізації отриманих результатів застосовуються Марківські мережі — зручний інструмент графічного представлення взаємодії факторів лог-лінійних моделей.





Коротко про попередньої серії. За даними ESS 2012 року для генеральної сукупності «Чоловіки вік 25-40 років» була побудована таблиця про ступінь підтримки людських цінностей в кожній з країн опитування. Для зниження розмірності представлення матриці розміру 29х21, яка визначається таблицею, було вироблено NMF перетворення рангу 5. Повторю підсумкову теплокарту позиціонування всіх 29 країн в отриманому просторі, щоб вона була перед очима



Постановка завдання
Побудована карта підказує між якими країнами (або кластерами країн) гіпотеза про незалежність розподілу часток ціннісних змінних від країн (кластерів країн) може бути відхилена. Потрібно статистично підтвердити виникають гіпотези. Для прикладів будемо використовувати наступні групи країн
  • Росія і Словаччина, за результатами ієрархічної кластеризації — сусіди;
  • Франція і Росія, як варіанти країн з різними уявленнями.

Зрозуміло вибір не обмежується тільки цими прикладами і дослідник може вибрати ті країни або кластери країн, що збігаються з його інтересами.
Крім перевірки гіпотез виникає питання — як взаємодіють ціннісні фактори в залежності від групи обраних країн? Потрібно виявити ці можливі відмінності.

Трохи про таблиці спряженості
Всі ціннісні змінні в таблиці для виконання NMF перетворення сприймалися як одна змінна з множинним вибором (multiple response variable). Це було необхідно для представлення даних у вигляді двомірної таблиці, тобто таблиці утвореної двома змінними. Насправді у нас ситуація дещо інша, повний набір з 21 ціннісної змінної і 1 змінна вказує країну визначають 22-мірну таблицю спряженості.
Ймовірно це здасться дивним, але з точки зору побудови статистичних моделей, багатовимірні таблиці спряженості (c single response змінними і без пропущених відповідей) — більш проста ситуація, ніж таблиці з multiple response змінними. Крім того, за допомогою NMF розмірність таблиці була знижена до 6 — 5 латентних змінних + 1 змінна з країною.

Лог-лінійні моделі
Класичний метод аналізу багатовимірної таблиці спряженості — побудова її лог-лінійної моделі. Лог-лінійний аналіз можна сприймати як узагальнення хі-квадрат критерію на випадок багатовимірних таблиць. Визначення лог-лінійних моделей можна подивитися в Вікіпедії (eng). З цієї теми доступні матеріали з прикладами на російській мові, наприклад, тут або тут, а також детальні лекції англійською мовою тут.

Перш ніж перейти до обчислень відзначимо, що в загальному випадку багатовимірні таблиці спряженості визначають мультиномиальное розподіл. Але коли маргінальні суми цього розподілу по одному вимірюванню або кількома вимірами фіксовані, отримуємо так зване product-обчислення multinomial розподіл. Тому потрібно накладати додаткові обмеження на параметри лог-лінійних моделей для таких таблиць. Подробиці можна знайти у главі 12 книги [1]. У нашому випадку маргінальні суми фіксуються по одному вимірюванню — розміри генеральних сукупностей у кожній з країн є константами. Це означає, що головний ефект відповідає змінної з країною не може бути виключений з моделі.

Останнє зауваження. Ми опустимо питання про те, які таблиці для survey даних вважаються розрідженими і, як наслідок, не будемо проводити відповідні перевірки.

Визначаємо і порівнюємо моделі
Раніше використовуємо пакет survey [2] середовища R для врахування ефектів стратифікації, кластеризації та зважування вибірки. Більш докладно про це повідомлялосяв одній з минулих публікацій. Параметри лог-лінійних моделей для complex survey даних рівно ті ж самі, що і для таблиць без урахування дизайну дослідження. Потрібне коригування формул вычисляющих значимість параметрів моделі (як окремо, так і в сукупності).

Завантажуємо дані, виділяємо ген. сукупність, додаємо в базу латентні змінні і задаємо дизайн дослідження.
library(foreign)
library(data.table)
library(survey)

srv.data <- read.dta("ESS6e02_1.dta")
srv.variables <- data.table(name = names(srv.data), title = attr(srv.data,"var.labels"))
srv.data <- data.table(srv.data)
setkey(srv.data, cntry) 
setkey(srv.variables, name)

fr.dt<-data.table(read.dta("ESS6_FR_SDDF.dta"))
ru.dt<-data.table(read.dta("ESS6_RU_SDDF.dta"))
ru.dt[,psu:=psu+150] # psu values are changed to avoid their intersections between countries
sk.dt<-data.table(read.dta("ESS6_SK_SDDF.dta"))

sddf.data <- rbind(fr.dt, ru.dt, sk.dt)
setkey(sddf.data, cntry, idno)

cntries.data <- srv.data[J(c("FR", "RU", "SK"))] 
cntries.data[ ,weight:=dweight*pweight]
setkey(cntries.data, cntry, idno )

cntries.data <- cntries.data[sddf.data] 
cntries.data <- cntries.data[gndr == 'Male' & agea >= 25 & agea<=40, ]

# add the latent variables<b> a.1, a.2, ..., a.5</b> to the cntries.data
answers <- c('Very much like me', 'Like me')
cntries.data[,a.1:= imprich %in% answers | ipsuces %in% answers]
cntries.data[,a.2:= ipgdtim %in% answers]
cntries.data[,a.3:= ipmodst %in% answers]
cntries.data[,a.4:= ipadvnt %in% answers | impfun %in% answers]
cntries.data[,a.5:= ipfrule %in% answers | ipudrst %in% answers]

# define survey design
srv.design.data <- svydesign(ids = ~psu, strata = ~stratify, weights = ~weight, data = cntries.data)
options(survey.lonely.psu="adjust")



Приклад 1, найпростіший — таблиця для Росії та Словаччини з одного латентної змінної «money | success».



Будуємо дві моделі: передбачає незалежність факторів і насичену.
Обчислення показують ...
ru.sk.data <- subset(srv.design.data, cntry %in% c("RU", "SK"))
srv.loglin.model.ind <- svyloglin(~a.1+cntry, ru.sk.data)
srv.loglin.model.sq <- update(srv.loglin.model.ind, ~.^2)
anova(srv.loglin.model.ind, srv.loglin.model.sq)

Analysis of Deviance Table
Model 1: y ~ a.1 + cntry
Model 2: y ~ a.1 + cntry + a.1:cntry
Deviance= 0.1240613 p= 0.4737981
Score= 0.1217862 p= 0.4778766

насичена модель не є значимо кращою порівняно з моделлю, що передбачає незалежність.
Тобто, ми не можемо відкинути нульову гіпотезу про незалежність змінних в таблиці.
Для порівняння-це таблиця з результатами незалежної моделі



Приклад 2. Розглянемо таблицю з усіма п'ятьма латентними змінними для Франції і Росії.
Лог-лінійна модель, яка передбачає попарную незалежність всіх факторів відкидається. Модель з усіма елементами другого порядку є прийнятною. Цю модель можна (і потрібно) спростити — відкинути за результатами wald і likelihood ratio критеріїв, параметри другого порядку для змінної визначає країну і останніми двома латентними змінними теплокарты.
Обчислення
fr.ru.data <- subset(srv.design.data, cntry %in% c("FR", "RU"))

srv.loglin.model.ind <- svyloglin(~ a.1 + a.2 + a.3 + a.4 + a.5 + cntry, fr.ru.data)
srv.loglin.model.sq <- update(srv.loglin.model.ind, ~.^2)
srv.loglin.model.tri <- update(srv.loglin.model.ind, ~.^3)
srv.loglin.model.four <- update(srv.loglin.model.ind, ~.^4)

anova(srv.loglin.model.ind, srv.loglin.model.sq)$dev$p[3] #5.745843 e-50
c( anova(srv.loglin.model.sq, srv.loglin.model.tri), anova(srv.loglin.model.sq, srv.loglin.model.four) ) # 0.7335668 0.7427429

sapply(paste('cntry:a.',1:5,sep=""), function(x) round(regTermTest(srv.loglin.model.sq, x)$p, 3) )

cntry:a.1 cntry:a.2 cntry:a.3 cntry:a.4 cntry:a.5
0.000 0.000 0.000 0.437 0.524

anova(update(srv.loglin.model.sq, ~. -cntry:(a.4 + a.5)), srv.loglin.model.sq)$dev$p[3]

0.6066181

Умовна незалежність. Чому математичні здібності і розмір взуття — залежні фактори?
Ця варіація на тему класичного прикладу. Припустимо, математичні здібності респондента визначаються наступною градацією--- високі, середні або низькі. Будуємо таблицю спряженості з цими двома перемінними, скажімо, для населення всієї Росії. Гіпотеза про незалежність цих змінних сміливо може бути відкинута. У людей з великим розміром взуття вище математичні здібності. У чому причина? У відсутності прихованої змінної — вік. Ясно, що до певного моменту вік позитивно корелює як з математичними здібностями, так і з розміром взуття. Якщо фіксувати вік (Age = k), то для будь-якого k таблиця спільного розподілу величин M (мат. здібності) і S (розмір взуття) не буде вказувати про наявність значущої залежності між ними. В такому випадку кажуть, що величини M S умовно незалежні. Цей результат виражається природним чином у вигляді Марківської мережі — ненаправленою графічної моделі.


Додам, що на Хабре є відмінна стаття про Байєсівських мережах — спрямованих графічних моделях.

Графічне представлення лог-лінійних моделей
Попередній приклад можна узагальнити і поширити його на довільні ієрархічні лог-лінійні моделі, що і було реалізовано в роботі [3]. Розглянемо ряд можливих варіантів для трьох змінних A, B C.


Ці Марківські мережі відповідають наступним лог-лінійним моделям

image

Зауважимо, що не всяка ієрархічна лог-лінійна модель може бути представлена у вигляді Марківської мережі. Наприклад — модельAB/AC/BC. Але будь-яка модель може бути однозначно вкладена в мінімальну Марковскую мережу. Подробиці відповідності лог-лінійних і графічних моделей можна знайти в книзі [1] або статті [3].

Підсумкові результати
Марківські мережі дозволяють відносно легко орієнтуватися у взаєминах змінних і порівнювати результати різних таблиць.





Бачимо, що у випадку Росії та Словаччини спостерігається значуща взаємозв'язок між країною і змінної «важливий пошук пригод і ризик або можливість повеселитися». З іншими ціннісними якостями мінлива Country умовна незалежна.
Тоді як у Франції та Росії значуща відмінність у ставленні до трьох тверджень: «важливо бути багатим або мати успіх», «важливо добре проводити час» і «важливо бути простим і скромним».
Обидва цих виведення узгоджуються з результатами теплокарты.
Що ж стосується взаємозв'язку між латентними змінними, то графи для цих пар країн відрізняються тільки одним ребром. Для Росії та Словаччини змінні «важливо добре проводити час» і «важливо слідувати правилам або важливо допомагати оточуючим» умовно незалежні.

На закінчення зазначу, що в лог-лінійних моделях для complex survey даних покроковий вибір моделі, заснований на AIC або BIC результати, поки не реалізований. Статті з адаптацією цих критеріїв до таких даними стали з'являтися тільки в останні роки. Зокрема, в цьому році вийшла стаття [4], один із співавторів якої — T. Lumley, творець пакету survey.

Література:
[1] G. Tutz (2011) Regression for Categorical Data, Cambridge University Press.
[2] T. Lumley (2014) survey: analysis of complex survey samples. R package version 3.30.
[3] N. J. Darroch, S. L. Lauritzen, and T. P. Speed (1980) Markov fields and log-linear interaction models for contingency tables. Annals of Statistics 8(3), 522-539.
[4] T. Lumley, A. Scott (2015) AIC and BIC for modelling with complex survey data, J. Surv. Stat. Method. 3 (1), 1-18.

Джерело: Хабрахабр

0 коментарів

Тільки зареєстровані та авторизовані користувачі можуть залишати коментарі.