Жінки і вбивства: чи є тут взаємозв'язок? [частина 2 з 2]



R
кодgist для відтворення всіх результатів

У першій частині, підхоплений натхненням і бажанням перевірити гіпотези відразу, я проаналізував взаємозв'язок між співвідношенням підлоги і поширеністю вбивств в країнах Європи. Результати не підтвердили моїх очікувань. Схоже, що багато в чому країни Європи нагадують регіони однієї країни зі своєю периферією і своїми центрами.
У наступній ітерації свого скептицизму, результати якого ви можете прочитати нижче, я перевіряю свою гіпотезу на даних американських графств, як і автори вихідної статті.
Коротко про гіпотезуЯкщо вам ліньки зазирнути в першу частину статті, то ось коротко суть. Автори опублікованого в журналі Human Nature дослідження стверджують, що співвідношення статей у дорослому населенні впливає на поширеність тяжких злочинів (зокрема, вбивств): чим більше жінок, тим більше і злочинів. Я як і раніше думаю, що вся справа в упущеної змінної — центральність/периферійність (urban/rural) — яка і повинна пояснювати як підвищену частку жінок у містах, так і більша кількість злочинів в них.
Переконливо підтвердити свої здогадки на простеньких європейських даних мені не вдалося. Спробуємо на докладних американських.

Дані
А скринька просто відкривався (з)
Все виявилося набагато простіше, ніж можна було очікувати. Звичайно, я витратив не одну годину, блукаючи по різних ресурсів (благо в США даних… нам би так). І ось, коли я все ще малював собі складності і зберігав "на потім" десятки закладок, натрапив на ось цей чудовий датасет. Датасет вільно скачується після реєстрації та погодження з умовами використання.
Дані як навмисне зібрані для подібного роду аналізу, що наводить на підозри у велосипедостроительной спеціалізації авторів вихідної статті. Датасет містить великий перелік змінних для графств США за період 2001-2006. Не такі свіжі дані, як у авторів, але навряд чи можна очікувати, що human nature змінюється за десятиліття. Він містить всі цікаві для нас змінні, щоб безперешкодно повторити дослідження і перевірити, що цікавить нас гіпотезу.
Exploratory data analysis
Спершу давайте подивимося, великі відмінності за ключовими показниками між центральними і периферійними графствами. У нашому датасете є класифікація графств на 9 типів (RuralUrban03, 2003 ERS Rural-Urban Continuum Code). Перші три категорії — це міські графства різної чисельності. Категорії 4-9 — сільські, відмінності в чисельності населення і віддаленості від регіонального центру.
Категорії графств (скопійовано з Codebook до датасету)Code Description
Metropolitan counties:
1 Counties in metro areas of 1 million population or more
2 Counties in metro areas of 250,000 to 1 million population
3 Counties in metro areas of fewer than 250,000 population
Nonmetropolitan counties:
4 Urban population of 20,000 or more, adjacent to a metro area
5 Urban population of 20,000 or more, not adjacent to a metro area
6 Urban population of 2,500 to 19,999, adjacent to a metro area
7 Urban population of 2,500 to 19,999, not adjacent to a metro area
8 Completely rural or less than 2,500 urban population, adjacent to a metro area
9 Completely rural or less than 2,500 urban population, not adjacent to a metro area
На карті це виглядає так. Кружальцями дані столиці штатів (червоний) і великі міста (золотий).

Малюнок 1. Класифікація графств за центральності/периферійності.
Оскільки з 9 категоріями працювати незручно, в подальшому аналізі я об'єднав перші три — в категорію
metro
, а решта — в категорію
non-metro
.
По-перше, нам цікаво, чи справді співвідношення чоловіків і жінок віддзеркалює результат міграційного закону Равенштейна — жінки справді активніше в міграціях на короткі відстані, і їх більше в містах. Подивимося на розподілу графств за співвідношенням статей у дорослому віці (рис. 2).

Малюнок 2. Розподіл центральних і периферійних графств за співвідношенням статей у дорослому віці.
Чітко видно, що серед графств з підвищеним співвідношенням підлог (переважають чоловіки) більше периферійних. Медіанне значення показника для периферійних графств 1.039; для центральних 1.016.
Карта по графствам виходить дуже гучною, тому я побудував карту по штатам, порівнюючи середні значення співвідношення статей для центральних і периферійних графств (рис. 3). Практично немає штатів, в яких співвідношення статей було б вище в центральних графствах.

Малюнок 3. Середнє співвідношення статей у центральних графствах в порівнянні з периферійним.
Ще одним наочним результатом міграції завжди виступає медіанний вік населення. У середньому, мігранти завжди молодше місцевого населення. Тому міграція перерозподіляє медіанний вік населення, омолоджуючи центральні території і прискорюючи старіння населення в периферії. Зрозуміло, цьому загальним правилом знаходиться підтвердження і на американських даних (рис. 4 і 5).

Малюнок 4. Розподіл центральних і периферійних графств по співвідношенню медіанному віком населення.

Малюнок 5. Медіанний вік населення по графствам США.
Для різноманітності, по медіанному віком населення побудував карту по графствам. Вона все ще досить гучна, але загальну закономірність вловити можна.
Нарешті, як же йде справа з вбивствами в місті і на селі? Тут ситуація цікава (рис. 6).

Малюнок 6. Розподіл центральних і периферійних графств за показником вбивств на 100К населення.
У 2004 році, коли були зібрані дані, вбивства не відбулися у 65.2% периферійних графств і 30.3% центральних графств. При цьому, коли злочини все ж відбувалися в периферійних територіях, коефіцієнт виходив досить високим за рахунок малої чисельності населення провінційних графств. В цілому ж, зрозуміло, в містах вбивств більше. Значення третього квартиля (75%) для міст становить 55.4, а для провінції 36.7 вбивств на 100К населення. Якщо агрегувати дані по штатах і типу графств (рис. 7), то явно видно, що практично у всіх штатах міська злочинність вище.

Малюнок 7. Усереднений коефіцієнт вбивств на 100К населення в центральних графствах в порівнянні з периферійним.
Отже, вихідні передумови підтверджуються даними. Подивимося, яким буде результат моделювання.
Але спершу давайте ще подивимося на гарну карту частки чорношкірого населення США по графствам (рис. 8), оскільки слідом за авторами ми будемо використовувати цю змінну в якості контрольної в моделях.

Малюнок 8. Частка чорношкірого населення по графствам США.
Моделі
Отже, моделюємо з допомогою Пуассоновских регресій залежність коефіцієнта вбивств від співвідношення статей та інших додаткових змінних. Вводимо змінні послідовно.
Позначення змінних в таблиціЛінь було змінювати позначення. До того ж, вони говорять.
asr — співвідношення статей у дорослому віці (15-44)
perstpov04 — стійка бідність: частка населення графства за межею бідності не менше 20% за даними 4 останніх переписів населення 1970, 1980, 1990 і 2000
pctblack05 — частка чорношкірого населення
southSouth — дамм змінна для південних штатів (Південь в порівнянні з Північчю)
metroNon-metro — центральність/периферійність (периферія в порівнянні центром)
ruralurban03 — 9-ступенева класифікація центральності/периферійності
unemprate05 — безробіття
medianage05 — медіанний вік населення
Таблиця 1. Результати моделювання рівня вбивств.


Результати моделей 1-4 дуже схожі з тими, що наводять автори статті в Human Nature. Цікаво тут, мабуть, те, що при переході від моделі 2 до моделі 3 коефіцієнт при змінній "постійна бідність" змінює знак. Виходить, що частка чорного населення пояснює варіацію в бідності.
Нам же цікаво порівняти моделі 4 і 5. Коли ми вводимо центральність/периферійність в якості контрольної змінної, коефіцієнт при співвідношенні статей стає істотно менше негативним. Тобто, відмінності в центральності/периферійності пояснюю значну частину виявленої взаємозв'язку між частотою вбивств і співвідношенням статей. Інші моделі не настільки цікаві, але залишив.
Висновки
Сенсації не сталося. Але, дійсно, центральність/периферійність графств майже наполовину послаблює виявлену авторами взаємозв'язок між співвідношенням статей та рівнем злочинності. Інші перевірені мною додаткові змінні не мають настільки ж значущого ефекту. Так що моє підозра підтвердилася наполовину. Статус території значить багато, але не нівелює повністю виявлену взаємозв'язок. Однак, без сумніву, автори вихідної статті втратили одну з ключових змінних.
Reproducibility
R
кодgist для відтворення всіх результатів.
Гарантовано працює при використання
R
версії 3.3.2 з пакетами станом на 2016-11-10. У разі пакетних несумісностей, скористайтесь пакетом checkpoint, встановивши відповідну дату.
Джерело: Хабрахабр

0 коментарів

Тільки зареєстровані та авторизовані користувачі можуть залишати коментарі.