Порахувати незриме: достовірно визначаємо словниковий запас


В школі Skyeng ми рідко навчаємо з нуля. Зазвичай до нас приходять люди, які вже володіють певним набором знань, причому цей набір буває самим різним. Для того, щоб навчання було корисним, нам потрібно визначити межу цих знань. Якщо у випадку граматики це відносно просто (з'ясовується на перших заняттях з методистом), то уточнення меж словникового запасу – завдання не сама тривіальна. Для її вирішення ми розробили і запустили інструмент WordMash.

Упорядкування слів

Запам'ятовування слів — одна з основних складових навчання іноземної мови, на яку витрачається більша частина часу і зусиль студента. Однак слова будь-якої мови, в тому числі англійської, не рівнозначні: якісь корисніше, т. к. частіше зустрічаються (walk vs perambulate); якісь простіше для запам'ятовування (process vs outgrowth), з якимись учень постійно має справу на роботі або в силу інтересів. Для побудови максимально ефективної навчальної програми (дає відчутний результат в найкоротші терміни необхідно враховувати ці фактори.
Для ефективного вивчення нових слів і підтримки в пам'яті старих важливо вміти визначати словниковий запас (лексикон) учня. Традиційний підхід полягає в інтуїтивному визначенні обсягу лексикону вчителем на основі спілкування і тестів. Такий підхід, однак, повністю спирається на досвід і кваліфікацію викладача і не може бути об'єктивно проконтрольований.
Ідеальним методом визначення всіх відомих учневі слів був би опитувальник по всьому словнику мови з двома варіантами відповіді – «знаю» і «не знаю». Зрозуміло, що реалізувати подібний метод практично неможливо: мало хто з учнів готовий витратити кілька тижнів, безперервно відповідаючи на питання.
Тому добре зарекомендував себе спосіб, заснований на припущенні, що з усіх слів мови можна скласти впорядкований по складності список. У його початку йдуть «прості слова», наприклад ті, що вивчають діти в самому початку життя: «мама», «тато», «хороший», «поганий» і т. д. В кінці знаходяться «складні слова — професійна лексика, архаїзми, локальні прислівники і т. д. У спрощеному випадку передбачається, що якщо людина знає деяке слово у цьому упорядкованому списку, то він знає і всі попередні слова у цьому списку; якщо ж людина не знає деяке слово, то й наступні слова він теж не знає. Таким чином, в ідеальному випадку для оцінки словникового запасу людини потрібно визначити положення межі його знання: номер останнього слова, яке він знає.

Приблизний графік знання слів впорядкованого списку в ідеальному випадку. Межа «знання» точно визначає розмір лексикону учня.
Таке ідеальне упорядкування слів, на жаль, неможливо, оскільки реальний лексикон різних людей відрізняється (якщо, звичайно, він не нульовий). Вивчення слів відбувається не послідовно за затвердженим кимось зверху списку, на нього впливає обрана програма, викладач, особисті і професійні інтереси студента. Так, математик і лікар знають термінологію своїх областей, але не в курсі термінів не з своєї галузі; вони по-різному будуть сприймати складність слів «диференціал» та «карцинома».
Тому має сенс говорити про усереднений впорядкування слів. В цьому випадку відсутнє поняття чіткої межі: учень може знати слово №1000, не знати слово №1001 і знову знати слово №1002. Для опису реальних ситуацій має сенс розглянути наступний підхід.
Розіб'ємо слова в нашому ранжируваному по складності списку на інтервали (наприклад, за 100 слів) і для кожного інтервалу визначимо відсоток слів із цього інтервалу, який учень знає. В результаті вийде щодо гладка крива; якщо ми знаємо номер слова, то з допомогою графіка ми можемо побачити, з якою ймовірністю його учень знає. Для цієї функції можна визначити медіану: такий номер слова, що кількість невідомих слів до нього дорівнює кількості відомих після. Ця медіана і буде грати роль аналога кордону і характеризувати чисельним чином словниковий запас учня.
Виглядає це здорово, якби не одна проблема: а як, власне, підготувати сам упорядкований по складності список слів?

Характерна залежність ймовірності знання слова учнем від номера слова. Червоною вертикальною лінією показана медіана розподілу.

Аналіз частотності по Британському корпусу

Існує теорія, згідно з якою середньостатистична складність слова безпосередньо залежить від його поширеності (частотності). Дійсно, чим частіше нам в процесі навчання буде потрапляти слово, тим швидше ми його вивчимо. Таким чином, впорядкований список слів можна побудувати, проаналізувавши частотність всіх слів у корпусі текстів — спеціально підібраної і обробленої сукупності різноманітних текстів мови.
Тому почали ми з того, що провели частотний аналіз Британського Національного Корпусу (British National Corpus). У корпусі представлені письмові тексти (книги, статті, документи), розмовні (транскрипції бесід, записів, фільмів) та цитати з доповідей, звернень та виступів. Ці три подкорпуса різняться обсягами, однак володіють однаковою важливістю для аналізу живої мови, тому при підрахунку частотності їх «вага» в загальному результаті був зрівняний. Далі були розраховані частотності і проведена нормалізація по подкорпусам (усереднені три результату). Ось витяг з отриманого списку і графік залежності частотності від номера слова:








Номер слова Слово Частотність (на мільярд слів) 1 the 61 674 367 2 be 35 206 532 470 leader 2 420 806 5175 millennium 11 433 49818 negligibly 67

Залежність частотності слова від його номера в списку. Видно, що початок списку добре описується законом Ципфа (червона пряма).

Суб'єктивність поняття складності

Твердження про хороше відповідно частотності слів у корпусі текстів і відносної впорядкованістю лексикону групи людей справедливо лише в тому випадку, якщо ця група — активний читач і виробник цих текстів. Іншими словами, британський корпус відображає впорядкованість лексикону передусім саме британців, меншою мірою інших англомовних соціумів, і в останню чергу — російськомовних учнів, які вивчають англійську мову.
В якості важливого приклад такої невідповідності можна привести слова грецької, латинської або іншого походження, які володіють схожою формою у англійською та російською мовами. Наприклад:









Англійське слово Російське слово analysis аналіз moment момент information інформація philosophy філософія bronchitis бронхіт doctor доктор
Всього нами було виділено більше 5 тисяч подібних слів. Що дає така схожість форм у двох мовах? Якщо учень більш-менш здатний читати по-англійськи, йому буде нескладно вгадати значення слова, хоча він ніколи його не вчив (якщо, звичайно, це не «помилковий друг перекладача» типу magazine).
Слід зазначити, що даний ефект позитивно впливає на розмір пасивного словника, однак практично ніяк не пов'язаний з активним. З одного боку, учень заздалегідь гарантовано не знає, чи має слово російської мови схожим перекладом англійською, а з іншого, часто фонетика і орфографія істотно відрізняється. Тим не менш, вивчення цих слів не може бути поставлено в один ряд з «рідними» для англійської мови леммами англосаксонського походження, для яких учневі доводиться запам'ятовувати всі лексичні одиниці (граматику, фонетику, переклад) без будь-яких підказок з боку рідної мови.
Навіть аналіз частотного списку слів носіїв англійської мови показує його сильну залежність від місця і часу. Наприклад, порівняння знаменитого Salisbury Word List, показує найбільш частотні слова австралійських школярів у 1978-79 роках, і Oxford Wordlist, дослідження словникового запасу знову ж австралійських школярів, але 30 років, показує, що в лексиконі сучасних дітей почали переважати слова, пов'язані з консьюмеризму: bought, new, shop, want і технологіями, тоді як до цього більшість частотних слів були присвячені темі сім'ї та дозвілля.
Все це переконало нас у тому, що список, відсортований лише по частотності, недостатньо хороший для наших цілей — навчання англійської мови російськомовних учнів, що призвело до запуску проекту WordMash.

Користувацька сторінка проекту Wordmash, в якому користувач з двох слів вибирає більш простий на його погляд.

Розумне ранжування

WordMash — інструмент додаткової сортування словника, що базується на суб'єктивному сприйнятті складності окремих лексичних одиниць реальними людьми, нашими учнями. З двох запропонованих системою слів користувач вибирає найбільш, на його погляд, просте. При цьому для впорядкування списку застосовується система рейтингів Ело. Ця система, спочатку з'явилася в шахах, нині застосовується в багатьох іграх і видах спорту — від Го до Magic the Gathering.
Суть її в тому, що величина, на яку змінюються рейтинги гравців після кожної зустрічі (матчу), непостійна, вона залежить від початкового рейтингу кожного із суперників (ймовірності перемоги). У випадку, якщо свідомо більш сильний гравець (гросмейстер) обігрує завідомо слабшого (новачка), переможець отримає, а переможений втратить мінімальне число очок рейтингу, яка в екстремальних випадках до нуля. Навпаки, якщо в тій же ситуації гросмейстер програє, він втратить значну частину свого рейтингу. Таким чином, чим вище рейтинг, тим складніше його піднімати і легше втратити, проте талановитий новачок може добитися адекватної оцінки своєї майстерності досить швидко.
для всіх слів був розрахований початковий рейтинг, як логарифм частотності:
R_i=\log_2\omega_i
Потім, якщо було проведено порівняння i-го слова з j-им, виписувалось кількість очок, яке набрало i-е слово s_i_j, рівне 1 у разі, якщо i-е слово виявлялося простіше j-го (перемога), 0 – якщо i-е слово виявлялося складніше (програш) і 0,5 — якщо користувач важко відповісти (нічия). Сума очок зберігалася: s_i_j + s_j_i = 1. На основі поточних рейтингів вираховувалось матожидание кількості набраних балів i-им словом:
E_i_j = {1\over 1+\exp [2(R_j - R_i)]}
Нарешті, обчислюється новий рейтинг слова:
R _i = R_i +{1\over 4}(s_i_j - E_i_j)
Таким чином, найбільш прості слова піднімаються в рейтингу, а складні, навпаки, опускаються.
Зауважимо, що подібна методика при певному розмірі бази користувачів виявляється стійка до шуму результатів. Іншими словами, рейтинг слів, отриманий на основі відповідей одного користувача не може вважатися достовірним, однак по мірі зростання кількості учасників програми його достовірність постійно підвищується.
Для перевірки достовірності методу ми провели експеримент з шістнадцятьма добровольцями з різним рівнем знання мови. Їм був наданий список з перших 8 тисяч слів початкового частотного списку, в якому вони відзначали відомі їм слова. Для кожного слова був обчислений відсоток людей, знайомих з ним, і за допомогою описаного вище методу інтервалів було побудовано кумулятивне розподіл знання слів «усередненим людиною». Це розподіл виявилося немонотонний: деякі слова, що знаходяться в списку нижче, виявлялися більш простими, ніж слова, розташовані в списку вище. Після 85 тис. порівнянь ця крива виявляється трохи більш гладкою.
Була побудована метрика якості сортування: кількість перестановок, що потрібно зробити в списку слів, щоб крива стала монотонною (чим менше перестановок, тим краще). На графіку нижче показано, як залежить ця метрика від кількості проведених порівнянь.

Поліпшення сортування слів (падіння метрики) в процесі накопичення даних про попарном порівнянні слів користувачами. Поліпшення сортування говорить про те, що метод WordMash працює і приводить до бажаного результату.
На жаль, як і багато інші методи, WordMash найбільш ефективний при початковій сортування, але для досягнення більш точних результатів потрібно все більша кількість порівнянь. Оцінку необхідної кількості порівнянь (близько мільйона) ми отримали в результаті екстраполяції.
Своїми силами ми не зможемо провести таку кількість порівнянь, тому ми відкрили інструмент для добровольців за адресою http://tools.skyeng.ru/wordmash. Для цього довелося продумати додаткові алгоритми відсіювання випадкових результатів, які можуть виникати як в результаті пустощів, так і «ефекту улюбленої кнопки» або просто стомленості користувача. Яке-то кількість таких випадкових результатів все-таки просочиться в базу, але при тому масштабі дослідження, який ми задумали, вони будуть знаходиться в межах статистичної похибки.

Визначення словникового запасу учня

Маючи на руках результати роботи інструменту WordMash, ми зможемо достатньо точно визначати обсяг лексикону учня, що дозволить точніше підбирати для нього навчальні матеріали. Графік зростання цього обсягу, в свою чергу, служить гарним мотивуючим чинником і показником ефективності навчання. Для визначення словникового запасу ми використовуємо інструмент, аналогічний Test Your Vocabulary, але з модифікованою WordMash базою складності слів.
На першій ітерації, питаючи кілька слів, логарифмічно рівномірно покривають весь діапазон ранжированого списку, ми знаходимо приблизну кордон медіанним методом. На другій ітерації ми уточнюємо цю межу, питаючи слова в околиці приблизної кордону.
Слід зазначити, що у разі логарифмічно розподілених величин медіанний метод визначення кордону слід злегка видозмінити (скоригувати на щільність слів). Якщо номери слів n_kрозподілені логарифмічно рівномірно: n_k = 10^\alpha^k, де k = 1, 2, 3 і т. д. а \alpha— константа, і ми отримали відповіді учня p_k, які дорівнюють 1, якщо він знає слово і 0, якщо не знає, то оцінка кордону складе:
L = (\alpha \ln 10)\sum\limits_k p_k n_k
Завдяки інструментам ранжирування слів і визначення словникового запасу учня, ми зможемо підвищити ефективність навчання, створюючи сервіси, які добре доповнюють нашу екосистему — наприклад, «Теплову карту тексту» (позначення ймовірності знання учнем слова кольором) або WordSet Generator (інструмент створення списків слів для вивчення на основі конкретних текстів та рівня учня). Володіючи досить правдивим впорядкованим за складністю списком слів, ми зможемо тонко підлаштовувати уроки під потреби конкретного учня – так, щоб вони були цікавими (містили нову корисну інформацію) і не надмірно складними (коли незнайомих слів у тексті більше двадцяти).

Прототип інструменту Wordset Generator з результатом обробки «Автостопом по Галактиці» Дугласа Адамса

Зараз інструмент WordMash запущений, ми набираємо необхідну базу в мільйон порівнянь і просимо читачів взяти участь в експерименті. Якщо є вільна хвилинка — зайдіть, будь ласка, на сайт і оцініть кілька пар слів за допомогою клавіш курсору. Всього вам буде запропоновано десять тисяч пар, але всі їх проходити необов'язково — ми зберігаємо дані після кожного порівняння.
Прислухавшись до коментаторів тут на «Хабре», ми зробили WordMash відкритим: щоб порівнювати слова, реєструватися не обов'язково, прогрес буде зберігатися за допомогою куки. Тим не менше, якщо ви готові витратити на порівняння помітне час, ми рекомендуємо зареєструватися, щоб, по-перше, зберігати індивідуальну статистику, а по-друге, знати, кому видати безкоштовний урок в якості подяки. Крім того, з реєстрацією ми зможемо гарантувати, що історія ваших порівнянь нікуди не пропаде. Результати ми зберігаємо для майбутніх аналізів, виявлення закономірностей і ще більш тонкого налаштування індивідуальних програм навчання.
Джерело: Хабрахабр

0 коментарів

Тільки зареєстровані та авторизовані користувачі можуть залишати коментарі.