Відкриваємо доступ до інструменту для складання списків англійських слів з фільмів, книг і статей



Skyeng ділиться з Хабром посиланням на внутрішнє додаток, яким користуються наші методисти.

Ми в школі Skyeng переконані, що чим швидше учень отримує відчутний ефект від заняття або тренування, тим вище його мотивація і ефективніше саме навчання. Традиційна методика вивчення мов обіцяє конкретний результат лише через тривалий час — рік, два, тобто вимагає вкладення значних сил, часу і коштів без негайного ефекту. Ми вважаємо, що цілком реально отримати «повернення інвестицій» швидко, якщо ставити перед собою невеликі конкретні завдання і вирішувати їх. Сьогодні ми розповімо про один з наших службових інструментів, призначений саме для цього, і дамо читачам можливість спробувати його в справі, скласти власні списки слів, найцікавіші з яких будуть запропоновані всіма користувачами Aword!

Якщо вам треба приготувати ірландське рагу по оригінальному рецепту англійською, традиційна школа запропонує вивчити 200 назв кухонного начиння і 300 найменувань різних продуктів. Ми пропонуємо одразу вчити слова, що мають безпосереднє відношення до задачі — тобто зустрічаються в рецептах саме ірландського рагу. Інженеру-конструктору для читання професійної літератури необов'язково проходити уроки про «Лондон з зе капитэл» та екологію: йому достатньо знання базової і вузькоспеціальної лексики.

Для вирішення таких конкретних завдань ми готуємо тематичні набори слів, які можуть заучувати користувачі нашого мобільного додатку Aword. А для підготовки цих сетів ми використовуємо інструмент Wordset Generator створює впорядкований список слів для запам'ятовування тексту або набору текстів, які хоче прочитати учень.


Результат обробки книги Дугласа Адамса «Автостопом по Галактиці»


Слова, що зустрічаються в 5 сезонах гри престолів, накладені на модельну криву знання учня. Координати кожної точки (слова) — корисність від номера слова. Праворуч показані найбільш корисні для такого учня 25 слів із серіалу.

Створення Wordset Generator стало можливо завдяки наявності у нас інструментів ранжирування слів і визначення словникового запасу конкретного учня (одній з попередніх статей ми розповідали, навіщо ми зробили ці інструменти, а не скористалися готовими корпусами). Для кожного слова може бути обчислена ефективна корисність: наскільки вивчення цього слова збільшить коефіцієнт розуміння тексту. З допомогою Wordset Generator ми можемо порекомендувати учневі вивчати в першу чергу найпоширеніші невідомі йому слова або ж, навпаки, найбільш важливі в його професійній діяльності.

Алгоритм
— Складається список всіх використаних в тексті слів, із зазначенням кількості входжень.
— Відсікаються (відправляються в окремий список) усі слова, які відсутні в нашому словнику. Як правило, це вигадані автором слова, імена, назви.
— Визначається «тематичність» кожного слова у списку, для чого порівнюється частота входження слова в аналізованому тексті з частотою входження цього слова в корпусі текстів англійської мови (його поширеності). Число означає, у скільки разів частіше слово присутнє в аналізованому тексті.

Далі проводиться автоматична підстроювання списку під конкретні потреби (з допомогою заданих параметрів або переміщення повзунків).

— Задається рівень знання учня («складність»). При цьому відсікаються слова, з якими учень, швидше за все, вже знайомий.
— Вибираються ваги тематичності та локальної частотності. Тематичність важлива в тому випадку, якщо ми готуємо список професійних термінів для використання у роботі. У разі аналізу художньої літератури важливіше частотність.
— Нарешті, алгоритм вміє обчислювати ймовірність того, що конкретне слово в даному тексті є ім'ям власним (в веб-версії такі слова підсвічуються червоним кольором різної інтенсивності). Повзунок «Імена власні» дозволяє видаляти такі слова у відповідності з заданою ймовірністю; у більшості випадків тут необхідне ручне втручання, особливо якщо мова йде про художній літературі.

Не тільки машина
Інструмент Wordset Generator значно полегшив роботу нашого контент-відділу, але, звісно, не взяв її на себе. Методисти як і раніше грають важливу роль у складанні тематичних наборів слів для заучування.

По-перше, їм необхідно підготувати корпус текстів, з яких будуть вилучатись слова. Якщо з конкретною книгою або фільмом ця задача більш-менш проста, то в разі тематичних наборів типу «В аеропорту» потрібно перелопатити досить значний обсяг інформації, щоб набрати хорошу репрезентативну вибірку: класичні тексти з підручників, статті з путівників, правила авіакомпаній, відгуки у блогах (як правило, скарги) і т. д. Важливо, щоб ці тексти були сучасні і живі, оскільки ми хочемо навчати студентів мові, на якому сьогодні говорять і пишуть американці та британці.

По-друге, необхідно настроїти правильні установки складності, тематичного та інші. Все це робиться тільки ручним перетягуванням повзунків, оскільки сильно залежить від мети набору, рівня підготовки учня, специфіки теми і т. д.

По-третє, потрібна серйозна робота з отриманим набором слів. Необхідно з'ясувати точне значення слова у даному контексті. Крім того, часто необхідний термін складається не з одного слова, а з декількох, їх теж треба знайти і привести список в порядок. Так, у разі аеропортової лексики ми виявили серед часто зустрічаються слово metal: насправді мова йшла про metal detector. Подібні словосполучення часто складаються з простих слів, які інструмент відкидає – їх треба знайти і повернути на місце.

Нарешті, треба ще підібрати до всіх словами картинки – так, щоб вони відповідали потрібного змістом. Цим теж займається спеціальна людина.

Застосування
Найбільш очевидне застосування інструменту Wordset Generator для наших студентів – створення списків слів для заучування під конкретні книги або фільми. Якщо проаналізувати текст книги, скласти список із сотні слів і повчити його в мобільному додатку – читати буде значно простіше, чи не доведеться кожні п'ять хвилин лазити в словник.

Завдяки інструменту ми можемо швидко готувати набори слів під конкретну подію: презентацію чергового Айфона, чемпіонат з футболу, гучну прем'єру або який-небудь медійний скандал. З таким проханням до нас можуть звертатися наші учні, і ми самі намагаємося відслідковувати потенційно затребувані «швидкопсувні» теми, щоб своєчасно запропонувати користувачам мобільного додатку набір слів під них.



Аналіз художньої літератури допомагає методистам готувати рекомендаційні списки для кожного рівня учнів. Чим менше «складних» слів видає програма – тим доступніше текст для студентів, що знаходяться в середині шляху вивчення мови. Для високих рівнів ж такі тексти не представляють труднощів і не несуть освітньої користі – їм треба підшукувати більш багаті лексично твори. Наприклад, у довільно вибраному детектива Агати Крісті (After the Funeral) «складних» слів налічується менше 300; в «Уліссі» Джеймса Джойса список заходить за 2000.

Дуже корисний інструмент Wordset Generator в нашій роботі з корпоративними клієнтами, яких часто вимагає вивчення і заучування спеціальної професійної лексики. Так, для корпоративних клієнтів, працює в аерокосмічній галузі, ми підготували списки слів на основі аналізу десятків статей у фахових журналах. Важливо, що у високотехнологічних областях лексика постійно оновлюється; використання нашого інструменту і збірки максимально свіжих матеріалів дозволяє створювати списки, що містять найбільш актуальні терміни.

До справи!
Ми вирішили дати читачам Хабра можливість самостійно погратися з Wordset Generator – ось він: http://tools.skyeng.ru/sandbox/wordset-generator/

Він більш-менш інтуїтивний, хоча варто враховувати, що це наш внутрішній інструмент, не призначений для широкої публіки, а тому його інтерфейс дуже аскетичний і непричесан.

У відкритій версії є обмеження на розмір тексту — не більше 80 тисяч знаків, включаючи пробіли, і переноси рядків. Практика показує, що це оптимальне значення для корисного застосування інструменту «в побуті». Беріть те, що збираєтеся прочитати найближчим часом: пару голів, десять сторінок або кілька статей. Ви отримаєте компактний набір, який можна тренувати в мобільному додатку протягом дня, а ввечері закріпити вивчене в контексті (попутно насолодившись книгою). Наприклад:



перед вами – результат парсинга першої глави «Автостопом по Галактиці» Адамса. Порівняйте зі скріншотом на початку статті, де показаний результат аналізу всієї книги з тими ж параметрами. Ці слова там теж є, але де-то в третій-четвертій сотні, а тут вони представлені як на блюдечку.

Отримані слова можна додати в додаток вручну за допомогою вбудованого словника. А читачі Хабра можуть створити власний список слів, експортувати в CSV і поділитися посиланням на отриманий файл в коментарях до цього посту. Через тиждень ми виберемо найцікавіші сети, запропоновані Хабром, і включимо їх в наше додаток до спеціальної категорії «Сети від хабровчан».

Сам додаток Aword можна взяти в App Store. Вже скоро воно буде доступний в Google Play, а в листопаді — в Web-версії!

Вдалого вивчення слів!

І традиційно нагадуємо, що ми будемо раді бачити в нашій команді цінних фахівців!
Джерело: Хабрахабр

0 коментарів

Тільки зареєстровані та авторизовані користувачі можуть залишати коментарі.