Конкурс з програмування на PHP: Класифікатор слів (попередні результати)

Спасибі за очікування! Публікуємо попередні результати конкурсу з програмування.

Протестовано 312 рішень, з них 50 впало або зависло, ще 3 виявилися занадто повільними, щоб пройти всі тести. З решти 259 рішень 12 з різних причин були оголошені «поза конкурсом»: рішення не працювали без поправки типу файлу даних (автори забули галочку «gzip») або були надіслані співробітниками Hola.

Нинішні результати попередні. Ми сподіваємося, що не допустили помилок при підведенні підсумків, і тоді 20 червня 2016 ці результати стануть остаточними. Тоді ж замість ідентифікаторів рішень будуть опубліковані імена або псевдоніми їх авторів.

Рішення про переможця конкурсу показало результат у 83.67% правильних відповідей. Повні списки рішень з результатами тестування знаходяться в англійській версії поста на GitHub.

Там же ми публікуємо «сирі» машиночитані результати тестування кожного з рішень, де різноманітної інформації більше, ніж в зведених таблицях. На основі цих даних Ви можете провести власний аналіз результатів, чого ми будемо дуже раді.

Про вибір словника

Багатьох цікавило, чому ми обрали такий дивний словник, багато хто з «слів» якого не назвеш англійськими. Нам було важливо, щоб результат у 100% був недосяжний, інакше ми не змогли б вибрати, яке з рішень, що досягли 100%, краще (були б потрібні додаткові критерії, наприклад, продуктивність). Звичайні словники для перевірки орфографії містять 50 000 165 000 слів. Навіть словник обсягом 165 000 слів цілком міг би бути стислим до 64 Кіб разом з кодом для розпакування. З іншого боку, якщо б ми вирішили пропорційно зменшити квоту (до 16 Кіб, а то і менше), то стало б вже відчутно не вистачати місця для коду, і конкурс перетворився в змагання з мінімізації довжини коду. В цьому напрямку йти не хотілося, тому ми вибрали самий великий «словник», який тільки могли знайти. До нього увійшли всі мислимі вузькоспеціальні терміни, а також рідкісні варіанти правопису слів і навіть деякі неіснуючі слова, згенеровані в результаті помилкових спрацьовувань алгоритму словозміни (stemming). Таким чином, у вибраному словника всього чверть слів можна в повній мірі назвати словами англійської мови. Тим не менш, інші слова у складі словника не повністю випадкові, а об'єднані схожістю статистичних властивостей. Тому ми вирішили піти на такий компроміс і вибрали словник розміру «insane» з пропонованих проектом SCOWL.
Джерело: Хабрахабр

0 коментарів

Тільки зареєстровані та авторизовані користувачі можуть залишати коментарі.