Що відбувається, коли використовуєш штучний інтелект, відключивши при цьому свій

У даній статті буде зроблена критика нещодавно написаного поста про Аналіз Корану за допомогою AI. Що-ж, кому цікаво, як проводити аналіз не слід, ласкаво просимо під кат.

Неточності
Почнемо з того, що автор у передмові пише:
… а потім проаналізував весь текст манускрипту.
хоча при цьому був проведений аналіз 7 з 114 сур Корану. Загалом, без коментарів.

Далі веселіше:
Якщо припустити, що текст Корану писався не однією особою, а декількома ...
Для людини, яка хоч трішки вивчав історію даного питання, подібне звучить як: «якщо припустити, що дітей приносять лелеки ...». Безумовно, є дикі фантазії окремих істориків, які припускають, що Коран був створений кількома людьми і т. п., тим не менш, це не більше ніж фантазії, подібні Нової хронології Фоменко.

Ну і нарешті:
Кореляція між двома масивами даних виразно помітна навіть візуально, а саме 0.7839422223, що говорить про прямий зв'язок між класифікаторами підлоги і настроенем тексту.
Я б за 7 чисел не будував такі глибокі висновки про те, як влаштований класифікатор.

Використання не за призначенням
Watson
На сайті Ватсона чітко і недвозначно написано: «You need text written by the person whose personality you're interested in. It should contain words about every day experiences, thoughts, and responses.», тобто йому потрібні тексти з розповідями про повсякденному досвіді, думках і відповідях людини. Як людина, не раз прочитав Коран, скажу, що він не підходить під цей опис. А ось те, про що ж все-таки розповідається в Корані, раджу кожному вивчити самостійно. Відразу буде зрозуміло, кому цікаво докопатися до істини, а кому поставити чергову галочку «уф, ці дурні віруючі».

Здається, подальші коментарі з Ватсону зайві.

uClassify
Може хоча б цей інструмент автор використав за призначенням? Давайте подивимося: «It is well suited for both short and long texts (tweets, Facebook statuses, blog posts, product reviews etc). It's trained on 2.8 million documents with data from Twitter, Amazon product reviews and movie reviews. It can be used to conduct research, brand surveys and see trends around market campaigns.» Ех, знову розчарування! Цей класифікатор був навчений на постах з Твіттер, Фейсбук, блог постах і оглядах продуктів. Швидше за все в навчальній вибірці було колосальное безліч коротких простих речень, в той час як стиль викладу Корану інший. Результат був би трішки цікавіше, якби це навчили на текстах з класичної літератури.

Трохи аналізу
Про Ватсона я скажу лише те, що помітив один хабровчанин в коментарях: якщо змінити стиль Корану з simple на Uthmani, то результат змінюється, що вкрай дивно. Ці дві «версії» збігаються слово в слово, буква в букву, а відрізняються лише огласовками і підказками для читаючих. Тобто суть одна і та ж, а результат різний. Загалом, IBM Watson є куди прагнути.

Куди цікавіше справи з uClassify. Так, нехай він навчений на коротких, не дуже релевантних текстах, але чому він думає, що в Корані так багато негативу? Давайте розбиратися.

Одна з перших думок, яка прийшла мені в голову, а давайте я подивлюся на забарвлення окремих слів, напевно, це на багато проллє світло. Як ви думаєте, яке найбільш часто вживане слово в Корані? Не складно здогадатися, що це слово «Аллах». Давайте подивимося на його забарвлення:
  • Allah — 35% позитивне, 65% негативний
Ем… злегка упереджене ставлення, чи не правда? У двічі більше негативу… Давайте для порівняння візьмемо інші слова:
  • God — 53% позитивне, 47% негативний
  • killer — 50% позитивне, 50% негативний
  • kill — 33% позитивне, 67% негативний
  • murder — 45% позитивне, 55% негативний
На всяк випадок зазначу, що у віруючого повинні бути позитивні думки по відношенню до Бога. Доказ (ага, прямо як в математиці, це вам не ля-ля) наведу початок наступного хадиса:
Пророк, та благословить його Аллах і вітає, сказав: «Аллах Всевишній говорить: “Я буду таким, яким вважає Мене раб Мій ..."
Ісламські вчені, коментуючи цей хадис кажуть: «Мається на увазі, що Аллах зробить для людини саме те, чого він від Нього очікувати.»
Крім того, з найбільш часто вживаних імен Аллаха в Корані: Милостивий, Милосердний, Люблячий, Мудрий і т. д. Ви ні за що не знайдете там жодного, яке би мало негативне забарвлення.

Але все ж, цікавість узяла верх, і щось смикнуло мене перевірити ще кілька слів на емоційне забарвлення:
  • Quran — 22% позитивне, 78% негативний
  • Merciful — 17% позитивне, 83% негативний
  • Mercyful — 57% позитивне, 43% негативний
«Воу-воу-воу, хлопець, палехчи», як виявилося, у нього дуже упереджене ставлення до Корану, слово Милостивий він вважає супер-негативним, а ось датську хеві-метал-групу з купою сатанических знаків цілком позитивною.

Замість висновку
Я розумію, що AI — це стильно, модно, молодіжно, але завжди варто думати своєю головою, критично мислити і перевіряти результати. Ладно то автор, за текстом здається (можу помилятися), що йому потрібно було зробити якесь быстренькое дослідження, але що сумно, так це те, що ще чоловік 50 «лайкнули» цей пост, чи то пак «глибина» дослідження автора їх цілком задовольнила.

Всім добра, позитивних думок і точних класифікаторів! ;)
Джерело: Хабрахабр

0 коментарів

Тільки зареєстровані та авторизовані користувачі можуть залишати коментарі.