Чи складе штучний інтелект національний мультитест

8.04.2024, 08:31 Переглядів: 1 347 Коментарів: 1

Ми протестували дві «нейронки» на 6 предметах. Результати вражають!

Тільки лінивий не пробував потестити штучний інтелект у роботі чи навчанні. Чи можна довіряти його відповідям? Ми протестували дві популярні безкоштовні «нейронки» — ChatGPT 3.5 та Gemini 1.5. З їх допомогою пройшли демо- тестування з 6 предметів. Спойлер: все пропало — не склали жодного без помилок.

Для тих, хто вже далекий від теми освіти, нагадаємо: Національний мультитест — це комп’ютерний онлайн-тест, тимчасова заміна ЗНО, що складається з чотирьох предметів, які об'єднані у 2 блоки. Перший блок: українська мова та математика, а другий блок: історія України та предмет на вибір. За його результатами випускники шкіл вступатимуть у виші України.

Ми вирішили протестувати здібності ШІ на 6 предметах, аби побачити, хто він: гуманітарій чи технар, і де найкраще проявляє здібності. Адже ШІ може ще не дуже знатися на українській мові, але на відмінно знати англійську та лускати як насіння задачі з фізики та математики.

Обрали демо-тести з таких предметів: українська мова, математика, історія України, географія, фізика та англійська.

Якщо коротко, то обидві нейромережі склали тести так собі. Їхні відповіді часто не збігалися: у кожної своя «думка», при чому обидві можуть бути хибними. Якщо задати нейромережі одне і те саме питання двічі, можна отримати різні відповіді.

Більше правильних відповідей — у Gemini 1.5. Безкоштовна версія ChatGPT 3.5 трохи відстала за кількістю правильних відповідей, але не так, щоб дуже сильно. Проте інколи «чат» видавав такі відповіді, які б не додумався дати навіть найвідсталіший учень у класі.

Краще за все нейромережі склали тест з англійської та історії України. Інші тести були десь приблизно однакові: 120-150 балів.

Зізнаємось, що результати не зовсім точні: деякі завдання довелось пропустити, адже їхня суть картинках з фігурами, графіками, показниками. А безкоштовний «чат» працює лише з текстом. У Gemini 1.5 можна завантажувати фото, але десь на половині кожного тесту нейромережа починала матюкалась, зависала і відмовлялась далі працювати. Тож деякі завдання, особливо у тестах з фізики чи географії, ми просто пропустили. А тепер детальніше, як нейромережі відповідали на питання тестів:

Тест з географії: Україна — в НАТО та ЄС

ChatGPT вирішив видати бажане за дійсне і трохи пофантазував під час тесту з географії. Спалився на першому питанні:«Земна адреса України» і обрав варіант «Європейський Союз».

У тих, хто складав мультитест, фантазія не така багата як у нейромережі, тож правильна відповідь «регіон Європа». ChatGPT втрапив у цю пастку, та не отримав бал.

Далі ChatGPT ще порадував: на питання, до яких міжнародних організацій входить Україна, він надав відповідь «НАТО».

Ну промахнувся, з ким не буває. 

Загалом, з географії ChatGPT набрав лише половину неправильних відповідей. Жовтим підсвічені відповіді, де потрібно було обрати кілька варіантів і ChatGPT частково помилявся. Білі клітинки — запитання, які ми пропустили, бо вони були у картинках і ми не змогли їх надати ChatGPT.


А отакі були справи у Gemini 1.5 — лише 4 не правильні відповіді, а також обійшлись без передчасного вступу до Євросоюзу та НАТО.

Українська мова

Отакі результати показав ChatGPT з української. Вірно відповів лише на третину запитань.

Спочатку він налякав, ніяк не міг розставити звук «д» у словах. Запропонував неологізми «бодожола», «поїякував» тощо. Воювали довго, аби відповіді хоча б були схожі на українську мову.

Але потім якось більш перейнятися українською, принаймні було легше вибити відповідь. Проте часто відповідав неправильно.

Gemini 1.5 з українською також ще не потоваришував: лише на дві правильні відповіді більше. Але все одно повністю вірно відповів десь на третину запитань.

Історія України

ChatGPT набрав менше ніж половину правильних відповідей.


Не потоваришував з датами — заснував першу Запорізьку січ «не в ту» дату.


Не відчув підказки у тексті про шведського короля і приписав авторство документа Сагайдачному замість Мазепи. Дали другий шанс, дали подумати ще раз. Знов мимо — авторство приписав Виговському.


У Gemini 1.5 з історією України набагато краще. Лише 5 відповідей були зовсім не правильні.


Англійська мова

Тут ми чеками бездоганного знання та здачі тесту на всі сто відсотків, адже нейромережі непогано роблять переклади та пишуть тексти на інгліш. Проте тести, мабуть, таки заплутали нейромережу. Провали все одно є, хоча у цілому, це найвдаліший тест. У ChatGPT 12 не правильних відповідей — приблизно третина.

Gemini 1.5 з англійською мовою вийшов в топ: лише 5 не правильних відповідей.

Математика

Ми сподівались, що краще буде з математикою та фізикою, бо формули — є формули.

Але ні. Знов додамо, що не всі питання змогли задати, бо формули та зображення.

У Gemini 1.5 вийшло навіть трохи гірше. При чому в одному випадку рацію мав ChatGPT, в іншому — Gemini 1.5, а в третьому — брешуть вдвох.

Фізика

Як і математика, трохи розчарувала.

Якби йшла мова про прохідний бал для вступу на бюджет, з 4-х предметів (українська мова, Історія України, математика та англійська) максимально ШІ отримав би 152 бали. З цим показником штучний інтелект зміг би потрапити на бюджет. Але не до топових вишів країни, адже там середній бал НМТ торік був вищий:

 

Нейромережа може просто вигадувати інформацію. Це — так звані галюцинації

Фахівці Наукового ліцею «Політ» при Кременчуцькій гуманітарно-технологічній академії займаються вивченням штучного інтелекту. І пояснили, що не варто на сто відсотків покладатися на нейромережі, особливо, щодо фактів. Бо там, де у нейромережі «пробіли» знань, вона починає вигадувати та фантазувати:

— Нейромережа — це математична модель, де є певний набір вхідних даних, а вихідні дані мають певну імовірність. Від неї не можна чекати сто відсоткової достовірності даних, — пояснює викладач інформатики Тетяна Лисенко. — Навіть розробники нейронних мереж не можуть передбачити, які результати отримають на виході з мережі. Тож не варто очікувати від нейромережі правдивих фактів. Але ШІ чудово справляється з іншими функціями: обробляє великі масиви даних, структурує та класифікує інформацію. Може скоротити текст, виділити головне, скласти списки, створити на основі даних таблицю тощо.

Зараз мережа навчається і те, що нам надають можливість безкоштовно користуватися ChatGPT або іншими нейронними мережами — це продовження процесу навчання штучного інтелекту. Для навчання мережі потрібна величезна кількість даних. Наприклад, одна з робіт нашого учня для Малої академії наук України була присвячена розпізнаванню сміття: пластикових пляшок, пакетів зі сміттям. Потрібно було знайти та опрацювати 80 тисяч зображень за кілька епох, щоб нейромережа навчилася розпізнавати пластикові пляшки та пакети як два різні об'єкти.

Окрім того, що нейромережі можуть припускати помилки, не всі вони спираються на пошук в Інтернеті та добре володіють українською. Адже їхня «рідна» мова — англійська, за якою проводилось навчання: 

— Безкоштовна версія ChatGPT має базу даних, що обмежена 2021 роком та не має доступу до Інтернету, тож не може отримувати нові знання, — зазначає викладач інформатики Юлія Брусник. — Навчання цієї мережі здебільшого базувалося на англомовних джерелах, новинах, літературних творах. Тому в нього не така об'ємна база знань по Україні, наших подій, літератури, творчості тощо. А коли ChatGPT не має відповіді на запитання, він може просто вигадувати інформацію. Це так звані «галюцинації». При цьому він представляє відповіді дуже правдоподібно, хоча насправді вони можуть бути неправдивими.

Щодо Gemini 1.5, у фахівців краща думка — цей продукт Google підкріплює свою базу даних з Інтернету, може давати посилання на ресурси тощо і результати, які видає ця нейромережа більш коректні.


Як застосовувати ШІ у навчанні, з чим він може краще впоратись та чи замінить вчителя або репетитора? Відповіді на ці питання вже скоро на нашому сайті :)

Автор: Олена ЯРЕМКО
Якщо Ви помітили помилку, виділіть необхідний текст та натисніть Ctrl+Enter, щоб повідомити про це редакцію.

Коментарі: 1

1 180
8 квітня 2024 11:13

Впевнений шо якшо малєцкого та його кончену шоблу поміняти на ШІ (навіть платну версію) то це буде на сотні мільонів дешевше та для громади корисніше. Навіть якшо десь помилятиметься.  


4 0

Інформація

Користувачі, які знаходяться в групі Гості, не можуть залишати коментарі до даної публікації.
Будь-ласка, ЗАРЕЄСТРУЙТЕСЬ.
Ознайомтесь із правилами коментування.
  • Kiaparts
  • НОВИНИ ПАРТНЕРІВ:


Свіжий випуск (№ 11 від 14 березня 2024)

Для дому і сім'ї

Читати номер

Для дому і сім'ї - програма телепередач

Читати номер

Приватна газета

Читати номер
Попередні випуски
Вверх