Штучний інтелект оцінює роботи учнів нарівні з учителями, але має обмеження
Дослідники з Університету Джорджії виявили, що мовні моделі можуть допомогти вчителям перевіряти роботи учнів, проте технологія поки не здатна повністю замінити людську оцінку
/sci314.com/images/news/cover/2457/c933c115d1d4f80261d7d060aac7e83a.jpg)
Нове дослідження Університету Джорджії висвітлило потенціал і обмеження використання штучного інтелекту для оцінювання учнівських робіт. Науковці зосередили увагу на тому, як велика мовна модель Mixtral справляється з перевіркою письмових відповідей учнів середньої школи на запитання з природничих наук.
Дослідження є особливо актуальним з огляду на зростаючий тиск на освітян, які мають впроваджувати інтерактивні методи навчання та водночас надавати учням своєчасний зворотний зв'язок. Особливо гостро ця проблема постає у викладанні природничих наук, де нові освітні стандарти Next Generation Science Standards роблять наголос на розвитку в учнів навичок аргументації та дослідження, а не простому запам'ятовуванні фактів.
«Коли ми просимо дітей намалювати модель, написати пояснення, подискутувати між собою — це дуже складні завдання», — пояснює Сяомін Чжай, провідний автор дослідження та доцент, директор Центру освіти AI4STEM у Педагогічному коледжі імені Мері Френсіс Ерлі Університету Джорджії. «Учителі часто не мають достатньо часу, щоб оцінити відповіді всіх учнів, через що діти не можуть отримати вчасний зворотний зв'язок».
У межах дослідження науковці аналізували, як Mixtral оцінює письмові відповіді учнів на запитання з природничих наук. Зокрема, в одному із завдань учні мали створити модель, що демонструє поведінку частинок під час передачі теплової енергії. Дослідники порівнювали процес оцінювання штучним інтелектом із методами, які застосовують учителі.
Результати дослідження виявили суттєві відмінності між підходами штучного інтелекту та людини до оцінювання. Хоча ШІ здатний миттєво створювати оцінювальні рубрики та виставляти оцінки, його методи суттєво відрізняються від людських. Без використання розроблених людьми рубрик точність оцінювання ШІ становила лише 33,5%. Навіть із доступом до людських рубрик точність підвищилася лише трохи більше ніж до 50%.
Дослідники виявили, що системи ШІ часто вдаються до спрощених методів оцінювання, шукаючи конкретні ключові слова замість того, щоб оцінювати загальну логіку та обґрунтування у відповідях учнів. «Учні можуть згадати про підвищення температури, і велика мовна модель робить висновок, що всі учні розуміють: частинки рухаються швидше при підвищенні температури», — зазначає Чжай. «Але на основі учнівських текстів ми, як люди, не можемо зробити висновок, чи справді учні розуміють, що частинки рухатимуться швидше».
Попри виявлені обмеження, дослідники бачать потенціал для вдосконалення технології. Надання ШІ детальних рубрик, створених людьми, які окреслюють конкретні критерії оцінювання, може значно підвищити точність технології. Такі рубрики допомагають ШІ краще розуміти глибинні аналітичні процеси, які використовують люди під час оцінювання учнівських робіт.
Чи може ШІ повністю замінити людей в оцінюванні? Дослідники застерігають від такого підходу, натомість пропонуючи розглядати ШІ як помічника вчителів, а не їхню заміну. «Потяг вже вирушив зі станції, але тільки-но вирушив», — метафорично зазначає Чжай. «Це означає, що нам ще належить довгий шлях у використанні ШІ, і нам все ще потрібно визначити, в якому напрямку рухатися».
Незважаючи на наявні обмеження, вчителі, які брали участь у дотичних дослідженнях, висловили ентузіазм щодо потенційної економії часу завдяки інструментам ШІ для оцінювання. «Багато вчителів казали мені: „Раніше я мусив витрачати вихідні на надання зворотного зв'язку, але завдяки автоматичному оцінюванню мені не потрібно цього робити. Тепер у мене є більше часу зосередитися на більш значущій роботі замість виконання рутинних завдань“», — ділиться Чжай. «Це дуже надихає мене».
З розвитком технологій ШІ ці інструменти можуть стати все ціннішими для освітян, які прагнуть збалансувати всебічне оцінювання з керованим робочим навантаженням. Ключем до успіху видається знаходження правильного партнерства між людським судженням та технологічною ефективністю — це дозволить учителям зосередити свій досвід там, де це найбільш важливо, водночас використовуючи ШІ для виконання більш рутинних аспектів оцінювання.
Схожі новини
- Кліматичні протести втрачають популярність: активісти змінюють фокус уваги17.05.2025, 11:16
- Стенфордський університет переміг у змаганні NASA з місячної автономності16.05.2025, 02:27
- Як уникнути хибних відповідей штучного інтелекту: досвід використання Perplexity AI15.05.2025, 21:47
- Чатбот Grok від X почав поширювати теорію змови про геноцид білих у ПАР15.05.2025, 19:30
- Дев'ять студентів NASA досліджували полярне сяйво на Алясці під час зимової школи15.05.2025, 02:44