Ни одна из популярных языковых моделей искусственного интеллекта, в частности ChatGPT, не смогла сдать украинское внешнее независимое оценивание (ВНО).
Результаты исследования обнародовали на платформе arXiv, в котором украинские ученые проверили, насколько хорошо искусственный интеллект работает с украинским языком, образовательным контентом и национальной культурой. Для этого они создали специальный бенчмарк под названием ZNO-Vision — первый в Украине комплексный мультимодальный тест, который оценивает знания моделей ИИ в этих сферах.
Бенчмарк сформировали на основе реальных заданий ВНО по различным дисциплинам: математике, физике, химии, биологии, истории Украины, украинскому языку и литературе.
В целом он содержит более 4 тысяч вопросов, часть из которых требует анализа не только текста, но и изображений, схем и графиков.
В рамках исследования авторы протестировали ряд популярных языковых моделей: Gemini Pro, Claude 3.5, Qwen2-VL, GPT-4o, LLaMA, Paligemma и другие.
Результаты оказались довольно неожиданными: ни одна из моделей не смогла преодолеть 70% правильных ответов — то есть не сдала экзамен по украинским стандартам.
Наилучшим оказался результат модели Gemini Pro, которая дала правильные ответы в 67,5% случаев. За ней — Claude 3.5 (64,3%), Qwen2-VL (51,2%), а GPT-4o набрала всего 47%. Для сравнения: условный "базовый уровень", предусматривающий случайный выбор ответов, обеспечивает около 22% правильных ответов.
Отсутствие украиноязычных данных в открытом доступе ограничивает эффективность современных ИИ. По мнению исследователей, результаты указывают на ограниченность даже самых современных ИИ в работе с украинским языком и украинским контентом.
Среди основных проблем, с которыми сталкивались модели, — ошибки в распознавании украинского текста, сложности в выполнении инструкций, путаница между украинским и другими языками в ответах, а также отсутствие понимания культурного контекста.
Так, в отдельном задании на знание украинской кухни большинство моделей путали блюда, неправильно указывали ингредиенты, а украинский борщ, который ЮНЕСКО признала культурным наследием, часто ошибочно называли "русским".
Современные ИИ плохо работают с украинским языком, потому что их создавали на основе преимущественно англоязычных данных. Но если дополнить их украинскими примерами, модели дают лучшие результаты. Например, Paligemma после такой адаптации точнее распознавала украинские блюда. В конце концов ученые объяснили, что сейчас ИИ не может полноценно работать с украиноязычной информацией, однако развитие в этом направлении важно.