PNAS Nexus: ученые обнаружили ключевую слабость современных ИИ

Исследование показало, что языковые модели врод...

magnific.com

PNAS Nexus: ученые обнаружили ключевую слабость современных ИИ

Международный исследовательский коллектив протестировал крупные языковые модели с помощью теста Струпа. Результаты опубликованы в журнале PNAS Nexus.

В исследовании участвовали GPT-4o, GPT-5, Claude 3.5 Sonnet, Claude Opus 4.1 и Gemini 2.5, которые выполняли задания различной длины.

Как работает тест Струпа

Суть методики заключается в том, что человеку показывают слова, обозначающие цвета, написанные другим цветом. Требуется назвать цвет чернил, игнорируя значение слова. Этот тест используется для оценки концентрации и устойчивости внимания у людей.

Как ИИ справился с задачами

При коротких списках (до 5 слов) модели демонстрировали высокую точность. Однако с увеличением количества заданий качество ответов заметно снижалось.

Например, у GPT-4o точность падала с 91% до 57% при 10 заданиях и до 15% при 40. Claude 3.5 Sonnet удерживал стабильные результаты только до примерно 20 слов, после чего также фиксировалось резкое падение качества.

Что показали выводы исследования

Ученые пришли к выводу, что модели начинают терять фокус на исходной инструкции при увеличении объема текста и переходят к более простому способу обработки — чтению слов буквально.

Это отличает их от человека, который способен сохранять устойчивое внимание и выполнять инструкцию даже при высокой когнитивной нагрузке.

Больше новостей и эксклюзивных видео смотрите в канале Самара Онлайн 24 в MAX.