PNAS Nexus: ученые обнаружили ключевую слабость современных ИИ

magnific.com
PNAS Nexus: ученые обнаружили ключевую слабость современных ИИ
Международный исследовательский коллектив протестировал крупные языковые модели с помощью теста Струпа. Результаты опубликованы в журнале PNAS Nexus.
В исследовании участвовали GPT-4o, GPT-5, Claude 3.5 Sonnet, Claude Opus 4.1 и Gemini 2.5, которые выполняли задания различной длины.
Как работает тест Струпа
Суть методики заключается в том, что человеку показывают слова, обозначающие цвета, написанные другим цветом. Требуется назвать цвет чернил, игнорируя значение слова. Этот тест используется для оценки концентрации и устойчивости внимания у людей.
Как ИИ справился с задачами
При коротких списках (до 5 слов) модели демонстрировали высокую точность. Однако с увеличением количества заданий качество ответов заметно снижалось.
Например, у GPT-4o точность падала с 91% до 57% при 10 заданиях и до 15% при 40. Claude 3.5 Sonnet удерживал стабильные результаты только до примерно 20 слов, после чего также фиксировалось резкое падение качества.
Что показали выводы исследования
Ученые пришли к выводу, что модели начинают терять фокус на исходной инструкции при увеличении объема текста и переходят к более простому способу обработки — чтению слов буквально.
Это отличает их от человека, который способен сохранять устойчивое внимание и выполнять инструкцию даже при высокой когнитивной нагрузке.


