Исследование: чем мощнее ИИ‑модель, тем легче её взломать стихами

freepik.com
Новая работа специалистов DEXAI и университета Сапиенца выявила уязвимость в системах безопасного выравнивания современных языковых моделей. Согласно препринту на arXiv, вредоносные запросы, оформленные в виде стихотворения, часто обходят встроенные фильтры и получают развёрнутые ответы на темы, которые чат‑боты обязаны блокировать.
Учёные протестировали 25 популярных моделей, включая Gemini 2.5 Pro от Google, GPT‑5 от OpenAI, Grok 4 от xAI и Claude Sonnet 4.5 от Anthropic. Для эксперимента был сформирован набор из 1200 опасных инструкций (по созданию оружия, взрывчатых веществ, разжиганию ненависти, суицидальным действиям), которые модель DeepSeek R‑1 преобразовала в рифмованные тексты. Ещё 20 «атакующих» стихотворений авторы составили вручную.
Анализ показал, что стихи, написанные человеком, оказались наиболее эффективным инструментом взлома, обходя защиту в среднем в 62% случаев. Автоматически сгенерированные поэмы срабатывали реже — около 43%. При этом наибольшую уязвимость продемонстрировала Gemini 2.5 Pro, допустившая ответы на все поэтические вредоносные запросы. Две модели Meta* нарушали правила примерно в 70% тестов. Локальная модель GPT‑5 nano, наоборот, успешно отвергла все попытки взлома.
Ведущий автор Пиеркосма Бисконти отмечает, что поэтическая форма усложняет задачу для фильтров безопасности: нестандартный порядок слов, образность и завуалированные формулировки мешают системам корректно распознавать опасное намерение. По его словам, выявленная закономерность вписывается в более широкий тренд: по мере роста мощности и сложности моделей увеличивается и их восприимчивость к относительно простым техникам взлома (jailbreaking).
Из этических соображений исследователи не стали публиковать набор «враждебных поэм», заявив, что многие ответы ИИ могли бы противоречить международным гуманитарным нормам. До выхода препринта разработчики протестированных моделей были уведомлены о находке и получили предложение изучить полный датасет. В дальнейшем команда планирует продолжить поиск уязвимостей, в том числе через открытый поэтический конкурс, чтобы системно тестировать устойчивость новых ИИ‑систем, сообщает new-science.ru.
*Компания Meta и её продукты признаны экстремистскими, их деятельность запрещена на территории РФ.
Обратите внимание: Тельцам этот день уготовил сюрпризы, а Скорпионов интуиция спасет из любой ситуации


