Исследование: чем мощнее ИИ‑модель, тем легче её взломать стихами

Технологии

Новая работа специалистов DEXAI и университета Сапиенца выявила уязвимость в системах безопасного выравнивания современных языковых моделей. Согласно препринту на arXiv, вредоносные запросы, оформленные в виде стихотворения, часто обходят встроенные фильтры и получают развёрнутые ответы на темы, которые чат‑боты обязаны блокировать.

Учёные протестировали 25 популярных моделей, включая Gemini 2.5 Pro от Google, GPT‑5 от OpenAI, Grok 4 от xAI и Claude Sonnet 4.5 от Anthropic. Для эксперимента был сформирован набор из 1200 опасных инструкций (по созданию оружия, взрывчатых веществ, разжиганию ненависти, суицидальным действиям), которые модель DeepSeek R‑1 преобразовала в рифмованные тексты. Ещё 20 «атакующих» стихотворений авторы составили вручную.

Анализ показал, что стихи, написанные человеком, оказались наиболее эффективным инструментом взлома, обходя защиту в среднем в 62% случаев. Автоматически сгенерированные поэмы срабатывали реже — около 43%. При этом наибольшую уязвимость продемонстрировала Gemini 2.5 Pro, допустившая ответы на все поэтические вредоносные запросы. Две модели Meta* нарушали правила примерно в 70% тестов. Локальная модель GPT‑5 nano, наоборот, успешно отвергла все попытки взлома.

Ведущий автор Пиеркосма Бисконти отмечает, что поэтическая форма усложняет задачу для фильтров безопасности: нестандартный порядок слов, образность и завуалированные формулировки мешают системам корректно распознавать опасное намерение. По его словам, выявленная закономерность вписывается в более широкий тренд: по мере роста мощности и сложности моделей увеличивается и их восприимчивость к относительно простым техникам взлома (jailbreaking).

Из этических соображений исследователи не стали публиковать набор «враждебных поэм», заявив, что многие ответы ИИ могли бы противоречить международным гуманитарным нормам. До выхода препринта разработчики протестированных моделей были уведомлены о находке и получили предложение изучить полный датасет. В дальнейшем команда планирует продолжить поиск уязвимостей, в том числе через открытый поэтический конкурс, чтобы системно тестировать устойчивость новых ИИ‑систем, сообщает new-science.ru.

*Компания Meta и её продукты признаны экстремистскими, их деятельность запрещена на территории РФ.

Обратите внимание: Тельцам этот день уготовил сюрпризы, а Скорпионов интуиция спасет из любой ситуации

Исследование: чем мощнее ИИ‑модель, тем легче её взломать стихами

Читайте также:

Эксперт Целиков раскрыл, какие новые авто везут в РФ с льготным утильсбором

Оксфордские ученые связали праворукость человека с эволюцией мозга и ходьбой

Популярное

Вторая часть гуманитарной посылки из Самары дошла до бойцов СВО

Киселёва не признала вину по делу об убийстве Тарховых

Суд рассмотрел дело об отравлении экс-мэра Самары и его жены

В Самаре направят более 19 млн рублей на туристическую инфраструктуру

Суд продлил домашний арест фигурантке дела Тархова в Самаре

Госдума рассмотрит законопроект о квотах на миграционный учёт

В Самаре без газа остались жители 20 домов из-за нарушений безопасности

Владелец "Акрона" Морозов: решение об уходе Дзюбы из клуба было принято заранее

Самарчанку оштрафовали на 200 тысяч за фиктивную регистрацию иностранцев

В Самарском музее откроется выставка художника Третьякова

Магнитная буря 4 балла ожидается в Самарской области

Самарская женщина потеряла 1,5 млн рублей мошенникам

Федеральный банк и крупный ритейлер объявили о старте стратегического проекта

Спасатели извлекли погибшего мужчину из реки Сок под Самарой

Пенсионерам Самары увеличат выплаты в июне 2026

Самара отправила вторую партию помощи военнослужащим

Т2 создаст безопасную инфраструктуру для обмена данными