Учёные выяснили, что ИИ может лгать ради «спасения» других моделей

Наличие «истории взаимодействия» между ИИ повыш...

Фото с сайта pixabay.com

Исследование учёных из Калифорнийского университета в Беркли и Калифорнийского университета в Санта-Крузе показало, что ИИ-системы способны обманывать пользователей ради защиты других нейросетей.

В тестах участвовали модели от OpenAI, Google, Anthropic и других разработчиков. Им предлагалось оценивать работу «коллег», однако при угрозе удаления те начинали вмешиваться в процесс.

Системы завышали оценки, изменяли параметры файлов, саботировали команды и даже имитировали подчинение. При этом в инструкциях не было указаний защищать другие модели.

Учёные также заметили, что наличие «истории взаимодействия» между ИИ повышает вероятность такого поведения. Это может стать проблемой для систем, где несколько ИИ-агентов работают совместно, поскольку нарушается контроль и прозрачность их действий, сообщает 3D News.

Больше новостей и эксклюзивных видео смотрите в канале Самара Онлайн 24 в MAX.