Учёные обошли защиту нейросетей и заставили ИИ выдавать фейки

Фото с сайта pixabay.com
Группа исследователей под руководством Михаила Белкина из Калифорнийского университета в Сан-Диего и Адита Радхакришнана из Массачусетского технологического института представила метод воздействия на ответы больших языковых моделей. Результаты исследования опубликованы в журнале Science.
Специалисты изучили внутреннюю структуру открытых моделей Llama и DeepSeek и выделили 512 понятий, сгруппированных по нескольким категориям. Используя математические методы, ученые научились менять степень влияния этих понятий на итоговые ответы. Технология продемонстрировала эффективность на нескольких языках, включая китайский и хинди.
Новый подход основан на алгоритмах Recursive Feature Machines, представленных командой ранее. Разработчики считают, что метод может помочь в обнаружении галлюцинаций и повысить точность перевода программного кода между языками.
В ходе испытаний исследователи смогли снизить влияние механизма отказа, после чего модель начала выдавать недостоверные сведения и поддерживать конспирологические утверждения. По мнению авторов работы, в случае злоупотребления подобные инструменты способны использоваться для массового распространения ложной информации.
Авторы подчеркнули, что исследования проводились только на открытых моделях, а закрытые коммерческие системы не проверялись. Также они указали, что использованный набор понятий не охватывает все возможные абстрактные категории. В научном сообществе уже обсуждают возможные способы регулирования подобных методов, сообщает "Наука XXI века".
Больше новостей и эксклюзивных видео смотрите в канале Самара Онлайн 24 в MAX.


