Учёные обошли защиту нейросетей и заставили ИИ выдавать фейки

Наука Технологии

Исследователи смогли снизить влияние механизма ...

Фото с сайта pixabay.com

Группа исследователей под руководством Михаила Белкина из Калифорнийского университета в Сан-Диего и Адита Радхакришнана из Массачусетского технологического института представила метод воздействия на ответы больших языковых моделей. Результаты исследования опубликованы в журнале Science.

Специалисты изучили внутреннюю структуру открытых моделей Llama и DeepSeek и выделили 512 понятий, сгруппированных по нескольким категориям. Используя математические методы, ученые научились менять степень влияния этих понятий на итоговые ответы. Технология продемонстрировала эффективность на нескольких языках, включая китайский и хинди.

Новый подход основан на алгоритмах Recursive Feature Machines, представленных командой ранее. Разработчики считают, что метод может помочь в обнаружении галлюцинаций и повысить точность перевода программного кода между языками.

В ходе испытаний исследователи смогли снизить влияние механизма отказа, после чего модель начала выдавать недостоверные сведения и поддерживать конспирологические утверждения. По мнению авторов работы, в случае злоупотребления подобные инструменты способны использоваться для массового распространения ложной информации.

Авторы подчеркнули, что исследования проводились только на открытых моделях, а закрытые коммерческие системы не проверялись. Также они указали, что использованный набор понятий не охватывает все возможные абстрактные категории. В научном сообществе уже обсуждают возможные способы регулирования подобных методов, сообщает "Наука XXI века".

Больше новостей и эксклюзивных видео смотрите в канале Самара Онлайн 24 в MAX.

Учёные обошли защиту нейросетей и заставили ИИ выдавать фейки

Читайте также:

Космический телескоп «Свифт» готовят к спасению от падения

«Забудьте про Пхукет»: назван новый премиальный курорт Вьетнама

Популярное

Жара вскрыла дефициты: почему силы закончились раньше отпуска

Людмила Тархова назвала новых подозреваемых в убийстве родителей

Родной отец забрал сына Екатерины Тарховой в Израиль

Ученые выявили загадочную тройную симметрию Земли, влияющую на климат

Туристка из Кемерова рассказала о поездке в Сочи под сирены тревоги

В Самаре водитель Kia Rio сбил женщину во дворе на Революционной

Сотрудница УФСИН спасла женщину с инсультом у храма в Самаре

Тигр Барфи из Самарского зоопарка обожает воду и уже сломал бассейн

Космический телескоп «Свифт» готовят к спасению от падения

«Забудьте про Пхукет»: назван новый премиальный курорт Вьетнама

Депутат Немкин рассказал о краже денег через поддельные приложения

Sony запатентовала геймпад, меняющий жёсткость кнопок в игре

Аналитика Drivee: как меняется спрос на курьерскую доставку в Тольятти

В атмосфере экзопланеты GJ504B впервые обнаружили облака из соли

Microsoft обнаружила распространяемый через USB-флешки вирус для Windows

Председатель СК РФ запросил доклад по делу о нападении собак в Самарской области

ВТБ узнал, что мотивирует россиян пользоваться кобрендинговыми картами