Международная команда исследователей показала, как ИИ ловит игру слов

Группа учёных при участии специалистов факульте...

freepik.com

Международная группа учёных при участии специалистов факультета компьютерных наук ВШЭ создала корпус KoWit-24 — базу из 2700 заголовков российских СМИ, содержащих каламбуры. Этот ресурс позволил проверить, насколько крупные языковые модели умеют замечать и объяснять лингвистические шутки. Как сообщает naked-science.ru, эксперименты с пятью моделями показали: системы чаще справляются с обнаружением игры слов, чем с её интерпретацией, и нередко ошибаются.

Результаты представили на конференции RANLP, статья размещена в репозитории Arxiv.org, а сам корпус и код для воспроизведения экспериментов доступны на GitHub.

В основе работы лежит определение лингвиста Алана Партингтона: игра слов возникает тогда, когда высказывание допускает как минимум две осмысленные интерпретации, и это не случайность. В новостных заголовках это может быть омонимия, созвучие или переосмысление устойчивых выражений. Например, «"Волгу" не могут заставить течь быстрее» обыгрывает одновременно реку и одноименную трассу, а «Миссия сократима» отсылает к фильму «Миссия невыполнима» и намекает на возможное сокращение дипломатической миссии.

Исследователи собрали заголовки за 2021–2023 годы и снабдили их расширенным контекстом: лидом статьи, рубрикой и кратким описанием темы. Для каламбуров вручную разметили тип приёма, выделили ключевые «якоря», указали исходные выражения и добавили, где возможно, ссылки на «Википедию». Отдельно были отмечены окказионализмы и оксюмороны — это позволило сравнивать, с какими типами шуток модели справляются лучше или хуже.

Далее пять моделей — GPT-4o, YandexGPT4, GigaChat Lite, GigaChat Max и Mistral NeMo — решали две задачи: определить наличие игры слов и объяснить её, указав исходную фразу или культурную отсылку. Проверялись два формата подсказок: короткий вопрос и подробная инструкция с примерами. Расширённые подсказки повысили точность распознавания у большинства моделей, а наилучший результат показала GPT-4o. Однако именно объяснение источника шутки для всех систем оказалось наиболее проблемной частью задания.

По словам доцента НИУ ВШЭ Павла Браславского, KoWit-24 задаёт общий стандарт оценки: все исследователи используют один и тот же корпус и сценарий экспериментов, что снижает разброс результатов и помогает целенаправленно улучшать модели — от выбора обучающих примеров до настройки подсказок. В перспективе авторы планируют проверить, можно ли с помощью этого набора данных не только оценивать, но и улучшать генерацию шуток и каламбуров искусственным интеллектом.

Читайте также: