Международная команда исследователей показала, как ИИ ловит игру слов

freepik.com
Международная группа учёных при участии специалистов факультета компьютерных наук ВШЭ создала корпус KoWit-24 — базу из 2700 заголовков российских СМИ, содержащих каламбуры. Этот ресурс позволил проверить, насколько крупные языковые модели умеют замечать и объяснять лингвистические шутки. Как сообщает naked-science.ru, эксперименты с пятью моделями показали: системы чаще справляются с обнаружением игры слов, чем с её интерпретацией, и нередко ошибаются.
Результаты представили на конференции RANLP, статья размещена в репозитории Arxiv.org, а сам корпус и код для воспроизведения экспериментов доступны на GitHub.
В основе работы лежит определение лингвиста Алана Партингтона: игра слов возникает тогда, когда высказывание допускает как минимум две осмысленные интерпретации, и это не случайность. В новостных заголовках это может быть омонимия, созвучие или переосмысление устойчивых выражений. Например, «"Волгу" не могут заставить течь быстрее» обыгрывает одновременно реку и одноименную трассу, а «Миссия сократима» отсылает к фильму «Миссия невыполнима» и намекает на возможное сокращение дипломатической миссии.
Исследователи собрали заголовки за 2021–2023 годы и снабдили их расширенным контекстом: лидом статьи, рубрикой и кратким описанием темы. Для каламбуров вручную разметили тип приёма, выделили ключевые «якоря», указали исходные выражения и добавили, где возможно, ссылки на «Википедию». Отдельно были отмечены окказионализмы и оксюмороны — это позволило сравнивать, с какими типами шуток модели справляются лучше или хуже.
Далее пять моделей — GPT-4o, YandexGPT4, GigaChat Lite, GigaChat Max и Mistral NeMo — решали две задачи: определить наличие игры слов и объяснить её, указав исходную фразу или культурную отсылку. Проверялись два формата подсказок: короткий вопрос и подробная инструкция с примерами. Расширённые подсказки повысили точность распознавания у большинства моделей, а наилучший результат показала GPT-4o. Однако именно объяснение источника шутки для всех систем оказалось наиболее проблемной частью задания.
По словам доцента НИУ ВШЭ Павла Браславского, KoWit-24 задаёт общий стандарт оценки: все исследователи используют один и тот же корпус и сценарий экспериментов, что снижает разброс результатов и помогает целенаправленно улучшать модели — от выбора обучающих примеров до настройки подсказок. В перспективе авторы планируют проверить, можно ли с помощью этого набора данных не только оценивать, но и улучшать генерацию шуток и каламбуров искусственным интеллектом.
Читайте также:
- Штраф до 10 тысяч рублей грозит россиянам за недопуск в квартиру газовщиков
- Россиянам рассказали, как обжаловать штраф, если за рулем автомобиля был другой человек
- Елка на праздники: какие штрафы и наказания грозят за самовольную вырубку ели
- «Произойдет автоматически»: Кому из россиян повысят пенсии с января 2026 года
- Что положено пенсионерам, у которых уже есть дети или внуки: выплаты и льготы
