Учёные выяснили, как нейросети справляются с каламбурами в заголовках

Цель проекта — проверить, насколько современные...

freepik.com

Исследователи из нескольких стран при участии специалистов ФКН НИУ ВШЭ представили корпус KoWit‑24, который содержит 2700 российских новостных заголовков с языковой игрой. Цель проекта — проверить, насколько современные языковые модели способны распознавать каламбуры и корректно их интерпретировать. Об этом сообщили «Жуковский.Life» в пресс‑службе университета.

Созданный корпус сопровождается разметкой, включающей тип приёма, ключевые слова и указание контекстных отсылок. Каждый заголовок снабжён описанием ситуации, что позволяет моделям опираться не только на формальную игру со словами, но и на новостной фон.

При тестировании пяти крупных языковых моделей, включая GPT‑4o и GigaChat, выяснилось, что задача интерпретации каламбуров остаётся для ИИ сложной. Модели чаще успешно отмечали наличие игры слов, чем правильно объясняли её механизм и скрытый смысл.

Доцент факультета компьютерных наук НИУ ВШЭ Павел Браславский подчеркнул, что KoWit‑24 закрывает два основных недостатка прежних корпусов: отсутствие контекста и недостаточно детальную разметку. Благодаря этому подборка превращается в удобный «испытательный полигон» для оценки работы нейросетей на сложных примерах естественного языка.

Авторы напоминают, что каламбуры — распространённый инструмент российских медиа. Например, заголовок «Особо бумажные персоны» обыгрывает устойчивое выражение «особо важные персоны». Результаты работы представлены на конференции RANLP, а данные корпуса доступны в открытом формате для дальнейших исследований и улучшения языковых моделей.

Читайте также: