Учёные выяснили, как нейросети справляются с каламбурами в заголовках

freepik.com
Исследователи из нескольких стран при участии специалистов ФКН НИУ ВШЭ представили корпус KoWit‑24, который содержит 2700 российских новостных заголовков с языковой игрой. Цель проекта — проверить, насколько современные языковые модели способны распознавать каламбуры и корректно их интерпретировать. Об этом сообщили «Жуковский.Life» в пресс‑службе университета.
Созданный корпус сопровождается разметкой, включающей тип приёма, ключевые слова и указание контекстных отсылок. Каждый заголовок снабжён описанием ситуации, что позволяет моделям опираться не только на формальную игру со словами, но и на новостной фон.
При тестировании пяти крупных языковых моделей, включая GPT‑4o и GigaChat, выяснилось, что задача интерпретации каламбуров остаётся для ИИ сложной. Модели чаще успешно отмечали наличие игры слов, чем правильно объясняли её механизм и скрытый смысл.
Доцент факультета компьютерных наук НИУ ВШЭ Павел Браславский подчеркнул, что KoWit‑24 закрывает два основных недостатка прежних корпусов: отсутствие контекста и недостаточно детальную разметку. Благодаря этому подборка превращается в удобный «испытательный полигон» для оценки работы нейросетей на сложных примерах естественного языка.
Авторы напоминают, что каламбуры — распространённый инструмент российских медиа. Например, заголовок «Особо бумажные персоны» обыгрывает устойчивое выражение «особо важные персоны». Результаты работы представлены на конференции RANLP, а данные корпуса доступны в открытом формате для дальнейших исследований и улучшения языковых моделей.
Читайте также:
- Эксперт рассказала, кто в РФ сможет выйти на пенсию в 2026 году
- Банкам начнут увеличивать штрафы за нарушение прав потребителей финансовых услуг
- Как проверить штраф по УИН в онлайн формате и не пропустить срок оплаты
- Штрафы за выход на тонкий лёд могут ввести в регионе России
- Когда придет пенсия в январе 2026 года: график выплат опубликован
