ИИ-алгоритмы смягчают токсичные сообщения на татарском языке

freepik.com
На хакатоне «ИИ‑ЗАМАН Хак» в Татарстане участникам предложили необычное задание: научить алгоритмы искусственного интеллекта «переводить» токсичные фразы на татарском языке в нейтральные, не искажая смысл сказанного. Речь шла о так называемой детоксикации текста — когда ИИ не просто ставит метку «оскорбление», а сразу предлагает вежливый вариант того же сообщения.
Организаторами выступили Академия наук Татарстана и институт AIRI. Командам нужно было построить модели, способные работать с живой татарской речью: учитывать разговорные формы, сленг, заимствования и при этом улавливать оттенки агрессии. Простого фильтра здесь недостаточно: если удалить половину фразы, диалог разваливается. Поэтому ключевой задачей стала генерация перефраз — устойчивых, понятных и по‑тональному более мягких.
Лучшим решением жюри признало проект команды Sota из НИУ ВШЭ и Университета ИТМО. Разработчики использовали кросс‑языковой подход: крупные русскоязычные датасеты помогли модели «понять» общую логику токсичности и её смягчения, а меньший корпус татарских примеров позволил дообучить систему под конкретный язык. Такой перенос знаний даёт заметный выигрыш там, где своих данных мало.
Второе и третье места заняли команды Сколтеха и Казанского федерального университета. Их модели показали хорошее качество перефразирования и могут лечь в основу реальных сервисов модерации контента на татарском — от социальных сетей и комментариев на новостных сайтах до игровых чатов.
Вице‑президент Академии наук Татарстана Айрат Хасьянов отметил, что подобные проекты важны сразу в двух измерениях: они делают цифровую среду менее агрессивной и одновременно поддерживают развитие технологий обработки национальных языков России, без чего сложно говорить о полномценной цифровизации культурного и общественного пространства, сообщает ТАСС.

