В России разработали «экзамен» для ИИ на работу с длинными текстами

freepik.com
Российские специалисты из SberAI, НИУ ВШЭ, Института искусственного интеллекта AIRI и МФТИ создали первый всесторонний тест для оценки того, как большие языковые модели справляются с длинными русскоязычными текстами. Об этом сообщили в Центре научной коммуникации МФТИ.
Инициаторы проекта отмечают, что многие современные ИИ‑системы ограничены объёмом так называемого контекстного окна и при работе с длинными текстами «забывают» ранее прочитанные части. При этом архитектуры новых моделей уже позволяют обрабатывать массивы, сопоставимые по размеру с крупными статьями и книгами, но стандартизированного инструмента для оценки этих возможностей не было.
Новый тест представляет собой набор из 18 заданий, рассчитанных на тексты длиной от 4 до 128 тыс. структурных элементов. Модели должны искать и извлекать конкретные фразы, отвечать на содержательные вопросы, объединять разрозненные сведения из разных частей документа и решать сформулированные в тексте задачи.
Команда уже опробовала инструмент на 17 языковых моделях. Результаты показали, что по мере роста длины текста качество работы всех систем заметно падает. Лучшую эффективность продемонстрировала модель GPT-4o, а среди открытых для настройки моделей, ориентированных на российское сообщество, выделилась GLM4-9B-Chat.
По словам авторов, единый открытый тестовый полигон должен помочь разработчикам объективно сравнивать модели и целенаправленно улучшать их способность работать с длинными текстами, что важно для применения ИИ в науке, медиа и аналитике, сообщает ТАСС.
Обратите внимание: Три подсказки от матушки-природы: Как я предсказываю зиму по лесу и саду

