Российские ученые представили инструмент тестирования ИИ для химии

Фото с сайта pixabay.com
Исследователи Института AIRI создали новый эталон оценки качества работы языковых моделей искусственного интеллекта в химических исследованиях. Разработка планируется к презентации на конференции EMNLP 2025.
Бенчмарк составлен из комбинаций типичных химических задач, имитирующих последовательность действий специалиста: от определения продуктов химических реакций до оценки их свойств и создания молекулярных описаний. Каждая цепочка воспроизводит реальные процессы, например, сначала требуется определить продукт реакции, затем оценить его биоактивность.
Инструмент создан на основе пересечения существующих наборов данных о реакциях и свойствах молекул, что обеспечило его информативность для сложных многоступенчатых задач. В ходе оценки тестировались различные современные модели - как универсальные, так и адаптированные специально для химии.
Результаты выявили различия в подходах: универсальные модели часто формируют логичные рассуждения, но могут проигрывать специализированным по формальным показателям. Профильные решения демонстрируют точность в рамках домена, но по комплексным метрикам пока не дотягивают до требуемого уровня.
По словам Кузьмы Храброва из центра AIDD, инструмент поможет выявить архитектурные ограничения нейронных сетей и станет базой для развития автоматизации химических исследований, что критически важно для ускорения процессов создания новых лекарственных препаратов, сообщает "Компьютерра".