MetalGPT-1: «Норникель» выпустил большую языковую модель для металлургии

«Норникель» представил MetalGPT-1 — собственную доменную языковую модель для металлургии и горнодобывающей отрасли. Модель стала первой в семействе больших языковых моделей компании с открытым исходным кодом (open source). В отличие от универсальных моделей, обученных на общих интернет-данных, MetalGPT-1 изначально спроектирована для работы с профессиональной терминологией, аббревиатурами и сложными технологическими цепочками, что снижает уровень галлюцинаций и повышает качество решений, принимаемых на основе рекомендации искусственного интеллекта.

Разработанная модель формирует единый языковый слой для инженерных, технологических, производственных и корпоративных задач. На ее основе «Норникель» создает персональных ИИ-ассистентов и автономных агентов, которые внедряются в операционные процессы компании.

Языковая модель включает 32 миллиарда параметров и обучена на 10 гигабайтах профильных текстов по металлургии и горнодобывающей промышленности – объеме, сопоставимом с половиной англоязычной Википедии. Ключевое конкурентное преимущество модели – это уникальное качество данных: обучение проведено на более чем миллионе документов, недоступных в открытых источниках. Это технологические протоколы, внутренние регламенты и инструкции предприятий, проектная и строительная документация, патенты, отчеты НИОКР, научно-техническая литература. Все данные прошли многоступенчатую очистку и анонимизацию, что позволило использовать отраслевые знания без раскрытия коммерческой тайны. Дополнительно создано около 500 тысяч вопросно-ответных и инструктивных пар на основе реальных производственных и научных задач, чтобы модель лучше улавливала причинно-следственные связи в технологических процессах и выдавала устойчивые к ошибкам ответы.

«Металлургия — один из самых сложных отраслевых доменов со своим языком процессов, аббревиатур и терминов. Универсальные модели, обученные на общем веб-корпусе, теряют точность на таком специализированном языке, а крупномасштабные модели требуют колоссальных вычислительных ресурсов. MetalGPT-1 меняют правила игры: это первая в мире доменная модель на 32 миллиарда параметров, специально оптимизированная под металлургию. На промышленном бенчмарке она показывает лучший в отрасли уровень понимания металлургического языка при ресурсах, доступных для реального промышленного применения. Каждая компания теперь может адаптировать модель под свои задачи», — отметил Данил Ивашечкин, руководитель направления по развитию искусственного интеллекта «Норникеля».

Разработка MetalGPT-1 заняла около года: шесть месяцев ушло на сбор и подготовку данных, два месяца — на базовое обучение и еще два — на доменную адаптацию и тонкую настройку модели. Для объективной оценки качества команда «Норникеля» создала промышленный бенчмарк по металлургии — набор вопросно-ответных пар, которые покрывают разные процессы горно-металлургической отрасли, на котором MetalGPT-1 стабильно превосходит открытые универсальные модели.

«Норникель» выложил модель MetalGPT-1 и промышленный бенчмарк на платформе Hugging Face, предоставив индустрии инструменты для разработки отраслевых решений и расширения экосистемы промышленных приложений на базе доменных языковых моделей.