Альянс в сфере ИИ представил новый стандарт оценки отраслевых решений
Нижний Новгород, 5 июня, 2025, 16:43 — ИА Регнум. Новый раздел бенчмарка MERA представил Альянс в сфере искусственного интеллекта на конференции «Цифровая индустрия промышленной России» в Нижнем Новгороде. С его помощью будут оценивать большие языковые модели в разных отраслях экономики.
На платформе уже доступны бенчмарки по медицине и сельскому хозяйству, которые помогут компаниям и экспертам выбрать и внедрить LLM (large language model), которые соответствуют их бизнес-задачам.
«Сегодня искусственный интеллект становится неотъемлемой частью бизнес-процессов в самых разных отраслях. И бизнесу, как никогда, нужны надежные инструменты для оценки больших языковых моделей, способных решать реальные отраслевые задачи с высокой точностью и достоверностью», — сказал старший вице-президент, руководитель блока «Технологическое развитие» Сбербанка Андрей Белевцев.
Он добавил, что запуск нового бенчмарка MERA Industrial на площадке Альянса в сфере ИИ — это значимый шаг в сторону прозрачности и качества LLM в различных отраслях, где важен каждый аспект — от проверки знаний модели до её способности работать с уникальными бизнес-кейсами. «В «Сбере» мы активно используем подобные инструменты оценки, чтобы внедрять только проверенные и эффективные решения для наших клиентов», — подчеркнул топ-менеджер.
На платформе размещены три задачи. Первый датасет предназначен для измерения профессиональных знаний модели, приобретенных в процессе предобучения в области агрономии. Он состоит из 2935 оригинальных вопросов по агрономии, охватывающих ботанику, кормопроизводство и луговодство, мелиоративное земледелие, общую генетику, общее земледелие, основы селекции, растениеводство, семеноводство и семеноведение, системы земледелия на различных агроландшафтах, технологии возделывания сельскохозяйственных культур.
Второй датасет необходим для измерения профессиональных знаний модели, приобретенных в процессе предобучения в области аквакультуры. В него входят 1102 задания по аквакультуре, включая индустриальную аквакультуру, кормление рыбы и гидробионтов, марикультуру (например, разведение раков, креветок, выращивание жемчуга), а также ихтиопатологию (ветеринария, профилактика и оптимизация технологий выращивания рыбы). Третий датасет охватывает 17 фундаментальных медицинских дисциплин от клеточной биологии до клинических практик (хирургия, терапия, лабораторная диагностика, фармакология).
Тест включает 270 вопросов и 30 тренировочных задач по каждой дисциплине, что позволяет сопоставлять уровень знаний моделей с уровнем выпускника медицинского вуза. Датасеты являются полностью оригинальными и составлены на русском языке.
Бенчмарк MERA Industrial создан при поддержке академического сообщества. В проекте приняли участие Сколковский институт науки и технологий, Кубанский государственный аграрный университет, Национальный медицинский исследовательский центр имени В. А. Алмазова, РАНХиГС и другие.