AI-лидер обошел конкурентов

GigaChat стал лидером среди открытых AI-моделей по результатам русскоязычного теста MERA. Модель Сбера лучше других, находящихся в открытом доступе, справилась с задачами на разные типы и области знаний, представленных в бенчмарке MERA (Multimodal Evaluation for Russian-language Architectures).

Экспертность и точность

Для замера были использованы модели Сбера – GigaChat PRO и GigaChat Lite. Согласно итогам тестов, GigaChat PRO набрала 53,7 балла из 100. Результат GigaChat Lite составил 50,4 балла, что лучше показателя ближайшего конкурента более чем на два балла.

Такие результаты стали возможны благодаря тому, что модели получили обновление. Они лучше отвечают на вопросы пользователей из сферы экономики, медицины, химии, биологии и других сфер.

У GigaChat выше экспертность и точность в сложных терминах. Разработчики добавили персонажей для решения специализированных задач, например, в области создания контента.

Система оценки

Бенчмарк представляет собой набор из 21 задачи в формате инструкций на различные области знаний, в которых проверяется широкий ряд навыков искусственного интеллекта: от знаний о мире до умения программировать.

Более объективно и прозрачно проверять способности современных больших языковых моделей позволяет система открытой оценки. Чем больше баллов набирает искусственный интеллект, тем лучше он может решать различные интеллектуальные или бытовые задачи. Например, помогать писать статьи в нужном стиле и формате, искать информацию и анализировать. Бизнес может создавать собственные решения и оптимизировать процессы.

В создании тестов бенчмарка MERA участвовал ряд компаний – члены Альянса в сфере искусственного интеллекта, а также академические партнёры Skoltech AI и Национальный исследовательский университет «Высшая школа экономики» (НИУ ВШЭ).

Модель GigaChat PRO доступна всем пользователям в веб-версии, Telegram, а также в соцсети «ВКонтакте». Разработчикам и бизнесу все модели доступны через GigaChat API.

Следите за нашими новостями в Телеграм-канале Connect

AI-лидер обошел конкурентов

Экспертность и точность

Система оценки

Следите за нашими новостями в
Телеграм-канале Connect

Еще по теме

Цифровой девелопмент

Машиностроительные предприятия инвестируют в ПО

Подпишитесь
на нашу рассылку

Экспертность и точность

Система оценки

Следите за нашими новостями вТелеграм-канале Connect

Еще по теме

Цифровой девелопмент

Машиностроительные предприятия инвестируют в ПО

Подпишитесь на нашу рассылку

Следите за нашими новостями в
Телеграм-канале Connect

Подпишитесь
на нашу рассылку