AI-лидер обошел конкурентов

GigaChat стал лидером среди открытых AI-моделей по результатам русскоязычного теста MERA. Модель Сбера лучше других, находящихся в открытом доступе, справилась с задачами на разные типы и области знаний, представленных в бенчмарке MERA (Multimodal Evaluation for Russian-language Architectures).

Экспертность и точность

Для замера были использованы модели Сбера – GigaChat PRO и GigaChat Lite. Согласно итогам тестов, GigaChat PRO набрала 53,7 балла из 100. Результат GigaChat Lite составил 50,4 балла, что лучше показателя ближайшего конкурента более чем на два балла.

Такие результаты стали возможны благодаря тому, что модели получили обновление. Они лучше отвечают на вопросы пользователей из сферы экономики, медицины, химии, биологии и других сфер.

У GigaChat выше экспертность и точность в сложных терминах. Разработчики добавили персонажей для решения специализированных задач, например, в области создания контента.

Система оценки

Бенчмарк представляет собой набор из 21 задачи в формате инструкций на различные области знаний, в которых проверяется широкий ряд навыков искусственного интеллекта: от знаний о мире до умения программировать.

Более объективно и прозрачно проверять способности современных больших языковых моделей позволяет система открытой оценки. Чем больше баллов набирает искусственный интеллект, тем лучше он может решать различные интеллектуальные или бытовые задачи. Например, помогать писать статьи в нужном стиле и формате, искать информацию и анализировать. Бизнес может создавать собственные решения и оптимизировать процессы.

В создании тестов бенчмарка MERA участвовал ряд компаний – члены Альянса в сфере искусственного интеллекта, а также академические партнёры Skoltech AI и Национальный исследовательский университет «Высшая школа экономики» (НИУ ВШЭ).

Модель GigaChat PRO доступна всем пользователям в веб-версии, Telegram, а также в соцсети «ВКонтакте». Разработчикам и бизнесу все модели доступны через GigaChat API.

Следите за нашими новостями в Телеграм-канале Connect


Поделиться:



Следите за нашими новостями в
Телеграм-канале Connect

Спецпроект

Медицинские задачи для ИИ

Подробнее
Спецпроект

Цифровой Росатом

Подробнее


Подпишитесь
на нашу рассылку