GigaChat стал лидером среди открытых AI-моделей по результатам русскоязычного теста MERA. Модель Сбера лучше других, находящихся в открытом доступе, справилась с задачами на разные типы и области знаний, представленных в бенчмарке MERA (Multimodal Evaluation for Russian-language Architectures).
Экспертность и точность
Для замера были использованы модели Сбера – GigaChat PRO и GigaChat Lite. Согласно итогам тестов, GigaChat PRO набрала 53,7 балла из 100. Результат GigaChat Lite составил 50,4 балла, что лучше показателя ближайшего конкурента более чем на два балла.
Такие результаты стали возможны благодаря тому, что модели получили обновление. Они лучше отвечают на вопросы пользователей из сферы экономики, медицины, химии, биологии и других сфер.
У GigaChat выше экспертность и точность в сложных терминах. Разработчики добавили персонажей для решения специализированных задач, например, в области создания контента.
Система оценки
Бенчмарк представляет собой набор из 21 задачи в формате инструкций на различные области знаний, в которых проверяется широкий ряд навыков искусственного интеллекта: от знаний о мире до умения программировать.
Более объективно и прозрачно проверять способности современных больших языковых моделей позволяет система открытой оценки. Чем больше баллов набирает искусственный интеллект, тем лучше он может решать различные интеллектуальные или бытовые задачи. Например, помогать писать статьи в нужном стиле и формате, искать информацию и анализировать. Бизнес может создавать собственные решения и оптимизировать процессы.
В создании тестов бенчмарка MERA участвовал ряд компаний – члены Альянса в сфере искусственного интеллекта, а также академические партнёры Skoltech AI и Национальный исследовательский университет «Высшая школа экономики» (НИУ ВШЭ).
Модель GigaChat PRO доступна всем пользователям в веб-версии, Telegram, а также в соцсети «ВКонтакте». Разработчикам и бизнесу все модели доступны через GigaChat API.