Обновленный бенчмарк MERA

Альянс в сфере искусственного интеллекта представил новую версию бенчмарка MERA. В нее вошли динамический лидерборд, обновленная кодовая база замеров, более совершенная система промптов и улучшенные дата-сеты, поддержка API, а также замеры десятков новых моделей, включая созданные OpenAI.

Оценка фундаментальных моделей

MERA (Multimodal Evaluation for Russian-language Architectures) – это крупнейший независимый открытый бенчмарк для оценки фундаментальных моделей русского языка, разработанный на площадке Альянса в сфере искусственного интеллекта совместно исследователями от индустрии – командами Сбера и MTS AI, а также академическими партнерами Skoltech AI и НИУ ВШЭ.

Обновленная версия бенчмарка включает в себя 15 основных задач, из которых строится рейтинг, и восемь открытых публичных дата-сетов.

Обратная связь как стимул

С момента релиза первой версии бенчмарка им воспользовались десятки разработчиков моделей, отправивших свыше 1000 сабмитов.

Совершенствование MERA стало возможно благодаря комментариям пользователей и обратной связи от участников NLP-сообщества.

Дальнейшее развитие MERA предусматривает появление в нем задач для оценки распознавания изображений, аудио- и видеоматериалов.

 

Следите за нашими новостями в Телеграм-канале Connect


Поделиться:



Следите за нашими новостями в
Телеграм-канале Connect

Спецпроект

Машиностроительные предприятия инвестируют в ПО

Подробнее
Спецпроект

ОСК провела демо-день ИЦК «Судостроение»

Подробнее


Подпишитесь
на нашу рассылку