Иголки в стоге сена для языковых моделей

Разработан метод оценки эффективности нейросетей в работе с длинными текстами, который будет представлен в Ванкувере на одной из крупнейших мировых ИИ-конференций.

Инструмент оценки

Исследователи из Института AIRI, МФТИ и Лондонского института математических наук (LIMS) создали бенчмарк BABILong – инструмент для оценки реальной производительности языковых моделей при работе с большими объемами данных. Он включает 20 задач, которые требуют поиска и обработки разрозненных фактов в крупных текстах. Среди них – связывание и комбинирование информации из нескольких фактов, индукция, дедукция, простейший подсчет и работа со списками и множествами.

BABILong выложен в публичный репозиторий для поддержки научного сообщества, а также будет представлен на конференции NeurIPS 2024 в Ванкувере.

Длина контекста – это объем информации, которую нейросеть удерживает в уме для решения конкретной задачи. Чем она выше, тем потенциально лучше результат работы модели. Несмотря на то, что этот параметр растет, фактически популярные модели используют лишь 10–20% данных, преимущественно фокусируясь на информации из первых и последних абзацев. Кроме того, производительность моделей резко снижается с увеличением сложности задач.

Метрики и задачи

Созданный учеными бенчмарк оценивает две метрики: качество ответа и зависимость точности от длины контекста. Основу BABILong составили задачи из дата-сета BABI – 20 ключевых операций, направленных на демонстрацию понимания базовой логики и арифметики.

Вторая часть обновленного дата-сета – массивы данных художественной литературы. Затем задачи, изначально рассчитанные на понимание коротких текстов, были рассредоточены по литературным произведениям как «иголки в стоге сена». От моделей требовалось не просто найти нужную информацию, а проанализировать ее для получения правильного ответа.

Результаты эксперимента

В ходе экспериментов исследователи применили бенчмарк для анализа популярных open-source моделей в зависимости от объема контекста. Нейросети оперируют токенами – это базовые единицы текста, которые, как правило, представляют собой несколько символов, часть слова.

Так, в рамках исследования команда провела анализ эффективности нейросетей в задачах с контекстом от тысячи до 50 миллионов токенов. Результаты показали, что производительность моделей значительно снижается, когда объем данных превышает 25% заявленной длины контекста. Это подтверждает необходимость улучшения механизмов обработки контекстной информации.

Адаптация бенчмарка

Ученые представили также адаптацию бенчмарка BABILong для русского языка – Libra, разработанную в сотрудничестве с командой R&D SberDevices. Как и оригинал, Libra тестирует языковые модели на длинных контекстах, предлагая аналогичные задачи для оценки их работы с русскоязычными текстами.

«Разработка BABILong – важный шаг в оценке реальной эффективности языковых моделей. Бенчмарк не только позволяет сравнивать корректность работы моделей на разной длине контекста, но и служит индикатором их качества, что демонстрирует, в каких аспектах требуется улучшение. Это значительно поможет разработчикам новых моделей», – пояснил Юрий Куратов, кандидат физико-математических наук, руководитель группы «Модели с памятью» лаборатории «Когнитивные системы ИИ» Института AIRI.

 

Следите за нашими новостями в Телеграм-канале Connect


Поделиться:



Следите за нашими новостями в
Телеграм-канале Connect

Спецпроект

Цифровой девелопмент

Подробнее
Спецпроект

Машиностроительные предприятия инвестируют в ПО

Подробнее


Подпишитесь
на нашу рассылку