
Большие языковые модели теперь не требуют мощных серверов: учёные Яндекса, НИУ ВШЭ, MIT, KAUST и ISTA совершили прорыв в оптимизации LLM
Лаборатория исследований искусственного интеллекта Yandex Research совместно с ведущими научно-технологическими вузами разработала метод быстрого сжатия больших языковых моделей (LLM) без потери качества. Теперь для работы с моделями достаточно смартфона или ноутбука – и не нужно использовать дорогие серверы и мощные GPU.
Метод позволяет быстро тестировать и внедрять новые решения на основе нейросетей, экономить время и деньги на разработку. Это делает LLM доступнее для крупных, небольших компаний, некоммерческих лабораторий и институтов, индивидуальных разработчиков и исследователей.
Ранее для запуска языковой модели на смартфоне или ноутбуке требовалось провести её квантизацию на дорогостоящем сервере, что занимало от нескольких часов до несколько недель. Теперь квантизацию можно выполнить прямо на телефоне или ноутбуке за считанные минуты.
Трудности применения моделей
Сложность в использовании больших языковых моделей заключается в том, что они требуют значительных вычислительных ресурсов. Это касается и опенсорс-моделей. Например, одна из них – популярная DeepSeek-R1 – не помещается даже на дорогостоящих серверах, предназначенных для работы с искусственным интеллектом и машинным обучением. Это означает, что использовать большие модели может только ограниченный круг компаний, даже если сама модель находится в открытом доступе.
Новый метод позволяет уменьшить размер модели, сохранив её качество, и запустить на более доступных устройствах. Например, с помощью этого метода можно сжимать даже такие большие модели, как DeepSeek-R1 на 671 млрд параметров и Llama 4 Maverick на 400 млрд параметров, которые до сих пор удавалось квантовать только самыми простыми методами со значительной потерей в качестве.
Новый способ квантизации даёт больше возможностей для использования LLM в различных областях, особенно в тех, где ресурсы ограничены – например, в образовании или социальной сфере. Теперь стартапы и независимые разработчики могут использовать сжатые модели для создания инновационных продуктов и сервисов, не тратя деньги на дорогое оборудование. Яндекс уже применяет новый метод для прототипирования – создания рабочих версий продуктов и быстрой проверки идей: сжатые модели проходят тестирование быстрее, чем их исходные версии.
Суть метода
Новый метод квантизации называется HIGGS (от англ. Hadamard Incoherence with Gaussian MSE-optimal GridS). Он позволяет сжимать нейросети без использования дополнительных данных и без вычислительно сложной оптимизации параметров. Это особенно полезно в ситуациях, когда недостаточно подходящих данных для дообучения модели. Метод обеспечивает баланс между качеством, размером модели и сложностью квантизации, что позволяет использовать модели на самых разных устройствах.
Метод проверили на популярных моделях Llama 3 и Qwen2.5. Эксперименты показали, что HIGGS – лучший способ квантизации по соотношению качества к размеру модели среди всех существующих методов квантизации без использования данных, в том числе NF4 (4-bit NormalFloat) и HQQ (Half-Quadratic Quantization). В разработке метода участвовали учёные из НИУ ВШЭ, Массачусетского технологического института (MIT), Австрийского института науки и технологий (ISTA) и Научно-технологического университета имени короля Абдаллы (KAUST).
Метод HIGGS уже доступен разработчикам и исследователям на Hugging Face и GitHub, а научную статью про него можно прочитать на arXiv.
Реакция научного сообщества
Научную статью, в которой описан новый метод, приняли на одну из крупнейших в мире конференций по искусственному интеллекту – NAACL (The North American Chapter of the Association for Computational Linguistics). Она пройдёт с 29 апреля по 4 мая 2025 года в Альбукерке, Нью-Мексико, США.
Наряду с Яндексом в ней будут участвовать такие компании и вузы, как Google, Microsoft Research, Гарвардский университет и др. Статью цитировали американская компания Red Hat AI, Пекинский университет, Гонконгский университет науки и технологии, Фуданьский университет и др.