За эффективностью в облачную инфраструктуру

С переходом на облачные решения применение графических процессоров (GPU) становится все более гибким и масштабируемым. Однако выбор и алгоритм использования технологии требуют понимания особенностей различных архитектур. На вебинаре «Создание масштабируемой инфраструктуры для AI/ML на базе GPU Cloud» эксперты рассказали о доступных решениях и предложили сценарии их реализации.

Точкой отсчета вычислений на базе GPU можно считать 2006 г., когда компания Nvidia предложила технологию Cuda (вычислительные ядра на основе GPU). Сегодня нашу жизнь невозможно представить без сервисов с GPU, отметил, открывая вебинар, архитектор решений ITGlobal.com Андрей Волкодав. В банковских приложениях, приложениях по доставке, чат-ботах используются технологии машинного обучения, ИИ, для работы которых задействуется инфраструктура с графическими ускорителями.

Среди глобальных задач, которые ставятся перед вычислениями на GPU, эксперт назвал три. Первая – машинное обучение, позволяющее ускорить процедуру обучения моделей, обеспечить обработку больших данных для нейронных сетей, выполнение параллельных процессов (ядер в графических ускорителях намного больше, чем в классическом процессоре). Вторая задача – применение искусственного интеллекта, что предусматривает глубокое обучение, анализ изображений и видео, обработку естественного языка (NLP). Третья – рендеринг графики (получение изображения по модели с помощью компьютерной программы), что предполагает 3D-моделирование, анимацию, реалистичное освещение и тени в компьютерных играх.

Для построения инфраструктуры на базе GPU используются две модели: классическая, «с нуля» на площадке заказчика, и облачная. В первом случае заказчику требуется обеспечить управление оборудованием. Для этого ему нужны штат сотрудников, помещение, отвечающее многочисленным требованиям, прежде всего в сфере безопасности (ИБ, контроля доступа и т. д.), сети связи и т. д. Приходится учитывать непростые финансовые условия: под проекты, связанные с GPU, не всегда удается выделить большой бюджет, поскольку непонятен объем ресурса, неясно, как быстро он будет развиваться.

На этом фоне выигрышно выглядит облачное решение – можно платить только за используемые ресурсы, отпадает необходимость в крупных капиталовложениях. Кроме того, облачные сервисы позволяют легко масштабировать ресурсы под текущие нужды проекта. В первой модели (на площадке заказчика) масштабировать инфраструктуру можно только в пределах имеющегося оборудования, а расширение потребует значительных финансовых вложений и времени, которое отводится на согласование.

Еще одно преимущество облачных платформ в том, что они предлагают инструменты, упрощающие управление и мониторинг.

Классическая модель уступает облачной в быстром доступе к новым технологиям – дают о себе знать санкционные ограничения и высокие затраты на обновление оборудования. В облачном варианте новейшие GPU и технологии доступны сразу же – по мере их появления.

На инфраструктуре провайдера

Кластер GPU облачного провайдера ITGlobal.com включает в себя различные графические ускорители: NVIDIA HGX H100 (высокопроизводительную инфраструктуру на базе NVIDIA DGX SuperPOD), NVIDIA L40S (оптимизированную инфраструктуру для обработки больших массивов данных и сложных алгоритмов машинного обучения), NVIDIA A800 (производительную GPU для глубокого обучения, оптимизации интерфейса, высокопроизводительных вычислений и анализа данных), а также NVIDIA A16 (оптимизированную инфраструктуру для VDI, графически интенсивных приложений и удаленной работы с высокой плотностью пользователей). Новые сегменты NVIDIA HGX H100 и NVIDIA L40S доступны на условиях предзаказа.

В ходе презентации Андрей Волкодав подробно рассказал о каждом графическом ускорителе, возможных конфигурациях. В частности, графический ускоритель NVIDIA A16 на базе архитектуры Ampere, предназначенный для технологии виртуализации рабочих мест (VDI), обеспечивает высокую плотность пользователей, высокую частоту кадров и низкую задержку. Пользовательский опыт не отличается от работы на нативном ПК, утверждают в компании.

Эксперт дал рекомендации по выбору GPU. Для решения задач в сфере ИИ и высокопроизводительных вычислений подходят NVIDIA HGX H100, объединенные в SuperPOD (для больших кластеров и моделей), а также NVIDIA A800 (для реализации средних и небольших проектов). Что касается VDI и графического рендеринга, то предпочтение стоит отдать NVIDIA A16. В случае смешанной нагрузки эксперт советует выбрать NVIDIA L40s.

Услуга GPU Cloud компании ITGlobal.com предоставляется в трех странах – России, Казахстане и Нидерландах. С площадки в Нидерландах в скором времени будет доступен NVIDIA SuperPOD (на стадии запуска). Оптимизированная инфраструктура NVIDIA L40S продолжает расширяться в России, ресурсы первого кластера уже раскуплены. Одновременно в трех странах заказчикам доступен кластер NVIDIA A800.

Кейс по запуску AI-платформы на базе GPU Cloud представил директор по ИИ-инфраструктуре компании Ainergy Константин Кудряшов. Ainergy предлагает услуги автоматизации бизнес-процессов с помощью языковых моделей (проприетарных и доступных в открытом доступе). Для многих клиентов важно, чтобы их данные не попадали в неизвестное облако, поэтому для них Ainergy разворачивает модели локально на инфраструктуре, предоставляемой ITGlobal.com.

«Для решения такой задачи важно обеспечить масштабируемость и возможность выделения в контуре, который может быть управляем, как нами, так и клиентом, необходимого объема ресурсов. И потом его масштабировать для развертывания по мере роста потребностей клиента в сложных моделях. Для этого мы используем инфраструктуру ITGlobal.com», – пояснил представитель Ainergy.

На случай отказа конкретных единиц оборудования предусмотрена «живая» миграция. Кроме того, коллеги предоставляют дополнительные услуги, в рамках которых можно настроить мониторинг доступности ресурсов GPU. В Ainergy применяют карточки A800. За почти год пользования услугой простоев не было.

По словам представителя ITGlobal.com, плановая доступность сервиса составляет 100%, гарантированная – 99,95%. Время обработки типового запроса не превышает 4 часов. Время реакции на инцидент зависит от приоритета задачи (очень высокий – не более часа).

Конфигурация решения подбирается из расчета бизнес-требований заказчика. Для запуска минимального ее варианта провайдеру достаточно трех рабочих дней. Благодаря использованию решения ITGlobal.com на условиях аренды с официальной технической поддержкой от вендора удается избежать санкционных «подножек». Примечательно, что облачный провайдер сохраняет статус международной компании.

В конце вебинара ITGlobal.com объявила о спецпредложении для клиентов. При подписании договора до 31 октября один месяц пользования услугой AI Cloud предоставляется бесплатно.

Следите за нашими новостями в Телеграм-канале Connect

За эффективностью в облачную инфраструктуру

На инфраструктуре провайдера

Следите за нашими новостями в
Телеграм-канале Connect

Еще по теме

Цифровой девелопмент

Машиностроительные предприятия инвестируют в ПО

Подпишитесь
на нашу рассылку

На инфраструктуре провайдера

Следите за нашими новостями вТелеграм-канале Connect

Еще по теме

Цифровой девелопмент

Машиностроительные предприятия инвестируют в ПО

Подпишитесь на нашу рассылку

Следите за нашими новостями в
Телеграм-канале Connect

Подпишитесь
на нашу рассылку