AMD представляет первые в мире 7нм GPU для ЦОД - создавая основу для новой эры искусственного интеллекта, облачных и высокопроизводительных (HPC) вычислений

На прошедшем мероприятии Next Horizon компания AMD (NASDAQ: AMD) представила ускорители вычислений AMD Radeon Instinct™ MI60 и MI50, первые в мире 7нм GPU, созданные специально, чтобы обеспечить вычислительную производительность, необходимую для нового поколения приложений в области глубинного обучения, высокопроизводительных вычислений и рендеринга. Исследователи, ученые и разработчики будут использовать ускорители AMD Radeon Instinct™, чтобы решать сложные и интересные задачи в области масштабных симуляций, исследования изменений климата, вычислительной биологии, предотвращения болезней и многом другом.

«Устаревшие архитектуры GPU ограничивают IT-менеджеров и не дают им возможности эффективно справляться с постоянно растущими запросами на обработку и анализ огромных объемов данных для современных нагрузок в облачных ЦОД, – сказал Дэвид Ванг, старший вице-президент, ответственный за проектирование в подразделении Radeon Technologies Group компании AMD. – Совмещая производительность мирового уровня с гибкой архитектурой и надежной программной платформой на базе лидирующей открытой экосистемы ROCm, новые ускорители AMD Radeon Instinct™ представляют собой как раз те самые критически необходимые компоненты для решения самых сложных задач в сфере облачных вычислений, как сегодня, так и в будущем».

Ускорители AMD Radeon Instinct™ MI60 и MI50 обладают гибкими возможностями вычислений с различной точностью, они работают на базе высокопроизводительных вычислительных модулей, которые расширяют спектр потенциального применения данных ускорителей, включая HPC и приложения для глубинного обучения. Новые модели AMD Radeon Instinct™ MI60 и MI50 создавались для того, чтобы эффективно справляться с такими задачами, как построение быстрообучаемых сложных нейронных сетей, обеспечивая более высокие уровни производительности в вычислениях с плавающей запятой, улучшенную эффективность и новые возможности для развертывания в ЦОД и отдельных департаментах организаций[i].

Ускорители AMD Radeon Instinct™ MI60 и MI50 демонстрируют скоростные вычисления с плавающей запятой и обладают ультра-быстрой памятью HBM2 (High-Bandwidth Memory 2^го поколения) с пропускной способностью до 1 ТБ/с. Они также являются первыми GPU с поддержкой интерконнекта нового поколения PCIe® 4.0 [ii] который работает до двух раз быстрее, чем любые другие технологии соединения[iii] x86 CPU-to-GPU, а также интерконнект AMD Infinity Fabric™ Link, который делает возможным соединение GPU-to-GPU до 6 раз быстрее, чем при использовании PCIe® Gen 3 [iv].

AMD также представила новую версию открытой программной платформы ROCm для ускоренных вычислений, которая поддерживает архитектурные особенности новых ускорителей, включая оптимизированные операции глубокого обучения (DLOPS), и технологию интерконнекта AMD Infinity Fabric™ Link. Разработанная специально для масштабного применения, ROCm позволяет заказчикам развертывать высокопроизводительные и энергоэффективные гетерогенные компьютерные системы на базе открытых сред.

«Google верит, что подход OpenSource хорош для всех и каждого, – сказал Раджат Монга (Rajat Monga), руководитель направления инжиниринга TensorFlow в Google. – Мы видели, насколько полезен он может быть на примере технологий машинного обучения с открытым кодом, и мы рады тому, что компания AMD поддерживает эти инициативы. Вместе с открытой программной платформой ROCm, пользователи TensorFlow могут получить преимущества от ускорения на GPU, создавая более надежную экосистему машинного обучения на базе открытых технологий».

В числе ключевых особенностей ускорителей AMD Radeon Instinct™ MI60 и MI50:

Оптимизированные процессы глубокого обучения: Гибкие возможности изменения точности вычислений от FP16 и FP32 до INT4/INT8 позволяют удовлетворить растущий спрос на поддержку динамических и постоянно меняющихся нагрузок: от обучения сложных нейронных сетей до запуска инференции поверх уже обученных сетей.
Самый быстрый в мире PCIe®2-ускоритель с двойной точностью: AMD Radeon Instinct™ MI60 является самым быстрым в мире ускорителем с двойной точностью, поддерживающим PCIe0 до 7,4 ТФЛОПС пиковой производительности FP64. Он позволяет ученым и исследователям эффективнее работать с приложениями HPC в широком спектре отраслей, включая науки о жизни, энергетику, финансы, автомобилестроение, аэрокосмическую отрасль, академические среды, правительственные организации, оборонные структуры и многих других. AMD Radeon Instinct™ MI50 демонстрирует пиковую производительность FP64¹ на уровне 6,7 ТФЛОПС и одновременно является эффективным и доступным решением для широкого спектра задач глубокого обучения, а также прекрасно подходит для поддержки виртуальных рабочих столов (Virtual Desktop Infrastructure (VDI), конфигураций DaaS (Desktop-as-a-Service) и облачных сред.
В 6 раз более быстрая передача данных: AMD Infinity Fabric™ Link позволяет достичь общей пропускной способности 200 Гбайт/с (на 2 канала), объединить 4 GPU и ускорить работу системы до 6 раз быстрее по сравнению со стандартным PCIe0.
Ультра-быстрая память типа HBM2: Ультра-быстрая память HBM2: AMD Radeon Instinct™ MI60 содержит 32Гб памяти HBM2 с коррекцией ошибок (ECC)5, а Radeon Instinct™ MI50 — 16Гб памяти HBM2 ECC. Оба GPUs поддерживают ECC на всем чипе, а также технологии RAS[v] ( Reliability, Accessibility, Serviceability) — критически важные элементы для более точных результатов вычислений в масштабных HPC-средах.
Поддержка защищенных виртуальных нагрузок: Технология AMD MxGPU является первой в отрасли и единственной системой аппаратной виртуализации GPU. Она основана на стандартной отраслевой технологии SR-IOV (Single Root I/O Virtualization), что усложняет для хакеров процессы атак на аппаратном уровне, обеспечивая безопасность в виртуальных облачных средах.

Обновленная платформа ROCm

AMD также представила сегодня новую версию своей открытой программной платформы ROCm, разработанной для создания высокопроизводительных и энергоэффективных гетерогенных компьютерных систем. В дополнение к поддержке новых ускорителей Radeon Instinct™, ROCm 2.0 отличается обновленными математическими библиотеками для DLOPS; поддержкой 64-битных ОС Linux, включая CentOS, RHEL и Ubuntu; оптимизацией существующих компонентов и поддержкой новейших версия самых популярных сред глубокого обучения, включая TensorFlow 1.11, PyTorch (Caffe2) и другие. Узнать больше о ROCm 2.0 можно поздесь.

Доступность

Поставки ускорителей AMD Radeon Instinct MI60 заказчикам в ЦОД ожидаются к концу 2018 года, а AMD Radeon Instinct MI50 будет доступен в конце первого квартала 2019 года. Открытая программная платформа ROCm 2.0 ожидается к концу 2018 года.

Дополнительные ресурсы

Ознакомьтесь с материалами по итогам мероприятия Next Horizon на сайте

Узнайте больше об ускорителях AMD Radeon Instinct™ MI60 и MI50
Узнайте больше о продуктах AMD на базе техпроцесса 7nm здесь
Узнайте больше о платформе разработки ПО — ROCm 2.0 здесь
Узнайте больше о ROCm & MIOpen Docker Hub здесь

Подписывайтесь на AMD вFacebook
Ставьте AMD лайки и подписывайтесь наTwitter

[i] На 22 октября 2018 года. Результаты были измерены для Radeon Instinct MI60, созданного на базе архитектуры Vega с техпроцессом 7нм FinFET. Они составили 29,5 Терафлопс при половине точности (FP16), 14,8 Терафлопс при одинарной точности (FP32) и 7,4 Терафлопс при двойной точности (FP64) в пиковых теоретических значениях. Этот рост производительности был достигнут за счет увеличения количества транзисторов до 13,2 млрд. и уменьшения размера кристалла до 331,46мм² по сравнению с предыдущим поколением GPU MI25 с аналогичным энергопотреблением 300Вт.

Результаты для Radeon Instinct MI50 на базе архитектуры Vega с техпроцессом 7нм FinFET составили 26,8 Терафлопс при половиной точности (FP16), 13,4 Терафлопс при одинарной точности (FP32) и 6,7 Терафлопс при двойной точности (FP64) в операциях с плавающей запятой. Этот рост производительности был достигнут за счет увеличения количества транзисторов до 13,2 млрд. и уменьшения размера кристалла до 331,46мм² по сравнению с предыдущим поколегнием GPU MI25 с аналогичным энергопотреблением 300Вт.

Определение Терафлопс в AMD были произведены для Radeon Instinct MI25, MI50 и MI60 по следующим принципам: тактовая частота с максимальным DPM была умножена на количество CU на GPU. После этого показатель был умножен на количество поточных процессоров (stream processors), содержащихся в каждом CU. Это число умножалось на 2 Флопс на такт для FP32 и 4 Флопс на такт для FP16. Чтобы вычислить FP64 для продуктов Vega 7нм MI50 и MI60 была взята 1/2 частоты, а для архитектуры “Vega10” и карты MI25 — 1/16 частоты.

Расчеты TFLOP для MI50 и MI60 можно найти на сайтах: https://www.amd.com/en/products/professional-graphics/instinct-mi50 and https://www.amd.com/en/products/professional-graphics/instinct-mi60

Гигафлопс на Ватт
	MI25	MI50	MI60
FP16	0.082	0.089	0.098
FP32	0.041	0.045	0.049
FP64	0.003	0.022	0.025

Отраслевые документы/страницы:

http://www.tsmc.com/english/dedicatedFoundry/technology/7nm.htm

https://www.globalfoundries.com/sites/default/files/product-briefs/product-brief-7lp-7nm-finfet-technology.pdf

AMD не проводила независимое тестирование и не проверяла внешние результаты и не несет ответственности за возможные ошибки и опечатки в них.

RIV-2

[ii] Ожидается

[iii] По состоянию на 22 октября 2018 года. Radeon Instinct ™ MI50 и MI60 на базе архитектуры «Vega» и техпроцесса 7nm – это ускорители с PCIe Gen 4.0, обеспечивающие пиковую пропускную способность до 64 ГБ / с на карту с сертифицированными серверами PCIe Gen 4.0 x16. Оценки пиковых скоростей могут различаться. Предыдущие версии видеокарт Radeon Instinct основаны на PCIe Gen 3.0, обеспечивающих максимальную пропускную способность до 32 ГБ / с.

Пиковая пропускная способность передачи информации вычисляется по Baud Rate * width в байтах * # direction = Гб / с

PCIe Gen 3: 8 * 2 * 2 = 32 ГБ / с

PCIe Gen 4: 16 * 2 * 2 = 64 ГБ / с

Обратитесь к руководству по PCIe Gen 4.0 и к руководству по производительности для определения потенциальной максимальной производительности указанных моделей. Производители серверов могут изменять конфигурации предложений, что приводит к различным результатам.

https://pcisig.com/

https://www.chipestimate.com/PCI-Express-Gen-4-a-Big-Pipe-for-Big-Data/Cadence/Technical-Article/2014/04/15

https://www.tomshardware.com/news/pcie-4.0-power-speed-express,32525.html

RIV-2

[iv] По состоянию на 22 октября 2018 года. Radeon Instinct ™ MI50 и MI60 на базе архитектуры «Vega» и техпроцесса 7nm – это ускорители с PCIe Gen 4.0, обеспечивающие максимальную пропускную способность до 64 ГБ / с на карту с сертифицированными серверами PCIe Gen 4.0 x16. Оценки эффективности пиковых скоростей могут различаться. Предыдущие версии видеокарт Radeon Instinct основаны на PCIe Gen 3.0, обеспечивающих максимальную пропускную способность до 32 ГБ / с.

Теоретическая пиковая пропускная способность передачи информации вычисляется по Baud Rate * width в байтах * # direction = Гб/с

PCIe Gen 3: 8 * 2 * 2 = 32 ГБ / с

PCIe Gen 4: 16 * 2 * 2 = 64 ГБ / с

Vega20 к Vega20 xGMI = 25 * 2 * 2 = 100 Гб/с * 2 линия на процессор = 200 Гб/с

xGMI (также известная как Infinity Link) против PCIe Gen3: 200/32 = 6,25x

Radeon Instinct ™ MI50 и MI60 «Vega» с техпроцессом 7нм обладают двумя линиями в Infinity Fabric ™, которые обеспечивают максимальную пропускную способность передачи информации между процессорами до 200 ГБ/с на GPU. В сочетании с PCIe Gen 4, обеспечивается максимальная пропускная способность ввода-вывода на графическом процессоре до 264 Гб/с.

Гайдлайны по оценке эффективности могут различаться. Radeon Instinct поддерживающие PCIe Gen 3.0 обеспечивают пропускную способность до 32 Гб/с.

Infinity Fabric™ максимальная пропускная способность рассчитывается по: Baud Rate * width в битах* # directions * # линий = Гб/с на GPU

Infinity Fabric: 25 * 2 * 2 = 100 Гб/с

MI50 |MI60 каждая имеет по 2 линии:

100 Гб/с * 2 линии на GPU = 200 GB/s

Refer to server manufacture PCIe Gen 4.0 compatibility and performance guidelines for potential peak performance of the specified server model numbers. Server manufacturers may vary configuration offerings yielding different results.

https://pcisig.com/

https://www.chipestimate.com/PCI-Express-Gen-4-a-Big-Pipe-for-Big-Data/Cadence/Technical-Article/2014/04/15

https://www.tomshardware.com/news/pcie-4.0-power-speed-express,32525.html

RIV-2

5 Поддержка ECC на графических процессоров второго поколения Radeon Instinct ™ на базе архитектуры Vega и техпроцсса 7nm, была расширена до полнопрофильного ECC, включая память HBM2 и внутренние графические структуры..

6 Технологии RAS (Reliability, availability and serviceability) были добавлены к графическим процессорам второго поколения AMD Radeon Instinct ™ на базе архитектуры «Vega» и техпроцесса 7нм и поддерживаются их экосистемой, включая ПО, прошивку и функциями на системном уровне. Возможности удаленного управления с использованием расширенной внеполосной схемы позволяют упростить процесс мониторинга с помощью I2C, независимо от состояния графического процессора. Для ознакомления с полноценными возможностями RAS, смотрите рекомендации производителя системы для конкретной модели.

http://www.amd.com/

Следите за нашими новостями в Телеграм-канале Connect

AMD представляет первые в мире 7нм GPU для ЦОД - создавая основу для новой эры искусственного интеллекта, облачных и высокопроизводительных (HPC) вычислений

Следите за нашими новостями в
Телеграм-канале Connect

Еще по теме

Цифровой девелопмент

Машиностроительные предприятия инвестируют в ПО

Следите за нашими новостями вТелеграм-канале Connect

Еще по теме

Цифровой девелопмент

Машиностроительные предприятия инвестируют в ПО

Следите за нашими новостями в
Телеграм-канале Connect