Разделы

Бизнес Телеком Инфраструктура Цифровизация Внедрения Инфраструктура Электроника Ритейл Дистрибуция Розница Техника

Новейшие графические процессоры Blackwell Nvidia перегреваются. Конструкцию серверов приходится переделывать

Ускорители на базе новых чипов Blackwell обещают очередной прорыв в вычислениях для искусственного интеллекта (ИИ). Но запуск крупных дата-центров с новыми графическими чипами Nvidia Blackwell сопряжен с неожиданными проблемами. Крупные заказчики, включая корпорации Google, Meta и Microsoft, столкнулись с перегревом серверов Nvidia NVL72 на основе чипов Blackwell. Это значительно вносит задержки в развертывание и запуск новых вычислительных мощностей.

Сбои при работе

Поставки ускорителей для ИИ Nvidia Blackwell сталкиваются с новыми проблемами в виде перегрева адаптеров. Как пишет издание Toms Hardware, компания-разработчик уже несколько раз пыталась решить данную проблему, но безуспешно.

Весной 2024 г. Nvidia представила чип Blackwell GB200. Он объединяет два графических процессора нового поколения и ARM-процессор Grace, а также обещает производительность в 30 раз выше, чем у предшественника.

Энергопотребление одного ускорителя B200 достигло внушительных 1 тыс. Вт, а так называемый суперчип GB200 c двумя GPU и дополнительным ARM-процессором потребляет 2,7 кВт. Сервера Nvidia NVL72 насчитывают 36 устройств GB200, то есть содержат 72 графических чипа Blackwell. Все это серьезно греется, и, хотя с появлением Blackwell начался массовый переход на жидкостное охлаждение серверов он не решает всех проблем.

Пользователи графических процессоров Blackwell от Nvidia столкнулись с проблемой перегрева

Перегрев может ограничивать производительность и влиять на долговечность компонентов. Это привело к тому, что американская технологическая компания Nvidia вместе с партнерами вынуждены были уже несколько раз вносить изменения в конструкцию своих серверных стоек во избежание перегрева. По информации Toms Hardware, хотя это неприятная ситуация для заказчиков, но она не экстраординарная, ведь любой масштабный технологический проект такого уровня связан с доработками.

Хоть для Blackwell это и не первая доработка, ведь при запуске массового производства Nvidia столкнулась с большим процентом брака при упаковке сложных чипов. Были недоработки в технологии объединения больших чиплетов и промежуточного слоя с соединительными мостами local silicon interconnect (LSI), что при тепловом расширении приводило к деформации и сбоям. Для решения этой проблемы были внесены соответствующие конструктивные изменения. Но это потребовало времени и привело к задержкам в поставках. Новые задержки в развертывании серверов приведут к задержкам в планах ИТ-компаний относительно развития и обучения своих языковых ИИ-моделей.

По данным источников издания Toms Hardware в Nvidia, а также среди поставщиков и клиентов, компания-разработчик уже несколько раз просила партнеров изменить конструкцию стоек. Клиенты опасаются, что запуск новых дата-центров придется отложить.

Анонс ИИ-чипа Blackwell B200

Компания Nvidia представила ИИ-чипы B200 на новой архитектуре Blackwell. Компания отмечает, что с их помощью можно значительно ускорить обучение нейросетей и сделать процесс более энергоэффективным.

Blackwell B200 выполнен по четырехнанометровому техпроцессу компании TSMC и состоит из 208 млрд транзисторов. Общий объем памяти составляет 192 ГБ с пропускной способностью до 8 ТБ/с. Со слов разработчиков, новая архитектура позволяет нескольким процессорам быстрее передавать данные друг другу. Ранее кластер из 16 графических ускорителей 60% времени тратил на коммуникацию между процессорами.

Видеокарта GB200

Базовым устройством в новой линейке станет карта GB200 на базе двух чипов B200, ведь GB200 можно будет использовать как отдельно, так и в связке с другой. Производительность же видеокарты оценивается в 20 петафлопс. Для сравнения: PlayStation 5 в 2,2 тыс. раз слабее – это всего лишь 10,3 терафлопса.

Для продвинутых пользователей Nvidia выпустит серверную стойку GB200 NVL72. В ней будет установлено 72 GPU нового поколения. Общая вычислительная мощность составит 1,4 экзафлопс (1,4 тыс. петафлопс). Для охлаждения устройства планируют использовать жидкостную систему. Компании Amazon, Google, Microsoft и Oracle уже на то время рассматривали покупку стоек для своих облачных платформ.

Большим компаниям будет доступен сервер из восьми стоек с 576 видеокартами нового поколения. Его производительность оценивается в 11,5 экзафлопс. Если этого будет мало, то несколько серверов можно связать друг с другом.

Ценность ИИ-чипа от Nvidia

В настоящее время для обучения языковой модели с 1,8 трлн параметров, что эквивалентно GPT-4, понадобится 8 тыс. графических ускорителей на архитектуре Hopper. Процесс займет 90 дней и потребует 15 МВт мощности. С Blackwell понадобится всего 2 тыс. GPU и 4 МВт.

Новая архитектура ускоряет обучение нейронных сетей и делает его более энергоэффективным, по крайней мере, так изначально задумывали инженеры компании Nvidia. Это важно для ИТ-компаний, которые разрабатывают большие модели машинного обучения (ML) с огромным количеством параметров.

Антон Денисенко