Новейшие графические процессоры Blackwell Nvidia перегреваются. Конструкцию серверов приходится переделывать
Ускорители на базе новых чипов Blackwell обещают очередной прорыв в вычислениях для искусственного интеллекта (ИИ). Но запуск крупных дата-центров с новыми графическими чипами Nvidia Blackwell сопряжен с неожиданными проблемами. Крупные заказчики, включая корпорации Google, Meta и Microsoft, столкнулись с перегревом серверов Nvidia NVL72 на основе чипов Blackwell. Это значительно вносит задержки в развертывание и запуск новых вычислительных мощностей.
Сбои при работе
Поставки ускорителей для ИИ Nvidia Blackwell сталкиваются с новыми проблемами в виде перегрева адаптеров. Как пишет издание Toms Hardware, компания-разработчик уже несколько раз пыталась решить данную проблему, но безуспешно.
Весной 2024 г. Nvidia представила чип Blackwell GB200. Он объединяет два графических процессора нового поколения и ARM-процессор Grace, а также обещает производительность в 30 раз выше, чем у предшественника.
Энергопотребление одного ускорителя B200 достигло внушительных 1 тыс. Вт, а так называемый суперчип GB200 c двумя GPU и дополнительным ARM-процессором потребляет 2,7 кВт. Сервера Nvidia NVL72 насчитывают 36 устройств GB200, то есть содержат 72 графических чипа Blackwell. Все это серьезно греется, и, хотя с появлением Blackwell начался массовый переход на жидкостное охлаждение серверов он не решает всех проблем.
Перегрев может ограничивать производительность и влиять на долговечность компонентов. Это привело к тому, что американская технологическая компания Nvidia вместе с партнерами вынуждены были уже несколько раз вносить изменения в конструкцию своих серверных стоек во избежание перегрева. По информации Toms Hardware, хотя это неприятная ситуация для заказчиков, но она не экстраординарная, ведь любой масштабный технологический проект такого уровня связан с доработками.
Хоть для Blackwell это и не первая доработка, ведь при запуске массового производства Nvidia столкнулась с большим процентом брака при упаковке сложных чипов. Были недоработки в технологии объединения больших чиплетов и промежуточного слоя с соединительными мостами local silicon interconnect (LSI), что при тепловом расширении приводило к деформации и сбоям. Для решения этой проблемы были внесены соответствующие конструктивные изменения. Но это потребовало времени и привело к задержкам в поставках. Новые задержки в развертывании серверов приведут к задержкам в планах ИТ-компаний относительно развития и обучения своих языковых ИИ-моделей.
По данным источников издания Toms Hardware в Nvidia, а также среди поставщиков и клиентов, компания-разработчик уже несколько раз просила партнеров изменить конструкцию стоек. Клиенты опасаются, что запуск новых дата-центров придется отложить.
Анонс ИИ-чипа Blackwell B200
Компания Nvidia представила ИИ-чипы B200 на новой архитектуре Blackwell. Компания отмечает, что с их помощью можно значительно ускорить обучение нейросетей и сделать процесс более энергоэффективным.
Blackwell B200 выполнен по четырехнанометровому техпроцессу компании TSMC и состоит из 208 млрд транзисторов. Общий объем памяти составляет 192 ГБ с пропускной способностью до 8 ТБ/с. Со слов разработчиков, новая архитектура позволяет нескольким процессорам быстрее передавать данные друг другу. Ранее кластер из 16 графических ускорителей 60% времени тратил на коммуникацию между процессорами.
Базовым устройством в новой линейке станет карта GB200 на базе двух чипов B200, ведь GB200 можно будет использовать как отдельно, так и в связке с другой. Производительность же видеокарты оценивается в 20 петафлопс. Для сравнения: PlayStation 5 в 2,2 тыс. раз слабее – это всего лишь 10,3 терафлопса.
Для продвинутых пользователей Nvidia выпустит серверную стойку GB200 NVL72. В ней будет установлено 72 GPU нового поколения. Общая вычислительная мощность составит 1,4 экзафлопс (1,4 тыс. петафлопс). Для охлаждения устройства планируют использовать жидкостную систему. Компании Amazon, Google, Microsoft и Oracle уже на то время рассматривали покупку стоек для своих облачных платформ.
Большим компаниям будет доступен сервер из восьми стоек с 576 видеокартами нового поколения. Его производительность оценивается в 11,5 экзафлопс. Если этого будет мало, то несколько серверов можно связать друг с другом.
Ценность ИИ-чипа от Nvidia
В настоящее время для обучения языковой модели с 1,8 трлн параметров, что эквивалентно GPT-4, понадобится 8 тыс. графических ускорителей на архитектуре Hopper. Процесс займет 90 дней и потребует 15 МВт мощности. С Blackwell понадобится всего 2 тыс. GPU и 4 МВт.
Новая архитектура ускоряет обучение нейронных сетей и делает его более энергоэффективным, по крайней мере, так изначально задумывали инженеры компании Nvidia. Это важно для ИТ-компаний, которые разрабатывают большие модели машинного обучения (ML) с огромным количеством параметров.