Бизнес Телеком Инфраструктура Цифровизация Внедрения Инфраструктура Электроника Ритейл Дистрибуция Розница Техника

19 Ноября 2024 11:12 19 Ноя 2024 11:12 |

Новейшие графические процессоры Blackwell Nvidia перегреваются. Конструкцию серверов приходится переделывать

Ускорители на базе новых чипов Blackwell обещают очередной прорыв в вычислениях для искусственного интеллекта (ИИ). Но запуск крупных дата-центров с новыми графическими чипами Nvidia Blackwell сопряжен с неожиданными проблемами. Крупные заказчики, включая корпорации Google, Meta и Microsoft, столкнулись с перегревом серверов Nvidia NVL72 на основе чипов Blackwell. Это значительно вносит задержки в развертывание и запуск новых вычислительных мощностей.

Сбои при работе

Поставки ускорителей для ИИ Nvidia Blackwell сталкиваются с новыми проблемами в виде перегрева адаптеров. Как пишет издание Toms Hardware, компания-разработчик уже несколько раз пыталась решить данную проблему, но безуспешно.

Весной 2024 г. Nvidia представила чип Blackwell GB200. Он объединяет два графических процессора нового поколения и ARM-процессор Grace, а также обещает производительность в 30 раз выше, чем у предшественника.

Энергопотребление одного ускорителя B200 достигло внушительных 1 тыс. Вт, а так называемый суперчип GB200 c двумя GPU и дополнительным ARM-процессором потребляет 2,7 кВт. Сервера Nvidia NVL72 насчитывают 36 устройств GB200, то есть содержат 72 графических чипа Blackwell. Все это серьезно греется, и, хотя с появлением Blackwell начался массовый переход на жидкостное охлаждение серверов он не решает всех проблем.

Youtube - Nvidia

Пользователи графических процессоров Blackwell от Nvidia столкнулись с проблемой перегрева

Перегрев может ограничивать производительность и влиять на долговечность компонентов. Это привело к тому, что американская технологическая компания Nvidia вместе с партнерами вынуждены были уже несколько раз вносить изменения в конструкцию своих серверных стоек во избежание перегрева. По информации Toms Hardware, хотя это неприятная ситуация для заказчиков, но она не экстраординарная, ведь любой масштабный технологический проект такого уровня связан с доработками.

Хоть для Blackwell это и не первая доработка, ведь при запуске массового производства Nvidia столкнулась с большим процентом брака при упаковке сложных чипов. Были недоработки в технологии объединения больших чиплетов и промежуточного слоя с соединительными мостами local silicon interconnect (LSI), что при тепловом расширении приводило к деформации и сбоям. Для решения этой проблемы были внесены соответствующие конструктивные изменения. Но это потребовало времени и привело к задержкам в поставках. Новые задержки в развертывании серверов приведут к задержкам в планах ИТ-компаний относительно развития и обучения своих языковых ИИ-моделей.

По данным источников издания Toms Hardware в Nvidia, а также среди поставщиков и клиентов, компания-разработчик уже несколько раз просила партнеров изменить конструкцию стоек. Клиенты опасаются, что запуск новых дата-центров придется отложить.

Анонс ИИ-чипа Blackwell B200

Компания Nvidia представила ИИ-чипы B200 на новой архитектуре Blackwell. Компания отмечает, что с их помощью можно значительно ускорить обучение нейросетей и сделать процесс более энергоэффективным.

Blackwell B200 выполнен по четырехнанометровому техпроцессу компании TSMC и состоит из 208 млрд транзисторов. Общий объем памяти составляет 192 ГБ с пропускной способностью до 8 ТБ/с. Со слов разработчиков, новая архитектура позволяет нескольким процессорам быстрее передавать данные друг другу. Ранее кластер из 16 графических ускорителей 60% времени тратил на коммуникацию между процессорами.

Youtube - Nvidia

Видеокарта GB200

Базовым устройством в новой линейке станет карта GB200 на базе двух чипов B200, ведь GB200 можно будет использовать как отдельно, так и в связке с другой. Производительность же видеокарты оценивается в 20 петафлопс. Для сравнения: PlayStation 5 в 2,2 тыс. раз слабее – это всего лишь 10,3 терафлопса.

Для продвинутых пользователей Nvidia выпустит серверную стойку GB200 NVL72. В ней будет установлено 72 GPU нового поколения. Общая вычислительная мощность составит 1,4 экзафлопс (1,4 тыс. петафлопс). Для охлаждения устройства планируют использовать жидкостную систему. Компании Amazon, Google, Microsoft и Oracle уже на то время рассматривали покупку стоек для своих облачных платформ.

Большим компаниям будет доступен сервер из восьми стоек с 576 видеокартами нового поколения. Его производительность оценивается в 11,5 экзафлопс. Если этого будет мало, то несколько серверов можно связать друг с другом.

Ценность ИИ-чипа от Nvidia

В настоящее время для обучения языковой модели с 1,8 трлн параметров, что эквивалентно GPT-4, понадобится 8 тыс. графических ускорителей на архитектуре Hopper. Процесс займет 90 дней и потребует 15 МВт мощности. С Blackwell понадобится всего 2 тыс. GPU и 4 МВт.

Новая архитектура ускоряет обучение нейронных сетей и делает его более энергоэффективным, по крайней мере, так изначально задумывали инженеры компании Nvidia. Это важно для ИТ-компаний, которые разрабатывают большие модели машинного обучения (ML) с огромным количеством параметров.

Конференция «Сохранить всё: безопасность информации»

Антон Денисенко

Подписаться на новости

Короткая ссылка

Новейшие графические процессоры Blackwell Nvidia перегреваются. Конструкцию серверов приходится переделывать

Сбои при работе

Анонс ИИ-чипа Blackwell B200

Ценность ИИ-чипа от Nvidia

Другие материалы рубрики

Конференции

Цифровое здравоохранение 2024

Ситуационные центры 2024

Заказная разработка ПО 2024

MARKET.CNEWS

IaaS

BPM

Kubernetes

CRM

Техника

Лучшие устройства Dreame на распродаже в Черную пятницу: выбор ZOOM

Лучшие умные замки для дома и квартиры: выбор ZOOM

Лучшие моноблоки с диагональю 24 дюйма: хиты продаж

Наука

Убили ли современные люди неандертальцев? Новое исследование отвечает на неоднозначный вопрос

10 ключевых моментов в истории, определивших будущее квантовых компьютеров

Раскрыто происхождение астероида, убившего динозавров

Зима близко:
готовы ли предприятия КИИ к 1 января?

Чем заменить
Active Directory?
Изучаем российскую
альтернативу

Как видеоаналитика и нейросети оптимизируют
производство
и снижают издержки

Зима близко:
готовы ли предприятия КИИ к 1 января?

Какие финтех-инновации внедряет Национальная система платежных карт

Чем заменить
Active Directory?
Изучаем российскую
альтернативу

Новейшие графические процессоры Blackwell Nvidia перегреваются. Конструкцию серверов приходится переделывать

Сбои при работе

Анонс ИИ-чипа Blackwell B200

Ценность ИИ-чипа от Nvidia

Другие материалы рубрики

Конференции

Цифровое здравоохранение 2024

Ситуационные центры 2024

Заказная разработка ПО 2024

MARKET.CNEWS

IaaS

BPM

Kubernetes

CRM

Техника

Лучшие устройства Dreame на распродаже в Черную пятницу: выбор ZOOM

Лучшие умные замки для дома и квартиры: выбор ZOOM

Лучшие моноблоки с диагональю 24 дюйма: хиты продаж

Наука

Убили ли современные люди неандертальцев? Новое исследование отвечает на неоднозначный вопрос

10 ключевых моментов в истории, определивших будущее квантовых компьютеров

Раскрыто происхождение астероида, убившего динозавров

Зима близко:готовы ли предприятия КИИ к 1 января?

Чем заменить Active Directory? Изучаем российскую альтернативу

Как видеоаналитика и нейросети оптимизируют производство и снижают издержки

Зима близко:готовы ли предприятия КИИ к 1 января?

Какие финтех-инновации внедряет Национальная система платежных карт

Чем заменить Active Directory? Изучаем российскую альтернативу

Зима близко:
готовы ли предприятия КИИ к 1 января?

Чем заменить
Active Directory?
Изучаем российскую
альтернативу

Как видеоаналитика и нейросети оптимизируют
производство
и снижают издержки

Зима близко:
готовы ли предприятия КИИ к 1 января?

Чем заменить
Active Directory?
Изучаем российскую
альтернативу