Разделы

Цифровизация Электроника

Intel представила большие архитектурные изменения в новых поколениях процессоров

В рамках мероприятия Intel Architecture Day 2021 Раджа Кодури (Raja Koduri) и архитекторы Intel рассказали о двух новых микроархитектурах x86-ядер, первой производительной гибридной архитектуре Intel под кодовым названием Alder Lake с интеллектуальным планировщиком рабочих нагрузок Intel Thread Director, а также о процессорах Intel Xeon Scalable следующего поколения для дата-центров с кодовым названием Sapphire Rapids. В ходе встречи были представлены инфраструктурные процессоры (Infrastructure Processing Units, IPU) и новые архитектуры графических процессоров, включая микроархитектуры Xe HPG и Xe HPC, а также Системы-на-Кристалле Ponte Vecchio и Alchemist.

Эти новые архитектуры будут использоваться в будущих высокопроизводительных продуктах и станут основой для инноваций Intel, обеспечивающих растущий спрос на вычислительные мощности во всем мире.

Отмечая важность архитектурного прогресса, Раджа Кодури сказал: «Архитектура — это алхимия между софтом и железом. Она смешивает лучшие транзисторы для каждого компонента, собирает их с помощью передовых технологий, интегрирует с высокопроизводительным энергоэффективным кэшем, снабжает большой памятью и быстрыми интерфейсами с низкими задержками для создания гибридных вычислительных кластеров в едином корпусе, обеспечивая поступательное ускорение всего софта. Технические достижения этого года подчеркивают необходимость архитектурных разработок для удовлетворения постоянно растущего спроса на высокую производительность в условиях, когда любые рабочие нагрузки – от настольных систем до дата-центров – становятся обширнее, сложнее и разнообразнее чем когда-либо».

Новая микроархитектура ядра Efficient, представленная Intel ранее с кодовым названием Gracemont, разработана для энергоэффективной производительности и оптимальной разгрузки фоновых задач в современных режимах многозадачности. Это самая энергоэффективная x86 микроархитектура Intel, занимающая немного площади на кристалле и позволяющая многопоточным приложениям эффективно распределяться по ядрам. E-ядро работает в широком диапазоне частот и экономит энергию за счет пониженного напряжения питания, обладая при этом резервом для наращивания частоты и увеличения производительности под более тяжелыми нагрузками.

E-ядро использует передовые технологии, для приоритезации нагрузок без перерасхода процессорной мощности напрямую повышает производительность с помощью функций, увеличивающих число инструкций на такт.

Кэш подсистемы предсказания ветвлений на 5 тысяч записей для более точного результата; 64-килобайтный кэш инструкций позволяет обрабатывать больше кода и экономить ресурсы подсистемы за счет более редких обращений к внешней памяти; первый декодер длины инструкций Intel, который делает предварительную обработку данных до запроса; кластеризованный внеочередной (out-of-order) декодер, который позволяет декодировать до 6 инструкций за такт с сохранением уровня энергоэффективности; расширенный исполнительный модуль с 5 регистрами переназначения и 8 регистрами завершения инструкций, буфером на 256 внеочередных инструкций и 17 исполнительными портами; надежные функции безопасности, включая аппаратную защиту от кибератак Intel Control-Flow Enforcement Technology (CET) и защиту от перенаправлений Intel Virtualization Technology; реализация расширения системы команд AVX наряду с новыми дополнениями для поддержки целочисленных операций ИИ.

По сравнению с наиболее распространенной процессорной микроархитектурой Skylake, ядро Efficient в однопоточном режиме обеспечивает на 40% большую производительность при том же уровне энергопотребления, или сравнимую производительность при снижении энергопотребления на 40%. Четыре физических ядра Efficient обеспечивают на 80% больше производительности при меньшем энергопотреблении, нежели четыре потока двух физических ядер Skylake, или такую же производительность при энергопотреблении, уменьшенном на 80%.

Новая микроархитектура ядра Performance, представленная Intel ранее с кодовым названием Golden Cove, дает снижение задержек и повышение производительности в однопоточных приложениях. Увеличение объема кода и данных приложений требует больше ресурсов и большей пропускной способности. Новая процессорная микроархитектура Performance значительно повышает общую производительность и обеспечивает лучшую поддержку приложений с большим объемом кода.

P-ядро отличается более широким, глубоким и интеллектуальным исполнительным конвейером: 6 декодеров (ранее 4), кэш на 8 микроопераций (ранее до 6), 6 портов переименования/распределения (ранее 5), 12 исполнительных портов (ранее 10); больше файлы регистров, больше файлы физических регистров, более глубокий буфер переупорядочивания инструкций на 512 записей; повышенная точность предсказания ветвлений, уменьшенная эффективная латентность кэша L1, полная предикативная оптимизация записи кэша L2.

Ядро Performance – это самое производительное процессорное ядро из когда-либо созданных Intel, в котором удалось добиться снижения задержек и повышения производительности в однопоточных приложениях благодаря росту производительности до 19% при тестах на большом количестве популярных приложений по сравнению с архитектурой Intel Core 11 поколения (Cypress Cove) при сравнимой тактовой частоте (общий показатель роста считается как среднее геометрическое); упору на параллелизм и наращиванию исполнительного параллелизма; расширениям Intel Advanced Matrix – встроенным средствам ускорения ИИ нового поколения, предназначенным для инференса глубокого обучения и повышения эффективности обучения. Они включают выделенные аппаратные модули и новую архитектуру набора инструкций для значительного ускорения операций перемножения матриц; оптимизации работы с приложениями, имеющими большой объем данных и кода, в том числе c точки зрения уменьшения задержек.

Клиентская архитектура Intel следующего поколения с рабочим названием Alder Lake представляет собой первую высокопроизводительную гибридную архитектуру компании, в которой впервые интегрированы два типа ядер – Performance и Efficient – для обеспечения высокого уровня производительности на любых типах задач. Alder Lake производится по технологическому процессу Intel 7, поддерживает новейшие типы памяти и быстрый ввод-вывод.

Alder Lake обеспечит высокий уровень производительности, который будет поддерживаться всеми типами клиентских устройств – от ультрапортативных ноутбуков до систем для энтузиастов и коммерческих настольных ПК, благодаря использованию единой высокомасштабируемой процессорной архитектуры в трех ключевых сегментах.

Высокопроизводительные настольные ПК с процессорным сокетом и чипсетом, энергоэффективностью, современной памятью и системой ввода-вывода; высокопроизводительные мобильные BGA-корпуса с поддержкой улучшенного графического ядра Xe и подключением Thunderbolt 4; тонкие низкопотребляющие корпуса с высокой плотностью размещения компонентов и оптимизированными портами ввода-вывода и питания.

Целью такой высокомасштабируемой архитектуры является удовлетворение растущих потребностей в вычислениях и быстром обмене данными без повышения энергопотребления. Для решения этой задачи Intel разработала три независимые внутренние коммуникационные архитектуры, каждая из которых основана на эвристике в реальном времени со следующими требованиями.

Внутрипроцессорное соединение может поддерживать скорости до 1000 ГБ/с – то есть, 100 ГБ/с на ядро или кластер, соединяет ядра и графику через кэш-память последнего уровня с памятью; обладает широким динамическим частотным диапазоном и может оперативно выбирать маршрут передачи данных для оптимизации соотношения задержки и производительности на основе фактической загрузки межсоединения; динамически настраивает политику работы кэша последнего уровня – инклюзивную или не инклюзивную – в зависимости от степени загруженности; интерфейс ввода-вывода со скоростью до 64 ГБ/с соединяет различные типы устройств и может плавно изменять скорость без нарушения нормальной работы устройств, выбирая скорость соединения в соответствии с требуемым объемом передачи данных; интерфейс памяти со скоростью передачи данных до 204 Гбит/с может динамически подстраивать ширину и скорость шины для поддержки высокой пропускной способности, низких задержек и низкого потребления энергии в нескольких рабочих точках.

Для эффективной и бесперебойной работы вычислительных ядер с операционной системой Intel разработала улучшенную технологию планирования под названием Intel Thread Director. Встроенная непосредственно в сам процессор, технология Intel Thread Director отслеживает низкоуровневую телеметрию о состоянии ядра и сочетании инструкций вычислительного потока, позволяя операционной системе размещать нужный поток в нужном ядре в нужное время. Технология Intel Thread Director является динамической и адаптивной, она подсказывает что делать планировщику в реальном времени в соответствии с вычислительными нуждами, в отличие от статичной привязки потоков к ядрам по заданным правилам.

Традиционно операционная система принимала решения на основе ограниченной информации, например, разделяя приоритетные и фоновые процессы. Технология Intel Thread Director добавляет новое измерение за счет использования аппаратной телеметрии для направления потоков, требующих большей производительности для подходящего в данный момент ядра Performance; отслеживания сочетания инструкций, состояния ядра и другой соответствующей детализированной телеметрии микроархитектуры, что помогает операционной системе принимать более рациональные решения планирования; оптимизации Intel Thread Director для лучшей производительности в Windows 11 благодаря сотрудничеству с Microsoft; расширения PowerThrottling API, который позволяет разработчикам явно указывать атрибуты качества обслуживания для своих потоков; применение новой классификации EcoQoS, которая оповещает планировщик о предпочтительной энергоэффективности потока (такие потоки планируются в ядрах Efficient).

Xe HPG – это новая микроархитектура дискретной графики, разработанная для игровых систем и решения творческих задач. Микроархитектура Xe HPG используется в семействе Alchemist, и первые соответствующие продукты появятся на рынке в первом квартале 2022 года под торговой маркой Arc. Микроархитектура Xe HPG базируется на новом ядре Xe для вычислительных систем с возможностью масштабирования.

План выпуска клиентских графических решений включает решение Alchemist, ранее известное как DG2, а также последующих Battlemage, Celestial и Druid. Во время презентации Intel представила подробности микроархитектуры и продемонстрировала работу опытных образцов Alchemist на примере реального геймплея, теста работоспособности с игровым движком Unreal Engine 5 и возможностей новой технологии суперсэмплинга под названием XeSS на основе нейронных сетей.

Системы-на-кристалле Alchemist на базе микроархитектуры Xe HPG спроектированы для обеспечения высокой масштабируемости и вычислительной эффективности со следующими ключевыми возможностями: до 8 слоев рендеринга с фиксированной функцией для DirectX 12 Ultimate; новые ядра Xe с 16 векторными и 16 матричными движками (называемыми XMX – Xe Matrix eXtensions), кэшем и общей локальной памятью; новые модули трассировки лучей с поддержкой технологий DirectX Raytracing (DXR) и Vulkan Ray Tracing; увеличение частоты в 1,5 раза и соотношения производительности на ватт в 1,5 раза по сравнению с микроархитектурой Xe LP за счет сочетания новой архитектуры, логического построения, схемотехники, технологии производства и оптимизации программного обеспечения; производство с нормами технологического процесса TSMC N6.

При разработке графики Intel использует подход, ориентированный на программное обеспечение: архитектура Xe создается в тесном сотрудничестве с разработчиками в соответствии с отраслевыми стандартами; первый высокопроизводительный игровой графический процессор Intel ставит во главу производительность и качество благодаря разработке драйвера с единым унифицированным исходным кодом для интегрированных и дискретных графических продуктов; Intel завершила рефакторинг ключевых компонентов графического драйвера, в том числе диспетчера памяти и компилятора, что привело к повышению производительности в процессорозависимых играх до 18% и уменьшению времени загрузки игры до 25%.

XeSS использует преимущество реализованных в Alchemist ускорителей ИИ для новой технологии масштабирования, которая обеспечивает высокую производительность и высокое качество изображения. Технология использует глубокое обучение для синтеза изображений, близких по качеству к рендерингу с высоким разрешением. Благодаря XeSS, игры, в которые можно играть только при низких настройках качества или разрешения, могут демонстрировать плавный игровой процесс с более высокими настройками качества и разрешения.

Работа XeSS заключается в реконструкции деталей на субпиксельном уровне из соседних пикселей, а также из предыдущих кадров с компенсацией движения; реконструкцию выполняет нейронная сеть, обученная обеспечивать высокую производительность и качество, с увеличением производительности в 2 раза; XeSS обеспечивает суперсэмплинг на базе ИИ с помощью набора инструкций DP4a на широком списке оборудования, включая интегрированную графику; несколько разработчиков игр задействованы в работе над XeSS. SDK для первой версии XMX будет доступен независимым разработчикам программного обеспечения уже в этом месяце, а версия с DP4a будет доступна позже в этом году.

Появление Sapphire Rapids является большим шагом вперед в развитии платформы Intel для дата-центров. Процессор обеспечивает существенный прирост вычислительной мощности в центрах обработки данных с динамичными и постоянно растущими нагрузками. Процессор оптимизирован для высокой производительности рабочих нагрузок с такими концепциями эластичных вычислений как облако, микросервисы и ИИ.

В основе Sapphire Rapids заложена модульная архитектура на базе технологии корпусирования Intel EMIB для обеспечения значительной масштабируемости при сохранении преимуществ монолитного процессорного интерфейса. Sapphire Rapids обеспечивает единую сбалансированную архитектуру Unified Memory Access, где каждый вычислительный поток имеет полный доступ ко всем ресурсам всех модулей, включая кэши, память и ввод-вывод. В итоге достигаются стабильно низкие задержки и высокая пропускная способность между всеми модулями микросхемы.

Процессор Sapphire Rapids производится по технологическому процессу Intel 7 и включает в себя новую микроархитектуру процессорного ядра Intel Performance, которая разработана для повышения производительности и уменьшения задержек в однопоточных приложениях.

Дизайн Sapphire Rapids включает в себя широкий набор ускорителей для дата-центров, включая новую архитектуру набора команд и встроенные IP-блоки для увеличения производительности в самом широком диапазоне пользовательских нагрузок и сценариев использования. Список новых встроенных ускорителей включает: архитектуру интерфейса ускорителей Intel® Accelerator Interfacing Architecture (AIA) – поддержка эффективного управления, синхронизации и передачи сигналов для ускорителей и устройств; инструкции Intel Advanced Matrix Extensions (AMX) – новый механизм, впервые представленный в Sapphire Rapids, обеспечивает значительное ускорение тензорных расчетов, которые лежат в основе алгоритмов глубокого обучения. Он может обеспечить значительное ускорение вычислительных возможностей за счет 2K INT8 и 1K BFP16 операций за такт. Тестирование ранних образцов Sapphire Rapids показало, что оптимизированные внутренние микротесты матричного умножения работают в 7 раз быстрее с использованием новых инструкций набора Intel AMX по сравнению с использованием инструкций Intel AVX-512 VNNI, обеспечивая существенный прирост производительности при выполнении ИИ-задач обучения и вывода; ускоритель Intel Data Streaming Accelerator (DSA) предназначен для разгрузки наиболее распространенных задач перемещения данных, которые приводят к значительному потреблению ресурсов при масштабировании дата-центров. Intel DSA обеспечивает обработку таких ресурсоемких задач для повышения общей производительности за счет перемещения данных между процессором, памятью и кэшами, а также всей подключенной памятью, хранилищем и сетевыми устройствами.

Эти архитектурные усовершенствования позволяют Sapphire Rapids обеспечить высокую производительность для широкого списка рабочих нагрузок и моделей развертывания в облаке, дата-центре, сети и на интеллектуальной периферии. Процессор создан для перехода на новые отраслевые технологии с использованием усовершенствованной памяти и решений ввода-вывода нового поколения, включая технологии PCIe 5.0, CXL 1.1, DDR5 и HBM.

Инфраструктурный процессор (Infrastructure Processing Unit, IPU) является программируемым сетевым устройством, с помощью которого поставщики облачных и коммуникационных услуг могут снизить нагрузку на центральные процессоры и высвободить их ресурсы.

Архитектура Intel на базе IPU обладает рядом существенных преимуществ: четкое разделение функций инфраструктуры и рабочих нагрузок пользователя позволяет клиентам полностью контролировать центральный процессор; оператор облачных услуг может переложить инфраструктурные задачи на IPU, увеличивая тем самым пользовательскую загрузку CPU и выгоду от эксплуатации системы; инфраструктурные процессоры могут управлять трафиком системы хранения, что позволяет сократить задержки при эффективном использовании емкости хранилища с бездисковой серверной архитектурой. Использование IPU позволяет заказчикам лучше использовать ресурсы за счет безопасного, программируемого и стабильного решения со сбалансированными ресурсами обработки и хранения данных.

Соглашаясь с принципом «универсального решения не существует», Intel предложила расширенное видение своей архитектуры IPU и рассказала о новых представителях семейства IPU, которые предназначены для решения ряда сложных проблем в разнородных и рассредоточенных центрах обработки данных.

Mount Evans является первым IPU компании Intel в формате специализированной микросхемы (ASIC). Mount Evans, который спроектирован и разработан вместе с ведущим поставщиком облачных услуг, объединил в себе опыт нескольких поколений программируемых матриц SmartNIC.

Mount Evans готов к гипермасштабируемым вычислениям, он обеспечивает разгрузку высокопроизводительной сети и виртуализации хранилища при сохранении высокой степени контроля; представляет лучший в своем классе программируемый механизм обработки пакетов с поддержкой таких сценариев использования, как межсетевые экраны и виртуальная маршрутизация; реализует интерфейс хранилища NVMe с аппаратным ускорением, масштабируемый с технологией Intel Optane для эмуляции устройств NVMe; поддерживает расширенное ускорение шифрования и сжатия данных с использованием высокопроизводительной технологии Intel Quick Assist; может быть запрограммирован с помощью уже существующих, традиционно используемых программных сред, включая DPDK, SPDK. Конвейер может быть настроен с помощью программного языка P4, впервые разработанного для маршрутизаторов компании Barefoot, приобретенной Intel.

Oak Springs Canyon является платформой IPU, построенной на базе Intel Xeon-D и программируемых матриц (FPGA) Intel® Agilex™, индустриальных лидеров по мощности, эффективности и производительности для разгрузки функций виртуализации сети, таких как Open Virtual Switch (OVS), и функций хранения, таких как NVMe over Fabric и RoCE v2. Обладает усиленным модулем шифрования для большей безопасности высокоскоростного сетевого интерфейса 2x 100Gb Ethernet; позволяет партнерам и заказчикам Intel настраивать свои решения с помощью масштабируемой программно-аппаратной инфраструктуры Intel Open FPGA Stack с доступным исходным кодом; может быть запрограммирован с помощью привычных программных сред, включая DPDK и SPDK, которые оптимизированы для архитектуры x86.

Платформа Intel N6000 Acceleration Development Platform с кодовым названием Arrow Creek представляет собой адаптер SmartNIC, созданный для совместного использования с серверами на базе процессоров Xeon. Ее особенности: использование мощной, эффективной и производительной программируемой матрицы Intel Agilex FPGA. Контроллер Intel Ethernet 800 series для высокопроизводительной сети 100G; поддержка нескольких инфраструктурных рабочих нагрузок, позволяющих поставщикам телекоммуникационных услуг предлагать гибкие ускоренные приложения, такие как Juniper Contrail, OVS и SRv6, с упором на успех Intel PAC-N3000, которые уже внедряются рядом ведущих мировых поставщиков телекоммуникационных услуг.

Решение Ponte Vecchio, выполненное на базе микроархитектуры Xe HPC, обеспечивает лучшие в отрасли показатели операций с плавающей запятой в секунду (FLOPs) и вычислительной плотности. Решение предназначено для ускорения рабочих нагрузок ИИ, высокопроизводительных вычислений (HPC) и расширенной аналитики. Intel представила информацию об особенностях микроархитектуры Xe HPC, в том числе о 8 векторных и матричных движках (XMX – Xe Matrix eXtensions) на каждое ядро Xe; данные о слоях, стеках и модулях, включая технологические нормы производства модулей Compute, Base и Xe Link. Intel сообщила о том, что микросхемы степпинга A0 обеспечивают производительность более 45 TFLOPS FP32, пропускную способность интерфейса памяти более 5 терабайт в секунду и пропускную способность подключения более 2 терабайт в секунду. Intel также продемонстрировала производительность инференса ResNet на уровне более 43 тысяч изображений в секунду и обучения ResNet на уровне более 3400 изображений в секунду. Оба показателя являются заявкой на ведущие позиции по производительности.

Ponte Vecchio состоит из нескольких сложных структур в виде базовых модулей. Они собираются воедино с помощью технологии EMIB, которая обеспечивает низкое потребление энергии и высокую скорость соединения между модулями. Все они собраны при помощи технологии Foveros, которая обеспечивает трехмерное послойное расположение кристаллов для высокой плотности вычислительной мощности и межблочных соединений. Высокоскоростное межсоединение MDFI позволяет масштабировать решение с одного до двух стеков.

Вычислительный тайл Compute Tile, является «сердцем» Ponte Vecchio и представляет собой плотно собранный пакет ядер Xe. Один модуль содержит 8 ядер Xe с общим объемом кэша L1 4 МБ, что обеспечивает энергоэффективные вычисления; создан с использованием самого передового технологического процесса TSMC N5; Intel заложила основу для использования этого техпроцесса, разработав соответствующую инфраструктуру проектирования, инструментарий и методологию; модуль обладает чрезвычайно малым зазором между контактами – всего 36 микрон, для трехмерной компоновки с помощью технологии Foveros.

Базовый тайл Base Tile, является «соединительной тканью» Ponte Vecchio. Это крупный кристалл, созданный с применением технологического процесса Intel 7 и оптимизированный для технологии корпусирования Foveros.

Модуль Base Tile – это место, где все сложные компоненты ввода-вывода и скоростного обмена данными объединяются с инфраструктурой микросхемы – шиной PCIe Gen5, памятью HBM2e, каналами MDFI для подключения мостиков между модулями и EMIB; сверхскоростное трехмерное подключение с двухмерным межсоединением и малыми задержками превращают его в «машину безграничного подключения»; команда разработчиков Intel работала над соблюдением требований по производительности, плотности размещения контактов и электромагнитной целостности.

Модуль Xe Link Tile обеспечивает соединение между графическими процессорами, поддерживая 8 каналов на модуль. Критически важен для масштабирования систем HPC и ИИ; ориентирован на самые быстрые блоки SerDes, поддерживаемые Intel – до 90G; этот тайл был добавлен для обеспечения масштабирования решений для суперкомпьютера Aurora с производительностью экзафлопсного уровня.

Ponte Vecchio в работе, проходит стадию валидации и уже поставляется в ограниченных пробных количествах заказчикам. Ponte Vecchio будет выпущен в 2022 году для рынков HPC и ИИ.

Отраслевая инициатива oneAPI предоставляет открытый стандартизированный унифицированный программный стек, который является решением, не зависимым от конкретной архитектуры и производителя. Он позволяет разработчикам перейти от проприетарных языков программирования и программных моделей к индустриальным стандартам. В настоящее время существуют реализации языка Data Parallel C++ (DPC++) и библиотеки oneAPI для графических процессоров NVIDIA, процессоров AMD и процессоров Arm. oneAPI широко применяется независимыми разработчиками программного обеспечения, поставщиками операционных систем, конечными пользователями и научным сообществом. Ключевые отраслевые лидеры помогают развивать спецификацию для поддержки дополнительных моделей использования и архитектур. Intel также предлагает коммерческий продукт, в который входит базовый инструментарий oneAPI Base Toolkit, помимо спецификаций языка и библиотек предлагающий компиляторы, анализаторы производительности и корректности, отладчики и инструменты для миграции кода.

oneAPI обеспечивает переносимость кода между архитектурами, повышая продуктивность разработчиков и эффективность инноваций: насчитывается более 200 тысяч уникальных установок инструментария oneAPI от Intel; на рынке более 300 приложений, использующих унифицированную программную модель oneAPI; более 80 приложений для HPC и ИИ работают с микроархитектурой Xe HPC с применением инструментов Intel oneAPI; в предварительной версии спецификации 1.1, выпущенной в мае, добавлены новые программные интерфейсы для задач глубокого обучения и расширения для библиотек рендеринга с трассировкой лучей. Ожидается, что работа над ними будет закончена к концу года.

Владимир Бахур