Модуль OAM 600 Вт графического процессора Intel Ponte Vecchio управляет жидкостным охлаждением

Текст: Чжие Лю, 26 марта 2021 г.

Вода под мостом

Появились новые документы Intel, опубликованные через Komachi_Ensaka, в которых более подробная информация о готовящейся к выпуску видеокарте Intel «Ponte Vecchio» Xe-HPC представлена ​​в презентации Open Accelerator Module (OAM). В отличие от форм-фактора PCIe, OAM идеально подходит для сред, в которых масштабируемость является главным приоритетом.

Ponte Vecchio ни в коем случае не является маленьким графическим процессором, хотя он может поместиться в ладонях ваших рук. Имея более 100 миллиардов транзисторов, Ponte Vecchio состоит из 47 плиток (или чиплетов. как бы вы их ни называли). Он содержит 16 вычислительных плиток Xe HPC, восемь плиток кэша Rambo, две базовые плитки Xe, 11 ссылок EMIB, две плитки ввода-вывода Xe Link и восемь стеков HBM.

В то время как Intel дразнила, что Ponte Vecchio обеспечивает чистую производительность до 1 петафлопа, производитель микросхем держал в секрете более тонкие детали. Просочившиеся документы добавляют еще один фрагмент к загадке: расчетная тепловая мощность Понте Веккьо (TDP).

Согласно документам, предоставленным через Komachi_Ensaka, уважаемого производителя оборудования, Intel предложит Ponte Vecchio в качестве единого OAM, рассчитанного на 600 Вт. Это довольно значительный TDP, который объясняет необходимость жидкостного охлаждения. В настоящее время неясно, предложит ли Intel Ponte Vecchio с более низкими тепловыми требованиями, позволяющими использовать воздушное охлаждение.

В отличие от лучших видеокарт для игр, Xe-HPC ориентирована на высокопроизводительные вычисления и дебютирует в грядущем суперкомпьютере Aurora Exascale в Аргоннской национальной лаборатории. Суперкомпьютер, который оценивается в 500 миллионов, имеет более 9000 узлов, каждый из которых использует пару мощных процессоров Intel Xeon Scalable Sapphire Rapids и шесть видеокарт Ponte Vecchio. Intel никогда не уточняла, будет ли Aurora использовать OAM Ponte Vecchio 600 Вт, но, учитывая масштабы инфраструктуры, она, вероятно.

И.
Текущая ведущая система Top500 потребляет 29,9 МВт и обеспечивает даже половину производительности Aurora.
В настоящее время многие детали отсутствуют, но если вы сравните 1 PFlops FP16 (наиболее вероятно) при 600 Вт с самой продаваемой картой nVidia A100 с 0,31 PFlops FP16 при 400 Вт, дизайн Intel будет намного более эффективным.

Intel Xe-HPC, 600 Вт (предположительно): 1,66 Тфлопс / Ватт
nVidia A100, 400 Вт: 0,78 Тфлопс / Вт
AMD Instinct MI100, 300 Вт: 0,62 Тфлопс / Вт

RTX 3090, 350 Вт: 0,81 Тфлопс / Ватт
RX 6900 XT, 300 Вт: 0,15 Тфлопс / Вт (насколько мне известно, без MMA)

По моим оценкам, потребление электроэнергии в день составляет 150 000, что означает, что в день будет работать около 250 000 человек, включая персонал и здание.
Если я нахожусь в парке мячей, то эксплуатация будет стоить примерно столько же, сколько и покупка при использовании в течение 6 лет. Вероятно будет
за время своего существования обновили немало, так что, возможно, 1,5 миллиарда на сборку, обновление и эксплуатацию его так долго.

Трудно придумать что-то лучшее, чтобы тратить налоговые доллары на такую ​​инфраструктуру фундаментальных исследований.

Даже с учетом того, что закон Мура заметно замедляется для процессоров, вычислительные модули графических процессоров компенсируют провисание и сокращают
крайние исследования продвигаются почти такими же темпами.

И.
Текущая ведущая система Top500 потребляет 29,9 МВт и обеспечивает даже половину производительности Aurora.
В настоящее время многие детали отсутствуют, но если вы сравните 1 PFlops FP16 (наиболее вероятно) при 600 Вт с самой продаваемой картой nVidia A100 с 0,31 PFlops FP16 при 400 Вт, дизайн Intel будет намного более эффективным.

READ  Хакеры Intel украли неопубликованную информацию о доходах с корпоративного сайта

Intel Xe-HPC, 600 Вт (предположительно): 1,66 Тфлопс / Ватт
nVidia A100, 400 Вт: 0,78 Тфлопс / Вт
AMD Instinct MI100, 300 Вт: 0,62 Тфлопс / Вт

RTX 3090, 350 Вт: 0,81 Тфлопс / Ватт
RX 6900 XT, 300 Вт: 0,15 Тфлопс / Вт (насколько мне известно, без MMA)

«Один петафлопс равен 1 000 терафлопс, или 1 000 000 000 000 000 FLOPS».

«FLOPS может быть записан с различными показателями точности, например, в списке суперкомпьютеров TOP500 компьютеры ранжируются по 64-битным (формат с плавающей запятой двойной точности) операциям в секунду, сокращенно FP64. Подобные меры доступны для 32-битных (FP32 ) и 16-битные (FP16) операции «.

Есть несколько процессоров, которые потребляют много ватт, которые вы как бы не учитываете в своих расчетах.

В настоящее время мы собираемся выйти на территорию exaFLOPS (10 ^ 18), используя FP64 в качестве метрики, как это было уже несколько десятилетий. A100 выполняет 9,7 терафлопс вычислений FP64, что преобразуется в 0,0097 петафлопс вычислений FP64. Если вы хотите верить в маркетинг Intel так называемого one petaFLOP (

В 100 раз быстрее, чем A100), то у меня есть мост, который я могу продать вам, расположенный в одном из лучших пляжных отелей Луизианы.

https://en.wikipedia.org/wiki/TOP500https://en.wikipedia.org/wiki/FLOPS
Плохие слухи начинаются с сайтов / блогов / твитов с плохими слухами, подобных этому.

«18 марта 2019 года Министерство энергетики США и Intel объявили, что первый суперкомпьютер exaFLOPS будет запущен в Аргоннской национальной лаборатории к концу 2021 года. Компьютер под названием Aurora должен быть доставлен в Аргонн компаниями Intel и Cray (ныне Hewlett Packard Enterprise) и, как ожидается, будет использовать Intel Xe GPGPU вместе с будущим масштабируемым процессором Xeon Scalable и будет стоить 600 миллионов долларов США.
7 мая 2019 года Министерство энергетики США объявило о заключении контракта с Cray (ныне Hewlett Packard Enterprise) на создание суперкомпьютера Frontier в Национальной лаборатории Ок-Ридж. Ожидается, что Frontier будет запущен в 2021 году и, с производительностью более 1,5 эксафлопс, должен стать самым мощным компьютером в мире.
4 марта 2020 года Министерство энергетики США объявило о заключении контракта с Hewlett Packard Enterprise и AMD на создание суперкомпьютера El Capitan стоимостью 600 миллионов долларов США, который будет установлен в Ливерморской национальной лаборатории Лоуренса (LLNL). Ожидается, что он будет использоваться в первую очередь (но не исключительно) для моделирования ядерного оружия. Впервые о El Capitan было объявлено в августе 2019 года, когда Министерство энергетики и LLNL объявили о покупке суперкомпьютера Shasta у Cray. El Capitan будет запущен в эксплуатацию в начале 2023 года и будет иметь производительность 2 эксафлопа в секунду. Он будет использовать процессоры AMD и графические процессоры с 4 графическими процессорами Radeon Instinct на процессор EPYC Zen 4 для ускорения задач искусственного интеллекта. Эль-Капитан должен потреблять около 40 МВт электроэнергии ».

https://en.wikipedia.org/wiki/Exascale_computing
Вы все еще думаете, что у Intel есть так называемый GPU с одним petaFLOP или что-то подобное (например, вычислительный блок или CU)? Как AMD / Nvidia все еще удается заключать контракты на еще более крупные и быстрые суперкомпьютеры перед лицом так называемого Intel petaFLOP CU?

Я в ударе.
https://en.wikipedia.org/wiki/Aurora_(supercomputer)
Таким образом,> 9000 узлов ЦП, «каждый из которых состоит из двух процессоров Intel Xeon Sapphire Rapids, шесть графических процессоров Xe» составляет не менее 69000 = не менее 54000 узлов Xe.

READ  Airbnb нанимает Джони Айва для разработки продуктов и услуг нового поколения

Раджа Кодури дразнит «Петафлопс на вашей ладони» Intel Xe-HPC Ponte Vecchio GPU.
https://www.techpowerup.com/280106/raja-koduri-teases-petaflops-in-your-palm-intel-xe-hpc-ponte-vecchio-gpu
Таким образом, «петафлопс на вашей ладони» будет переводиться как минимум в два петафлопс вычислений FP64, но поскольку маркетинг Intel всегда врет, мы будем использовать FP16, поэтому каждый Xe имеет как минимум половину петафлопов вычислений FP64 (например, как минимум два петафлоп вычисления FP16). поэтому 0,5 54000 = 27 экзафлопс вычислений FP64 только для Xe! Кто-то лжет вам, и это не Министерство энергетики или Министерство обороны.

Прямо из пресловутой конской пасти (2021-03-25).
https://www.alcf.anl.gov/news/preparing-exascale-aurora-supercomputer-help-scientists-visualize-spread-cancer
«Аргоннская национальная лаборатория Министерства энергетики США (DOE) станет домом для одного из первых в стране суперкомпьютеров экзафлопсного типа, когда Aurora прибудет в 2022 году. Рэндлс. один из немногих избранных исследователей, выбранных для участия в программе Aurora Early Science Program (ESP) ALCF. Ее проект будет одним из первых, запущенных на Авроре, которая будет доставлена ​​в Аргонну в 2022 году ».
https://www.anl.gov/article/preparing-for-exascale-aurora-supercomputer-to-help-scientists-visualize-the-spread-of-cancer
Фактическая дата. 2022 год.

«Один петафлопс равен 1000 терафлопс, или 1 000 000 000 000 000 FLOPS».

«ФЛОПЫ могут быть записаны в разных тактах.

1/3 PFlops) через их тензорные ядра v3 и MMA-операции.
И я правильно измерил / сравнил все образцовые конструкции в соответствии с их лучшей производительностью FP16 в моем первоначальном посте. Итак, что вы не поняли?

«Вы все еще думаете, что у Intel есть так называемый один petaFLOP GPU?»
Конечно, знаю, потому что вы просто не поняли, о чем я писал. В цифрах нет ничего плохого, и также очень вероятно, что такая большая конструкция даже превышает производительность FP16 в 1,0 PFlops с MMA-операциями. (Кстати, забавно, как сильно вы подчеркиваете «s» в «Петафлопс на ладони»; кроме того, это требование уже выполнено, если бы оно было всего 1,1 ПФлопс.;))

И нет, мне (или кому-то еще) никто не врет. Проблема здесь в том, что вы путаете разные рабочие нагрузки, типы вычислений и единицы измерения.

И, возможно, вы упустили этот факт во время своей ошибочной цитатной вакханалии: система Top500 Summit использует карты Volta (GV100), которые предоставляют только тензорные ядра v1, но при этом обеспечивают производительность 0,13 PFlops FP16 для рабочих нагрузок AI. Система имеет в общей сложности более 27600 графических процессоров и, следовательно, совокупная / теоретическая (только для графических процессоров) производительность составляет

3450 петафлопс или

3.5 ExaFlops уже!
При текущем значении Rmax, равном

149 PFlops, системы по-прежнему нет. 2 в списке Top500, но опять же, это производительность FP64, а не производительность FP16, о которой я говорил, и, очевидно, также Р. Кодури.
И здесь также собственный DGX-суперкомпьютер nVidia Selene (в настоящее время № 5 в Top500) использует новейшие карты A100. Он имеет Rmax

63 PFlops, но: «По этой метрике, используя тензорное ядро ​​A100 3-го поколения, Selene обеспечивает пиковую производительность AI более 2795 петафлопс, или почти 2,8 экзафлопс». )

Чтобы сделать математику, очень неуверенно. потому что сделано много предположений:
ок. 9000 узлов для Авроры
1 узел с 6x Xe-HPC (и 2x Xeon)
при условии, что только 1 PFlops FP16 на Ponte Vecchio
также при условии, что используется эта большая 600-ваттная версия)
следовательно, около 4 кВт на узел.
36 МВт
Производительность 54000 PFlops или около 54 ExaFlops FP16 / AI через GPGPU
около 1,5 ExaFlops / MW (Selene достигает около 1,08 ExaFlops / MW, гораздо более старый Summit дает только около 0,34 ExaFlops / MW). Оценки Rmax и рейтинг Top500 более проблематичны, поскольку Intel не раскрывает любые показатели производительности FP64 для HPC и размер одной плитки вычислений HPC неизвестен, поэтому нет смысла пытаться экстраполировать из Xe-HP с производительностью FP32 около 10 терафлопс для одной плитки вычислений. (Кроме того, состав функциональных блоков в HPC и HP, скорее всего, будет значительно отличаться.)
Но мы можем повернуть процесс вспять и предположить, что система достигнет (только точно) производительности FP64 в 1 ExaFlops.
Если игнорировать процессоры Xeon, у нас имеется около 54 000 пакетов / сокетов Xe-HPC, и для достижения этой цели один «чип» должен обеспечить всего лишь около 18,5 терафлопс FP64, что уже находится в диапазоне сегодняшнего оборудования и, следовательно, ничего. особый. На самом деле более вероятно, что такой массивный «чип» уже достигнет еще большего, а также производительность всей системы, скорее всего, превысит 1,0 ExaFlops FP64 (Rmax).

READ  Как Подключить Кабельное Телевидение К Телевизору

) Примечание: Instinct MI100 имеет пиковую производительность FP64 11,5 терафлопс. A100 имеет 9,7 Тфлопс, но для Ampere-Design это только половина правды, потому что чип имеет дополнительную функциональность FP64 внутри Tensor Cores v3. (С операциями FP64-MMA теоретически A100 может достигать 19,5 Тфлопс.)

модуль, процессора, intel, ponte

Я предполагаю, что nVidia рассчитывает производительность в этой цитате с учетом функции разреженности. Без него (следовательно, базовая производительность FP16 / bfloat16 через Tensor Cores v3) система должна достичь 1,4 ExaFlops. По-прежнему впечатляет для этой относительно небольшой системы. (В системе используется всего около 4480 A100.)

Intel уже подчеркивала тот факт, что они довольно гибкие в соответствии с конструкциями, подобными Ponte Vecchio, благодаря Foveros / EMIB, поэтому они могут адаптировать различные конструкции для разных клиентов и вариантов использования. Например, можно также предоставить дизайн только для AI или FP64 с гораздо большей производительностью вместо универсального дизайна для общего назначения.

«54 000 PFlops или около 54 ExaFlops AI производительность через GPGPU»

Аврора. в общей сложности, едва справится с одним exaFLOP в FP64. Тебе нужно перестать лгать.

Ух ты, уже два раза тебе удалось продемонстрировать свою дислексию. или у вас есть другая проблема? Вы должны научиться правильно читать, потому что вы все равно сравниваете яблоки и апельсины.
И, откровенно говоря, обвинять меня во лжи, если очевидно, не понимаешь простых фактов, хотя и подробно описанных.

Aurora будет системой ExaFlops и, следовательно, будет достигать этой производительности не только теоретически, но и в соответствии с Rmax в Top500 (просто потому, что контракт требует как минимум 1 ExaFlops системы FP64 / HPC).
И, как указывалось ранее, доступные в настоящее время и гораздо более старые системы уже легко превышают производительность FP16 / AI на 1 ExaFlops, поэтому совершенно очевидно, что новая система с совершенно новой архитектурой и использованием современной литографии значительно превзойдет эти значения производительности.. поэтому производительность «54 ExaFlops FP16 / AI» очень вероятна и, возможно, даже оценена слишком консервативно, потому что уже A100 достигает 0,31 PFlops с одним, менее сложным, монолитным чипом.