HPE Cray Supercomputing GX5000: Blade-Серверы для HPC и ИИ — Обзор и Анализ | Server360.ru

Компания Hewlett Packard Enterprise (HPE) официально представила новое семейство blade-серверов, разработанных специально для суперкомпьютерной платформы Cray Supercomputing GX5000. Это решение открывает новую эру в области высокопроизводительных вычислений (HPC — High Performance Computing), предлагая беспрецедентную плотность размещения вычислительных ядер, высокую энергоэффективность и масштабируемость для самых требовательных научных и индустриальных задач. В анонс входят три типа blade-серверов — CPU- и GPU-ориентированные, а также специализированная система хранения данных (СХД) и межсетевой интерконнект нового поколения.

Новые blade-серверы HPE Cray Supercomputing: архитектура будущего

Архитектура платформы HPE Cray Supercomputing GX5000 была спроектирована с нуля для поддержки задач искусственного интеллекта (ИИ), машинного обучения (ML), моделирования сложных физических процессов и обработки экзафлопсных объёмов данных. В её основе — три новых blade-сервера:

HPE Cray Supercomputing GX250 Compute Blade — CPU-сервер высокой плотности;
HPE Cray Supercomputing GX350a Accelerated Blade — гибридное решение на базе AMD EPYC и ускорителей Instinct;
HPE Cray Supercomputing GX440n Accelerated Blade — ускоренный сервер с архитектурой NVIDIA Vera и Rubin.

Все модули используют жидкостное охлаждение, что критически важно для поддержания стабильной работы при экстремальных нагрузках и высокой плотности размещения в стойке.

Сервер HPE Cray Supercomputing GX250 Compute Blade: рекордная плотность x86-ядер

Модель GX250 ориентирована на задачи, требующие максимальной вычислительной мощности CPU. Сервер оснащён восемью процессорами AMD EPYC Venice — новым поколением процессоров AMD, запуск которых запланирован на вторую половину 2026 года. Эти чипы построятся на архитектуре Zen 6 и обещают значительный скачок в производительности на ватт по сравнению с предшественниками.

Особенность GX250 — в рекордной плотности размещения: в одну стойку можно установить до 40 таких blade-серверов, что даёт 320 процессоров EPYC Venice и десятки тысяч вычислительных ядер x86. Это делает платформу GX5000 лидером по плотности CPU в отрасли на момент анонса, особенно в сегменте систем, совместимых с экосистемой Linux и open-source HPC-стеков.

Для заказчиков, выбирающих серверные платформы под долгосрочные HPC-проекты, GX250 предлагает не только производительность, но и перспективу технологического обновления без полной замены инфраструктуры.

HPE Cray Supercomputing GX350a Accelerated Blade: симбиоз AMD EPYC и Instinct MI430X

Для задач, где баланс между CPU и GPU критичен — например, в научном моделировании, молекулярной динамике или ИИ-инференсе — HPE предлагает гибридное решение GX350a. Один blade-сервер содержит:

1 процессор AMD EPYC Venice;
4 ускорителя AMD Instinct MI430X.

В стойке допускается установка до 28 таких модулей, что даёт суммарно 112 ускорителей MI430X в одном стойко-месте. Ускорители MI430X, по предварительным данным, будут базироваться на архитектуре CDNA 4 и поддерживать интерфейс PCIe Gen6 и HBM4 память, обеспечивая пропускную способность на уровне нескольких терабайт в секунду.

Интеграция CPU и GPU от одного вендора (AMD) позволяет оптимизировать программный стек, включая ROCm (Radeon Open Compute), что снижает накладные расходы на взаимодействие между компонентами и упрощает отладку HPC-приложений.

HPE Cray Supercomputing GX440n Accelerated Blade: мощь NVIDIA Vera и Rubin

Для заказчиков, предпочитающих экосистему NVIDIA — особенно в области глубокого обучения и ИИ-тренировки — HPE предлагает альтернативу: сервер GX440n. Он построен на новых компонентах NVIDIA следующего поколения:

4 процессора NVIDIA Vera CPU — гипотетический (на момент 2025 года) CPU от NVIDIA, предположительно архитектурно совместимый с ARM или x86, разработанный для максимальной синхронизации с GPU;
8 ускорителей NVIDIA Rubin GPU — преемник архитектуры Blackwell, ожидающийся в 2026–2027 гг.

В стойке может быть установлено до 24 таких серверов, что обеспечивает до 192 ускорителей Rubin в одном стоечном шкафу. Учитывая ожидаемую производительность Rubin (по оценкам аналитиков — до 10 раз выше, чем у Blackwell), такая конфигурация способна обслуживать кластеры ИИ экзафлопсного уровня.

Интересно, что HPE не ставит заказчика перед выбором «AMD или NVIDIA» — платформа GX5000 поддерживает обе экосистемы, что делает её универсальной для научных центров, работающих с разнородными рабочими нагрузками.

HPE Cray Supercomputing Storage Systems K3000: СХД нового поколения для HPC

Вычислительная мощность бесполезна без соответствующей подсистемы хранения. HPE представила специализированную СХД — HPE Cray Supercomputing Storage Systems K3000, построенную на базе сервера HPE ProLiant DL360 Gen12.

Ключевые характеристики K3000:

Возможность установки 8, 12, 16 или 20 накопителей NVMe;
Ёмкость каждого накопителя — 3,84, 7,68 или 15,36 Тбайт;
Объём DRAM — 512 Гбайт, 1 или 2 Тбайт;
Архитектура хранения — DAOS (Distributed Asynchronous Object Storage);
Поддержка сетевых технологий: HPE Slingshot 200/400, InfiniBand NDR, 400GbE.

DAOS — это open-source объектная файловая система, разработанная специально для HPC и ИИ. В отличие от традиционных POSIX-совместимых файловых систем (Lustre, GPFS), DAOS минимизирует задержки и максимизирует параллелизм доступа к данным, что критично при работе с миллиардами мелких файлов или при потоковой передаче данных в GPU.

Для пользователей, выбирающих внутренние жёсткие диски и NVMe-накопители для своих серверов, K3000 демонстрирует тренд на отказ от жёстких дисков в пользу полностью flash-инфраструктуры даже в системах массового хранения.

Интерконнект HPE Slingshot 400: нервная система суперкомпьютера

Скорость передачи данных между узлами — один из ключевых факторов производительности HPC-систем. HPE анонсировала доступность интерконнекта HPE Slingshot 400 для платформы GX5000.

Это сетевое решение следующего поколения с пропускной способностью 400 Гбит/с на порт. Коммутаторы Slingshot 400 оснащены прямым жидкостным охлаждением и имеют 64 порта. Возможны конфигурации на 8, 16 и 32 коммутатора, что даёт суммарно до 2048 портов в одной топологии.

Slingshot 400 поддерживает как традиционные TCP/IP, так и специализированные протоколы HPC — включая MPI (Message Passing Interface) с ускорением на уровне оборудования. Это позволяет минимизировать латентность при обмене данными между тысячами GPU и CPU в кластере.

Первые заказчики платформы HPE Cray Supercomputing GX5000

Уже объявлены первые институциональные заказчики новой платформы:

Центр высокопроизводительных вычислений Штутгартского университета (HLRS) — один из ведущих европейских HPC-центров;
Центр суперкомпьютеров имени Лейбница (LRZ) при Баварской академии наук (BADW);
Министерство энергетики США (DOE), которое развернёт суперкомпьютер Discovery на базе GX5000.

Эти организации выбирают GX5000 из-за её масштабируемости, энергоэффективности и поддержки гетерогенных архитектур. Особенно важно, что платформа позволяет комбинировать CPU- и GPU-узлы в одном кластере, адаптируя конфигурацию под конкретные рабочие нагрузки.

Как GX5000 влияет на рынок серверов в России и СНГ

Хотя HPE Cray Supercomputing GX5000 ориентирована на глобальные научные центры, её появление оказывает косвенное влияние и на российский рынок HPC и корпоративных ИТ-инфраструктур. Во-первых, устанавливаются новые ориентиры по плотности, охлаждению и архитектуре. Во-вторых, российские заказчики, которым недоступны суперкомпьютеры HPE из-за санкций, всё чаще обращаются к локальным сборкам на базе имеющихся компонентов.

В этом контексте особенно актуальны решения, подобные готовым сборкам от отечественных системных интеграторов, которые могут предложить blade-подобные или стоечные конфигурации с жидкостным охлаждением и поддержкой современных серверных процессоров.

Также растёт спрос на серверную оперативную память повышенной ёмкости и скорости, особенно в конфигурациях с поддержкой DDR5 и CXL — технологий, которые станут стандартом в ближайшие годы.

Как выбрать серверную платформу под HPC-задачи в 2025–2027 гг.

Если вы планируете развёртывание HPC-кластера, но не можете использовать HPE Cray Supercomputing, вот ключевые рекомендации:

1. Определите тип рабочей нагрузки

— Чисто CPU-нагрузки (CFD, молекулярная динамика) → выбирайте плотные CPU-серверы с 2–4 процессорами.
— Гибридные ИИ/HPC-задачи → 1 CPU + 4–8 GPU.
— ИИ-тренировка на больших моделях → максимум GPU в стойке, предпочтение архитектуре с NVLink или аналогами.

2. Уделите внимание охлаждению

Жидкостное охлаждение становится нормой даже в коммерческих ЦОД. При плотности выше 20 кВт/стойку воздушное охлаждение неэффективно.

3. Выберите правильную СХД

Для ИИ и ML необходимы NVMe-массивы с низкой латентностью. DAOS — идеален, но если его нет — ищите решения с поддержкой NVMe-oF и параллельным доступом.

4. Обратите внимание на интерконнект

200 Гбит/с — уже минимум. В идеале — InfiniBand NDR или Ethernet 400GbE с RoCEv2.

Как собрать HPC-сервер под ИИ-задачи в 2025 году (пошаговая инструкция)

Определите бюджет и класс задач (тренировка, инференс, научное моделирование).
Выберите процессор: AMD EPYC Genoa/Bergamo или Intel Xeon Scalable Sapphire Rapids/Granite Rapids в зависимости от ПО.
Подберите GPU: NVIDIA H100/L40S для ИИ или AMD Instinct MI300 для ROCm-совместимых решений.
Установите минимум 1 Тбайт оперативной памяти на узел — DDR5 с ECC.
Используйте NVMe-накопители ёмкостью от 7,68 Тбайт для локального кэширования данных.
Обеспечьте жидкостное охлаждение — даже в одностоечной конфигурации.
Подключите сервер к сети 200/400 Гбит/с через Mellanox или совместимые адаптеры.
Установите ОС и стек: Ubuntu 22.04/24.04 + CUDA/ROCm + Slurm/Kubernetes.
Протестируйте на бенчмарках: HPL, HPCG, MLPerf.
Обратитесь в службу поддержки Server360.ru для консультации по подбору комплектующих и сборке.

Сравнительная таблица: blade-серверы HPE Cray Supercomputing GX5000

Модель	CPU	GPU/ускорители	Макс. в стойке	Охлаждение
GX250 Compute Blade	8 × AMD EPYC Venice	—	40	Жидкостное
GX350a Accelerated Blade	1 × AMD EPYC Venice	4 × AMD Instinct MI430X	28	Жидкостное
GX440n Accelerated Blade	4 × NVIDIA Vera CPU	8 × NVIDIA Rubin GPU	24	Жидкостное

Часто задаваемые вопросы (FAQ)

Можно ли использовать HPE Cray Supercomputing GX5000 в России?

На текущий момент (2025 год) поставка HPE Cray Supercomputing GX5000 в Россию ограничена из-за международных санкций. Однако архитектурные принципы этой платформы (жидкостное охлаждение, плотные blade-модули, DAOS, Slingshot) можно реализовать в локальных сборках с использованием доступных компонентов.

Что такое DAOS и зачем он нужен в HPC?

DAOS (Distributed Asynchronous Object Storage) — это open-source объектная файловая система, разработанная для экзафлопсных суперкомпьютеров. Она минимизирует задержки, поддерживает параллельный доступ миллионов процессов и идеально подходит для ИИ, где данные поступают потоками. DAOS особенно эффективен при работе с NVMe и высокоскоростными сетями.

Почему используется жидкостное охлаждение?

При плотности выше 15–20 кВт на стойку воздушное охлаждение становится неэффективным. Жидкостное охлаждение обеспечивает стабильную температуру компонентов, снижает энергопотребление ЦОД и позволяет размещать больше вычислительных узлов в том же физическом пространстве.

Когда выйдут процессоры AMD EPYC Venice и NVIDIA Rubin?

AMD EPYC Venice ожидается во второй половине 2026 года. NVIDIA Rubin, как преемник Blackwell, запланирован на 2026–2027 годы. HPE Cray Supercomputing GX5000 изначально спроектирована с учётом этих компонентов будущего.