350-кВт ИИ-суперускоритель Alibaba Panjiu 128 Supernode — архитектура нового поколения для ИИ-инфраструктур

На фоне стремительного роста глобального спроса на вычислительные мощности для искусственного интеллекта Alibaba Cloud представила технологический прорыв — систему Panjiu 128 Supernode. Анонс новинки состоялся на международной площадке 2025 OCP Global Summit и сразу же вызвал широкий резонанс в ИТ-индустрии. Новая архитектура не просто масштабирует существующие решения — она меняет подход к построению ИИ-инфраструктур, обеспечивая беспрецедентную производительность, отказоустойчивость и энергоэффективность.

Что такое Panjiu 128 Supernode: ключевые характеристики

Panjiu 128 Supernode представляет собой стойку высокой плотности с совокупной мощностью до 350 кВт. Это не просто сервер — это полноценная ИИ-фабрика в форм-факторе одного шкафа, спроектированная для выполнения задач, которые выходят за пределы возможностей даже самых мощных современных кластеров.

Основные параметры системы:

До 128 GPU-ускорителей в одной стойке;
Поддержка ускорителей мощностью до 2000 Вт;
Модульная ортогональная архитектура;
Жидкостное охлаждение с высокой эффективностью;
Схема энергоснабжения N+2 (двойное резервирование);
Уровень доступности — 99,9999%;
Задержки внутри mesh-фабрики — всего 150 нс;
Повышение производительности инференса на 50% по сравнению с традиционными аналогами.

Ортогональная архитектура: как это работает

Одной из ключевых инноваций Panjiu 128 Supernode является её ортогональная архитектура. В отличие от классических серверных решений, где компоненты размещаются параллельно, здесь используются перпендикулярные направления установки CPU, GPU и других модулей. Такой подход позволяет значительно повысить плотность размещения компонентов без ущерба для теплового режима и доступности обслуживания.

Ортогональная компоновка способствует:

Оптимизации воздушных и жидкостных потоков охлаждения;
Снижению теплового взаимовлияния между ускорителями;
Упрощению замены модулей без полной разборки стойки;
Более равномерному распределению нагрузки по шинам и интерконнектам.

Ускорители и интерконнект: за пределами NVLink

Платформа Panjiu 128 Supernode поддерживает до 128 GPU-ускорителей, каждый из которых может потреблять до 2 кВт. Для обеспечения их совместной работы Alibaba Cloud использует собственные сетевые технологии и протоколы, включая UALink — альтернативу NVLink от NVIDIA.

UALink разрабатывается как открытый стандарт для высокоскоростной межускорительной связи и направлен на устранение зависимости от проприетарных решений одного вендора. Это особенно важно в контексте глобальных ограничений на поставки чипов и роста интереса к многовендорным гибридным ИИ-системам.

Дополнительно в системе задействованы:

CIPU 2.0 (Cloud Infrastructure Processing Unit) — фирменные DPU-процессоры Alibaba для ускорения сетевых, дисковых и виртуализационных задач;
Высокопроизводительные сетевые адаптеры с поддержкой RoCE и других low-latency протоколов;
Модульные пассивные полки питания, снижающие тепловыделение от блоков питания и повышающие КПД.

Жидкостное охлаждение и энергетическая эффективность

С таким количеством ускорителей мощностью до 2 кВт каждый традиционное воздушное охлаждение становится неэффективным. Alibaba Cloud внедрила в Panjiu 128 Supernode систему двухфазного жидкостного охлаждения, которая не только отводит тепло, но и позволяет повторно использовать тепловую энергию для обогрева зданий или других технических нужд.

Система охлаждения:

Обеспечивает стабильную температуру GPU даже при 100% нагрузке;
Снижает потребление энергии на охлаждение на 30–40% по сравнению с воздушными системами;
Позволяет размещать стойку в дата-центрах с ограниченной инфраструктурой охлаждения.

Надёжность и резервирование: доступность 99,9999%

Для критически важных ИИ-платформ доступность — один из ключевых параметров. В Panjiu 128 Supernode реализована схема энергоснабжения N+2, где N — минимально необходимое количество источников питания, а +2 — дополнительные резервные блоки.

Это означает, что даже при одновременном выходе из строя двух блоков питания система продолжит работать без перебоев. В сочетании с модульной архитектурой и возможностью «горячей» замены компонентов достигается уровень отказоустойчивости, соответствующий шесть девяток (99,9999%) — стандарту для финансовых и телекоммуникационных систем высшей категории.

Производительность ИИ: на 50% быстрее инференс

По заявлению Alibaba Cloud, Panjiu 128 Supernode обеспечивает на 50% более высокую производительность инференса по сравнению с традиционными ИИ-системами аналогичного класса. Это достигается за счёт:

Минимизации задержек внутри стойки (150 нс);
Оптимизированной передачи данных между GPU и CPU;
Эффективного распределения задач благодаря CIPU 2.0;
Снижения накладных расходов на виртуализацию и сетевые операции.

Такие показатели особенно важны для задач реального времени: генеративный ИИ, анализ видео в потоке, автономные системы, финансовый скоринг и другие сценарии, где каждая миллисекунда на счету.

Контекст рынка: почему спрос на ИИ-серверы взрывной

Анонс Panjiu 128 Supernode происходит на фоне рекордного роста рынка ИИ-инфраструктуры. Согласно данным аналитического агентства IDC, во II квартале 2025 года выручка от продаж серверов и систем хранения данных (СХД) для ИИ-платформ составила 82 млрд долларов США — это на 166% больше, чем за тот же период 2024 года (30,8 млрд долларов).

При этом 91,8% от общей выручки пришлось именно на серверы с ИИ-ускорителями. Это говорит о том, что современные дата-центры всё чаще строятся не вокруг CPU, а вокруг GPU и других специализированных ускорителей.

Тренд подтверждается и в России, где компании активно инвестируют в локальные ИИ-кластеры из-за геополитической нестабильности и роста регуляторных требований к хранению данных. Отечественные дата-центры и системные интеграторы всё чаще ищут решения, сочетающие высокую производительность с возможностью локального обслуживания и модернизации.

Как Panjiu 128 Supernode влияет на выбор серверной платформы в России

Хотя Panjiu 128 Supernode — это решение от Alibaba Cloud, оно задаёт вектор развития для всего серверного рынка, включая Россию. Российские компании, строящие собственные ИИ-инфраструктуры, всё чаще обращают внимание на:

Модульность и ремонтопригодность;
Поддержку мощных ускорителей;
Энергоэффективность и возможность жидкостного охлаждения;
Гибкость конфигурации CPU/GPU.

На этом фоне становятся особенно востребованными готовые ИИ-платформы, адаптированные под локальные условия. Например, решения из раздела серверные платформы на server360.ru предлагают конфигурации с поддержкой до 8–16 GPU в одном корпусе, а также совместимость с современными серверными процессорами и оперативной памятью.

Как собрать ИИ-сервер под свои задачи: чек-лист

Пошаговая инструкция по выбору ИИ-сервера для локального дата-центра

Определите тип задач: обучение (training) или инференс (inference). Для инференса важна не только мощность, но и задержка.
Выберите количество и модель GPU-ускорителей. Учитывайте тепловыделение и требования к питанию (до 2 кВт на ускоритель).
Оцените требования к памяти: объём оперативной памяти должен соответствовать рабочему набору данных. Используйте серверную память с ECC для максимальной надёжности.
Подберите процессор, обеспечивающий достаточную пропускную способность PCIe и поддержку необходимого количества каналов памяти.
Продумайте систему хранения: для больших моделей ИИ критична скорость доступа к данным. Рассмотрите NVMe SSD или даже Optane-решения.
Убедитесь, что сервер поддерживает жидкостное охлаждение или имеет усиленную систему воздушного охлаждения.
Проверьте наличие резервирования блоков питания и возможность «горячей» замены компонентов.
Рассмотрите вариант готовой сборки от проверенного поставщика — это сократит время развёртывания и снизит риски совместимости.

Сравнение: традиционный ИИ-сервер vs Panjiu 128 Supernode

Параметр	Традиционный ИИ-сервер	Panjiu 128 Supernode
Количество GPU	4–8	До 128
Макс. мощность GPU	700–1000 Вт	До 2000 Вт
Тип охлаждения	Воздушное или одноконтурное жидкостное	Двухфазное жидкостное
Задержка между GPU	1–5 мкс	150 нс
Доступность	99,9% – 99,99%	99,9999%
Интерконнект	NVLink, PCIe	UALink + CIPU 2.0
Модульность	Ограниченная	Полная (ортогональная архитектура)

FAQ: ответы на частые вопросы о Panjiu 128 Supernode

Можно ли использовать Panjiu 128 Supernode в России?

Напрямую — нет, так как это облачное решение Alibaba Cloud. Однако архитектурные принципы Panjiu можно реализовать в локальных ИИ-кластерах с использованием совместимых компонентов: мощных GPU, серверных платформ с поддержкой жидкостного охлаждения и модульной конструкции. Российские системные интеграторы уже предлагают такие решения.

Что такое UALink и зачем он нужен?

UALink — это открытый протокол межускорительной связи, разрабатываемый как альтернатива проприетарному NVLink от NVIDIA. Он позволяет создавать многовендорные ИИ-кластеры без привязки к экосистеме одного производителя, повышает гибкость и снижает риски санкционных ограничений.

Как достичь высокой доступности в локальном ИИ-кластере?

Для достижения уровня 99,9999% в локальной инфраструктуре необходимо использовать резервирование на всех уровнях: блоков питания (N+2), сетевых каналов, дисковых массивов и даже источников охлаждения. Также критически важна модульность — возможность замены компонентов без остановки системы.

Какие компоненты нужны для сборки ИИ-сервера в РФ?

Для сборки ИИ-сервера в России рекомендуется использовать: серверную платформу с поддержкой 4–8 GPU, современные процессоры с большим количеством PCIe-линий, энергонезависимую память с ECC, быстрые внутренние накопители NVMe, блоки питания с резервированием и систему жидкостного охлаждения. Готовые конфигурации можно заказать в разделе готовая сборка.

Почему это важно для российского ИТ-рынка

Анонс Panjiu 128 Supernode — не просто новость из мира облаков. Это сигнал о том, что будущее ИИ-инфраструктур — за интегрированными, модульными и энергоэффективными решениями. Российские компании, стремящиеся к технологическому суверенитету, могут и должны адаптировать эти принципы под локальные реалии.

К счастью, на рынке уже есть всё необходимое: от серверных процессоров и памяти до готовых платформ и услуг по сборке. Ключевое — понимать тренды и выбирать решения, которые будут актуальны не только сегодня, но и через 3–5 лет.

Если вы планируете развёртывание ИИ-инфраструктуры в своём дата-центре, рекомендуем проконсультироваться со специалистами. Контакты для технической поддержки и подбора оборудования доступны на сайте server360.ru.

Технологии Alibaba задают вектор. Но локальные решения — это то, что обеспечит устойчивое развитие ИИ в России уже сегодня.