Sugon ScaleX640 — первая в мире стоечная ИИ-система с 640 ускорителями | Анализ и применение в России

Китайская компания Sugon (Dawning Information Industry), известная своими суперкомпьютерами и высокопроизводительными серверными решениями, совершила технологический прорыв: на рынке появилась новая стоечная ИИ-система ScaleX640, вмещающая до 640 ускорителей в одном 42U-шасси. Это не просто эволюционный шаг — это качественно новая архитектура, которая может переопределить подход к развертыванию масштабных ИИ-кластеров в дата-центрах по всему миру.

Что такое Sugon ScaleX640 и почему это важно

Sugon ScaleX640 — это полноценный ИИ-суперузел, разработанный специально для задач обучения и инференса крупных языковых моделей (LLM), визуального анализа, научных вычислений и других высоконагруженных сценариев. Главное отличие новинки — не просто рекордное число ускорителей, а принципиально новая архитектура и система охлаждения, позволяющая эффективно эксплуатировать эту вычислительную мощность без перегрева и избыточного энергопотребления.

Компания заявляет, что масштабируемость ScaleX640 позволяет объединять два суперузла в кластер на 1280 ускорителей, а в перспективе — строить комплексы с 100 000 ИИ-карт и более. По производительности в сценариях LLM-обучения система показывает прирост на 30–40% по сравнению с традиционными архитектурами. Это делает ScaleX640 крайне привлекательной для исследовательских центров, государственных организаций и крупных корпораций в Китае и за его пределами.

Сверхскоростная ортогональная архитектура: как она работает

ScaleX640 построена на так называемой «сверхскоростной ортогональной архитектуре». Это означает, что вычислительные узлы расположены под прямым углом (ортогонально) к магистральной шине данных и охлаждающим элементам. Такой подход минимизирует длину сигнальных трасс, снижает задержки и улучшает теплопередачу.

Вычислительные узлы высокой плотности позволяют устанавливать ИИ-ускорители различных производителей, включая как китайские аналоги NVIDIA, так и совместимые решения. Это особенно важно в условиях глобальных технологических ограничений и стремления к технологической суверенности. При этом обеспечивается полная совместимость с существующими программными стеками: фреймворками машинного обучения (TensorFlow, PyTorch), библиотеками CUDA-аналогов и инструментами управления ИИ-кластерами.

Ортогональная топология также упрощает обслуживание: отдельные узлы можно заменять без отключения всей системы, что повышает uptime и снижает эксплуатационные риски.

Иммерсионное охлаждение и эффективность PUE 1,04

Одна из ключевых инноваций ScaleX640 — применение иммерсионного жидкостного охлаждения с фазовым переходом. Вся стойка погружена в диэлектрическую жидкость, которая испаряется при нагреве компонентов и конденсируется в радиаторах, отводя до 1,72 мегаватта тепловой энергии.

Такой уровень теплосъёма недостижим для воздушных систем охлаждения и даже для традиционных жидкостных решений. Он позволяет использовать ускорители на полной мощности без троттлинга, что критично при обучении триллионных моделей.

Благодаря этой технологии система достигает показателя PUE (Power Usage Effectiveness) всего 1,04. Для сравнения: средний PUE современного дата-центра — 1,5–1,7. Это означает, что 96% электроэнергии идёт напрямую на вычисления, а не на охлаждение, освещение и вспомогательные системы. Такая эффективность не только снижает OPEX, но и делает систему экологичнее — важный фактор для ESG-инициатив.

Электропитание нового поколения: высоковольтный постоянный ток

ScaleX640 использует источники питания постоянного тока (DC) высокого напряжения вместо традиционных AC/DC-преобразователей. Это уменьшает количество этапов преобразования энергии и, соответственно, потери на каждом из них.

Высоковольтное DC-питание также обеспечивает более стабильное напряжение на ускорителях и процессорах, что повышает надёжность и снижает риск сбоев при пиковых нагрузках. Интеграция с модульными ИБП и системами резервного питания становится проще и эффективнее, что особенно важно для критически важных ИИ-инфраструктур.

Масштабируемость: от одного узла до кластера на 100 000 ускорителей

Архитектура ScaleX640 спроектирована с учётом горизонтальной масштабируемости. Два суперузла могут быть объединены в единый вычислительный блок с 1280 ускорителями с помощью высокоскоростной межстойковой сети. Эта сеть обеспечивает пропускную способность, сравнимую с внутристойковыми соединениями, что минимизирует задержки при распределённых вычислениях.

В перспективе Sugon заявляет о возможности развёртывания кластеров до 100 000 ускорителей. Такой масштаб достаточен для обучения моделей уровня GPT-5 или Gemini Ultra в разумные сроки и с контролируемыми затратами. Это делает ScaleX640 одним из самых мощных коммерческих ИИ-решений на сегодняшний день.

Практическая применимость: для кого подходит ScaleX640?

Несмотря на гигантскую мощность, ScaleX640 — это не просто «игрушка для суперкомпьютеров». Система представляет интерес для широкого круга организаций:

Государственные научные центры — для выполнения стратегических задач в области ИИ, климатического моделирования, геномики и материаловедения.
Крупные финансовые институты — для анализа рисков, алгоритмической торговли и обнаружения мошенничества в реальном времени.
Телеком-операторы — для развертывания edge-ИИ и сетевой оптимизации на базе LLM.
Производственные корпорации — для цифровых двойников, предиктивного обслуживания и автоматизации проектирования.
ИТ-провайдеры — для создания облачных сервисов ИИ-as-a-Service с гарантированной производительностью.

Важно отметить, что Sugon делает ставку на совместимость с международной экосистемой ПО, что облегчает интеграцию ScaleX640 в существующие ИТ-ландшафты, даже вне Китая.

Как ScaleX640 влияет на глобальный ИИ-рынок

Появление ScaleX640 — это вызов западным гигантам, в первую очередь NVIDIA и её партнёрам (HPE, Dell, Lenovo). Пока NVIDIA доминирует на рынке ИИ-ускорителей благодаря CUDA и экосистеме, китайские производители делают ставку на автономные, но совместимые решения.

ScaleX640 демонстрирует, что можно построить высокопроизводительную ИИ-платформу без зависимости от западных компонентов. Это особенно актуально в условиях экспортных ограничений США. В то же время Sugon не отказывается от совместимости: система поддерживает открытые стандарты и может работать с ПО, портированным с CUDA.

Конкуренция усиливается, и это выгодно заказчикам: растёт выбор, улучшается соотношение цена/производительность, появляются новые архитектурные подходы. ScaleX640 — яркий пример того, как локальные инновации становятся глобальным трендом.

Сравнение с традиционными серверными платформами

Чтобы понять, насколько ScaleX640 опережает существующие решения, полезно сравнить её с традиционными ИИ-серверами:

Параметр	Sugon ScaleX640	Традиционный ИИ-сервер (4–8 ускорителей)
Количество ускорителей в стойке	640	40–80
Теплосъём	1,72 МВт (иммерсия)	30–60 кВт (воздух)
PUE	1,04	1,5–1,7
Производительность в LLM-сценариях	+30–40%	Базовый уровень
Масштабируемость	До 100 000 ускорителей	Ограничена сетевой топологией
Энергоэффективность	Высокая (DC-питание, иммерсия)	Средняя

Как видно из таблицы, ScaleX640 не просто «ещё один сервер» — это принципиально иной класс ИИ-инфраструктуры.

Как создать собственную ИИ-инфраструктуру уже сегодня

Пока ScaleX640 остаётся уделом крупных игроков, компании среднего и малого бизнеса могут строить собственные ИИ-системы на базе готовых решений. Российский рынок предлагает гибкие и масштабируемые платформы, адаптированные под локальные условия и задачи.

Например, на странице готовых сборок представлены предварительно настроенные серверы с ИИ-ускорителями, оперативной памятью и хранилищем под конкретные сценарии: от обучения небольших моделей до запуска визуальных ИИ в реальном времени.

Ключевые компоненты такой системы:

Серверные процессоры Intel Xeon или AMD EPYC — для управления вычислительными потоками и предварительной обработки данных.
Оперативная память DDR5 ECC — критична для стабильности при длительных вычислениях.
Внутренние SSD и NVMe-накопители — для быстрой загрузки данных и кэширования моделей.
Совместимые ИИ-ускорители — от профессиональных GPU до специализированных ASIC и FPGA.

Все эти компоненты можно выбрать и заказать как единый комплекс на странице серверных платформ, гарантируя совместимость, техническую поддержку и постгарантийное обслуживание.

Как развернуть базовый ИИ-сервер за 5 шагов

Определите задачу: обучение модели, инференс, обработка видео или NLP. Это влияет на выбор ускорителя и объёма памяти.
Выберите серверную платформу с поддержкой нужного числа GPU и достаточной пропускной способностью PCIe.
Установите достаточный объём оперативной памяти — минимум 64 ГБ, лучше 128+ ГБ для LLM-задач.
Настройте быстрое хранилище: NVMe SSD для загрузки данных и RAID-массив для резервного копирования.
Инсталлируйте совместимый ПО-стек: драйверы, CUDA (или аналог), фреймворк ML и инструменты мониторинга.

Часто задаваемые вопросы о ScaleX640 и ИИ-инфраструктуре

Можно ли использовать ScaleX640 за пределами Китая?

Теоретически — да, но на практике Sugon ориентирована на внутренний рынок и страны-партнёры (БРИКС, Центральная Азия). Экспорт сложных ИИ-систем может быть ограничен как китайскими, так и международными регуляторами. Для международных заказчиков разумнее рассматривать решения от NVIDIA, AMD или локальных поставщиков с аналогичной архитектурой.

Какой PUE считается хорошим для ИИ-дата-центра?

PUE ниже 1,2 считается отличным показателем. PUE 1,04, как у ScaleX640, — это мировой рекорд, достижимый только при использовании иммерсионного охлаждения и DC-питания. Обычные дата-центры редко опускаются ниже 1,4.

Нужно ли мне такое количество ускорителей?

Для большинства бизнес-задач достаточно 1–4 GPU. Сотни ускорителей требуются только при обучении триллионных LLM или выполнении массовых расчётов в научной сфере. Однако архитектурные решения ScaleX640 (охлаждение, питание, масштабируемость) могут быть адаптированы и для средних решений — например, в готовых сборках от локальных поставщиков.

Что делать, если у меня нет опыта в развёртывании ИИ-инфраструктуры?

Обратитесь к специализированным провайдерам, предлагающим не только оборудование, но и консалтинг, настройку и поддержку. На странице контактов можно получить квалифицированную консультацию по выбору серверов, памяти, хранилищ и ИИ-ускорителей под вашу задачу.