NextSilicon Maverick-2 vs Nvidia HGX B200: ускоритель нового поколения и RISC-V процессор Arbel — обзор и сравнение

NextSilicon делает ставку на программно-адаптивную архитектуру для HPC и ИИ

Израильский стартап NextSilicon, основанный в 2017 году, продолжает активно продвигать свою концепцию «интеллектуальных вычислений», основанную на переносе управления ресурсами с аппаратного уровня на программный. На этой неделе компания представила обновлённые данные по своему ускорителю Maverick-2 и впервые анонсировала новый процессор Arbel на архитектуре RISC-V. Оба чипа разработаны по 5-нм техпроцессу TSMC и позиционируются как решения для высокопроизводительных вычислений (HPC) и искусственного интеллекта, способные конкурировать с флагманскими продуктами Nvidia и Intel.

Maverick-2: до 4 раз эффективнее Nvidia HGX B200 в FP64

Ускоритель Maverick-2, впервые представленный в прошлом году, теперь получил подтверждение своих заявленных характеристик в виде новых внутренних тестов. NextSilicon называет его «интеллектуальным вычислительным ускорителем» (Intelligent Compute Accelerator) и подчёркивает его преимущества в энергоэффективности и производительности на ватт.

Доступен Maverick-2 в двух форм-факторах:

Однокристальная версия — PCIe-карта с 96 Гбайт памяти HBM3e и TDP 300 Вт;
Двухкристальная версия — модуль OAM (Open Accelerator Module) с 192 Гбайт HBM3e и TDP 600 Вт.

Согласно данным компании, Maverick-2 демонстрирует следующие результаты:

В операциях с двойной точностью (FP64) — до в 4 раза выше производительность на ватт по сравнению с Nvidia HGX B200;
В сравнении с процессорами Intel Xeon Sapphire Rapids — более чем в 20 раз выше эффективность в задачах HPC и ИИ;
В тесте GUPS (Giga Updates Per Second), измеряющем пропускную способность памяти и задержки, — 32,6 GUPS при мощности 460 Вт, что в 22 раза быстрее CPU и в 6 раз быстрее GPU;
В рабочей нагрузке HPCG (High Performance Conjugate Gradients) — 600 GFLOPS при 750 Вт, потребляя при этом примерно вдвое меньше энергии, чем аналоги.

Ключ к такому прорыву, по словам инженеров NextSilicon, — в архитектуре, основанной на потоках данных. В отличие от традиционных GPU и CPU, где значительная часть кремниевой площади отводится под управляющую логику (кэш-контроллеры, блоки предсказания ветвлений и т.д.), Maverick-2 использует адаптивное программное обеспечение для динамического распределения ресурсов. Это позволяет задействовать до 90% площади кристалла непосредственно для вычислений.

Arbel: RISC-V-процессор корпоративного класса от NextSilicon

Помимо ускорителя, NextSilicon анонсировала свой первый процессор на базе открытой архитектуры RISC-V — Arbel. Чип также изготовлен по 5-нм техпроцессу TSMC и позиционируется как решение для корпоративных серверов и HPC-систем.

Основные характеристики Arbel:

10-канальный конвейер инструкций;
Буфер переупорядочивания на 480 элементов;
Рабочая частота — до 2,5 ГГц;
Возможность выполнять до 16 скалярных инструкций за такт;
Четыре 128-битных векторных блока для SIMD-операций;
L1-кэш объёмом 64 Кбайт на ядро;
Большой общий L3-кэш для снижения задержек и повышения пропускной способности.

Компания утверждает, что Arbel уже превосходит не только существующие реализации RISC-V от других разработчиков, но и современные x86-ядра Intel Lion Cove и AMD Zen 5 в сценариях, требующих высокой плотности вычислений и низкой задержки памяти.

Однако полные результаты тестов, дата выхода и информация о партнёрах по производству и поставкам пока не раскрываются. Это вызывает определённую настороженность в индустрии, особенно на фоне громких заявлений.

Почему это важно для рынка серверного оборудования

Рынок ускорителей и процессоров для ИИ и HPC сегодня доминируют Nvidia, Intel и AMD. Появление альтернативных решений, особенно на базе открытых архитектур вроде RISC-V, создаёт условия для диверсификации поставок и снижения зависимости от монополистов.

NextSilicon делает ставку не просто на «ещё один чип», а на новую парадигму — программно-адаптивную архитектуру. Если заявленные характеристики подтвердятся в независимых тестах, такие решения могут стать основой для следующего поколения суперкомпьютеров и ИИ-инфраструктуры, особенно в условиях растущих требований к энергоэффективности.

Для российских и европейских компаний, сталкивающихся с ограничениями на поставки продукции Nvidia и Intel, альтернативы вроде Maverick-2 и Arbel могут стать стратегически важными. Особенно если NextSilicon сможет обеспечить локальную поддержку и интеграцию.

Сравнение Maverick-2 с конкурентами: таблица характеристик

Параметр	NextSilicon Maverick-2	Nvidia HGX B200	Intel Xeon Sapphire Rapids
Техпроцесс	5 нм (TSMC)	4 нм (TSMC)	Intel 7 (10 нм Enhanced)
Память	96 / 192 Гбайт HBM3e	192 Гбайт HBM3e	DDR5, до 4 Тбайт на сокет
TDP	300 / 600 Вт	~1000 Вт	до 350 Вт
FP64 (эффективность)	4× выше, чем у B200	Базовый уровень	20× ниже, чем у Maverick-2
GUPS (при 460 Вт)	32,6 GUPS	~5,4 GUPS (оценка)	~1,5 GUPS (оценка)
Архитектура	Потоковая, программно-адаптивная	CUDA, SIMT	x86, out-of-order

Как выбрать серверную платформу под новые ИИ-нагрузки

Появление ускорителей вроде Maverick-2 требует пересмотра подходов к сборке серверных решений. Если вы планируете развивать ИИ-инфраструктуру или HPC-кластеры, обратите внимание на следующие аспекты:

Энергоэффективность — ключевой фактор при масштабировании. Решения с высокой производительностью на ватт позволяют снизить OPEX на охлаждение и электропитание.
Поддержка HBM-памяти — современные ИИ-модели требуют огромных объёмов быстрой памяти. Платформы с HBM3/HBM3e предпочтительнее DDR5.
Гибкость архитектуры — программно-адаптивные системы проще оптимизировать под специфические задачи.
Экосистема и ПО — даже самый мощный ускоритель бесполезен без драйверов, библиотек и поддержки фреймворков (TensorFlow, PyTorch и др.).

Если вы рассматриваете готовые решения, обратите внимание на готовые сборки серверов, оптимизированные под ИИ и HPC. Они уже включают совместимые компоненты и проходят тестирование на стабильность.

Какие компоненты критичны для ИИ-серверов

Даже при использовании внешних ускорителей, базовая серверная платформа остаётся важной. Вот ключевые компоненты:

Серверные процессоры — обеспечивают управление, ввод-вывод и предварительную обработку данных. Актуальные модели — Intel Xeon Scalable и AMD EPYC.
Оперативная память — для буферизации и обработки потоков данных. Рекомендуется использовать RDIMM или LRDIMM DDR5 с коррекцией ошибок (ECC).
Накопители — быстрые NVMe SSD или SAS-диски для хранения датасетов и моделей. Подробнее — внутренние жёсткие диски и SSD.
Серверные платформы — должны поддерживать PCIe 5.0, достаточное количество слотов и охлаждение. Смотрите серверные платформы с поддержкой современных ускорителей.

Часто задаваемые вопросы (FAQ)

Чем архитектура Maverick-2 отличается от GPU Nvidia?

Maverick-2 использует потоковую архитектуру с программным управлением ресурсами, в то время как GPU Nvidia основаны на SIMT-модели с жёсткой аппаратной логикой. Это позволяет Maverick-2 гибче распределять вычислительные ресурсы и достигать большей эффективности на ватт.

Можно ли использовать Arbel в существующих серверах?

Пока неизвестно. Arbel — это новый процессор на архитектуре RISC-V, для которого потребуется специализированная материнская плата и BIOS/UEFI. Интеграция в существующие x86-серверы невозможна.

Когда Maverick-2 поступит в продажу?

NextSilicon не раскрывает точные сроки коммерческого запуска. Однако компания заявляет, что ведёт переговоры с крупными поставщиками ИТ-инфраструктуры и HPC-центрами.

Поддерживает ли Maverick-2 фреймворки TensorFlow и PyTorch?

Компания обещает поддержку основных ИИ-фреймворков через собственный SDK и компилятор. Однако детали интеграции пока не опубликованы.

Пошаговая инструкция: как подготовить инфраструктуру к внедрению новых ускорителей

Подготовка серверной инфраструктуры под ИИ-ускорители нового поколения

Проведите аудит текущих рабочих нагрузок: определите, какие задачи требуют FP64, FP16 или INT8 вычислений.
Оцените энергетическую инфраструктуру: убедитесь, что ИБП и система охлаждения выдержат новые TDP (до 600 Вт на модуль).
Выберите совместимую серверную платформу с поддержкой PCIe 5.0 и достаточным количеством слотов.
Обеспечьте достаточный объём оперативной памяти — минимум 512 Гбайт DDR5 ECC на узел.
Подготовьте ПО-стек: установите драйверы, CUDA-альтернативы и библиотеки для работы с новыми ускорителями.
Проведите пилотное тестирование на небольшом кластере перед массовым внедрением.