NextSilicon делает ставку на программно-адаптивную архитектуру для HPC и ИИ
Израильский стартап NextSilicon, основанный в 2017 году, продолжает активно продвигать свою концепцию «интеллектуальных вычислений», основанную на переносе управления ресурсами с аппаратного уровня на программный. На этой неделе компания представила обновлённые данные по своему ускорителю Maverick-2 и впервые анонсировала новый процессор Arbel на архитектуре RISC-V. Оба чипа разработаны по 5-нм техпроцессу TSMC и позиционируются как решения для высокопроизводительных вычислений (HPC) и искусственного интеллекта, способные конкурировать с флагманскими продуктами Nvidia и Intel.
Maverick-2: до 4 раз эффективнее Nvidia HGX B200 в FP64
Ускоритель Maverick-2, впервые представленный в прошлом году, теперь получил подтверждение своих заявленных характеристик в виде новых внутренних тестов. NextSilicon называет его «интеллектуальным вычислительным ускорителем» (Intelligent Compute Accelerator) и подчёркивает его преимущества в энергоэффективности и производительности на ватт.
Доступен Maverick-2 в двух форм-факторах:
- Однокристальная версия — PCIe-карта с 96 Гбайт памяти HBM3e и TDP 300 Вт;
- Двухкристальная версия — модуль OAM (Open Accelerator Module) с 192 Гбайт HBM3e и TDP 600 Вт.
Согласно данным компании, Maverick-2 демонстрирует следующие результаты:
- В операциях с двойной точностью (FP64) — до в 4 раза выше производительность на ватт по сравнению с Nvidia HGX B200;
- В сравнении с процессорами Intel Xeon Sapphire Rapids — более чем в 20 раз выше эффективность в задачах HPC и ИИ;
- В тесте GUPS (Giga Updates Per Second), измеряющем пропускную способность памяти и задержки, — 32,6 GUPS при мощности 460 Вт, что в 22 раза быстрее CPU и в 6 раз быстрее GPU;
- В рабочей нагрузке HPCG (High Performance Conjugate Gradients) — 600 GFLOPS при 750 Вт, потребляя при этом примерно вдвое меньше энергии, чем аналоги.
Ключ к такому прорыву, по словам инженеров NextSilicon, — в архитектуре, основанной на потоках данных. В отличие от традиционных GPU и CPU, где значительная часть кремниевой площади отводится под управляющую логику (кэш-контроллеры, блоки предсказания ветвлений и т.д.), Maverick-2 использует адаптивное программное обеспечение для динамического распределения ресурсов. Это позволяет задействовать до 90% площади кристалла непосредственно для вычислений.
Arbel: RISC-V-процессор корпоративного класса от NextSilicon
Помимо ускорителя, NextSilicon анонсировала свой первый процессор на базе открытой архитектуры RISC-V — Arbel. Чип также изготовлен по 5-нм техпроцессу TSMC и позиционируется как решение для корпоративных серверов и HPC-систем.
Основные характеристики Arbel:
- 10-канальный конвейер инструкций;
- Буфер переупорядочивания на 480 элементов;
- Рабочая частота — до 2,5 ГГц;
- Возможность выполнять до 16 скалярных инструкций за такт;
- Четыре 128-битных векторных блока для SIMD-операций;
- L1-кэш объёмом 64 Кбайт на ядро;
- Большой общий L3-кэш для снижения задержек и повышения пропускной способности.
Компания утверждает, что Arbel уже превосходит не только существующие реализации RISC-V от других разработчиков, но и современные x86-ядра Intel Lion Cove и AMD Zen 5 в сценариях, требующих высокой плотности вычислений и низкой задержки памяти.
Однако полные результаты тестов, дата выхода и информация о партнёрах по производству и поставкам пока не раскрываются. Это вызывает определённую настороженность в индустрии, особенно на фоне громких заявлений.
Почему это важно для рынка серверного оборудования
Рынок ускорителей и процессоров для ИИ и HPC сегодня доминируют Nvidia, Intel и AMD. Появление альтернативных решений, особенно на базе открытых архитектур вроде RISC-V, создаёт условия для диверсификации поставок и снижения зависимости от монополистов.
NextSilicon делает ставку не просто на «ещё один чип», а на новую парадигму — программно-адаптивную архитектуру. Если заявленные характеристики подтвердятся в независимых тестах, такие решения могут стать основой для следующего поколения суперкомпьютеров и ИИ-инфраструктуры, особенно в условиях растущих требований к энергоэффективности.
Для российских и европейских компаний, сталкивающихся с ограничениями на поставки продукции Nvidia и Intel, альтернативы вроде Maverick-2 и Arbel могут стать стратегически важными. Особенно если NextSilicon сможет обеспечить локальную поддержку и интеграцию.
Сравнение Maverick-2 с конкурентами: таблица характеристик
| Параметр | NextSilicon Maverick-2 | Nvidia HGX B200 | Intel Xeon Sapphire Rapids |
|---|---|---|---|
| Техпроцесс | 5 нм (TSMC) | 4 нм (TSMC) | Intel 7 (10 нм Enhanced) |
| Память | 96 / 192 Гбайт HBM3e | 192 Гбайт HBM3e | DDR5, до 4 Тбайт на сокет |
| TDP | 300 / 600 Вт | ~1000 Вт | до 350 Вт |
| FP64 (эффективность) | 4× выше, чем у B200 | Базовый уровень | 20× ниже, чем у Maverick-2 |
| GUPS (при 460 Вт) | 32,6 GUPS | ~5,4 GUPS (оценка) | ~1,5 GUPS (оценка) |
| Архитектура | Потоковая, программно-адаптивная | CUDA, SIMT | x86, out-of-order |
Как выбрать серверную платформу под новые ИИ-нагрузки
Появление ускорителей вроде Maverick-2 требует пересмотра подходов к сборке серверных решений. Если вы планируете развивать ИИ-инфраструктуру или HPC-кластеры, обратите внимание на следующие аспекты:
- Энергоэффективность — ключевой фактор при масштабировании. Решения с высокой производительностью на ватт позволяют снизить OPEX на охлаждение и электропитание.
- Поддержка HBM-памяти — современные ИИ-модели требуют огромных объёмов быстрой памяти. Платформы с HBM3/HBM3e предпочтительнее DDR5.
- Гибкость архитектуры — программно-адаптивные системы проще оптимизировать под специфические задачи.
- Экосистема и ПО — даже самый мощный ускоритель бесполезен без драйверов, библиотек и поддержки фреймворков (TensorFlow, PyTorch и др.).
Если вы рассматриваете готовые решения, обратите внимание на готовые сборки серверов, оптимизированные под ИИ и HPC. Они уже включают совместимые компоненты и проходят тестирование на стабильность.
Какие компоненты критичны для ИИ-серверов
Даже при использовании внешних ускорителей, базовая серверная платформа остаётся важной. Вот ключевые компоненты:
- Серверные процессоры — обеспечивают управление, ввод-вывод и предварительную обработку данных. Актуальные модели — Intel Xeon Scalable и AMD EPYC.
- Оперативная память — для буферизации и обработки потоков данных. Рекомендуется использовать RDIMM или LRDIMM DDR5 с коррекцией ошибок (ECC).
- Накопители — быстрые NVMe SSD или SAS-диски для хранения датасетов и моделей. Подробнее — внутренние жёсткие диски и SSD.
- Серверные платформы — должны поддерживать PCIe 5.0, достаточное количество слотов и охлаждение. Смотрите серверные платформы с поддержкой современных ускорителей.
Часто задаваемые вопросы (FAQ)
Чем архитектура Maverick-2 отличается от GPU Nvidia?
Maverick-2 использует потоковую архитектуру с программным управлением ресурсами, в то время как GPU Nvidia основаны на SIMT-модели с жёсткой аппаратной логикой. Это позволяет Maverick-2 гибче распределять вычислительные ресурсы и достигать большей эффективности на ватт.
Можно ли использовать Arbel в существующих серверах?
Пока неизвестно. Arbel — это новый процессор на архитектуре RISC-V, для которого потребуется специализированная материнская плата и BIOS/UEFI. Интеграция в существующие x86-серверы невозможна.
Когда Maverick-2 поступит в продажу?
NextSilicon не раскрывает точные сроки коммерческого запуска. Однако компания заявляет, что ведёт переговоры с крупными поставщиками ИТ-инфраструктуры и HPC-центрами.
Поддерживает ли Maverick-2 фреймворки TensorFlow и PyTorch?
Компания обещает поддержку основных ИИ-фреймворков через собственный SDK и компилятор. Однако детали интеграции пока не опубликованы.
Пошаговая инструкция: как подготовить инфраструктуру к внедрению новых ускорителей
Подготовка серверной инфраструктуры под ИИ-ускорители нового поколения
- Проведите аудит текущих рабочих нагрузок: определите, какие задачи требуют FP64, FP16 или INT8 вычислений.
- Оцените энергетическую инфраструктуру: убедитесь, что ИБП и система охлаждения выдержат новые TDP (до 600 Вт на модуль).
- Выберите совместимую серверную платформу с поддержкой PCIe 5.0 и достаточным количеством слотов.
- Обеспечьте достаточный объём оперативной памяти — минимум 512 Гбайт DDR5 ECC на узел.
- Подготовьте ПО-стек: установите драйверы, CUDA-альтернативы и библиотеки для работы с новыми ускорителями.
- Проведите пилотное тестирование на небольшом кластере перед массовым внедрением.
