Что такое NVIDIA Blackwell Ultra: эволюция сверхмасштабной ИИ-архитектуры
NVIDIA официально представила обновлённую версию своей флагманской серверной платформы — Blackwell Ultra. Этот ускоритель стал не просто модернизацией предыдущего поколения, а глубокой переработкой ключевых компонентов, ориентированной на максимальную эффективность в задачах искусственного интеллекта, особенно в области масштабного инференса и многоступенчатого логического вывода. В отличие от традиционных подходов, где развитие идёт по пути универсализации, NVIDIA сделала ставку на специализацию: Blackwell Ultra оптимизирован под работу с новым 4-битным форматом NVFP4, а классические высокоточные вычисления FP64 фактически исключены из приоритетов.
Эта стратегия отражает фундаментальный сдвиг в индустрии: сегодня основная нагрузка в дата-центрах приходится не на научные расчёты, а на запуск и обслуживание гигантских языковых и мультимодальных моделей. Именно поэтому NVIDIA сосредоточилась на производительности в FP8, FP4 и других низкоточных форматах, которые позволяют радикально сократить энергопотребление и увеличить пропускную способность без значительной потери качества вывода. Подробнее о современных серверных платформах можно узнать на сайте Server360.
Ключевые характеристики чипа: два кристалла, 208 млрд транзисторов, один интерфейс
Blackwell Ultra сохраняет двухчиповую архитектуру, где два полноформатных кристалла соединяются через внутренний интерфейс NVIDIA High-Bandwidth Interface (NV-HBI) с пропускной способностью до 10 Тбайт/с. Это позволяет рассматривать всю конструкцию как единый логический GPU с точки зрения программной модели. Каждый кристалл изготовлен по кастомному техпроцессу TSMC 4NP, что обеспечивает плотность в 208 миллиардов транзисторов — в 2,6 раза больше, чем у предыдущего Hopper.
Вся система управляется 160 потоковыми мультипроцессорами (SM), объединёнными в 8 Graphics Processing Clusters (GPC). Каждый SM — это автономный вычислительный блок, содержащий:
- 128 CUDA-ядер для операций FP32/INT32/FP16/BF16;
- 4 тензорных ядра пятого поколения с поддержкой Transformer Engine второго поколения;
- 256 Кбайт Tensor Memory (TMEM) для WARP-синхронного хранения данных;
- Специализированные функциональные блоки (SFU) для трансцендентной математики.
Такая организация позволяет достичь беспрецедентной плотности вычислений и минимизировать задержки при передаче данных между ядрами.
Революция в тензорных ядрах: пятое поколение и Transformer Engine 2.0
Тензорные ядра остаются сердцем архитектуры NVIDIA для задач машинного обучения. С момента их появления в Volta, каждое новое поколение приносило существенный прирост производительности. Blackwell Ultra выводит их на новый уровень благодаря нескольким ключевым инновациям:
- Поддержка NVFP4 на аппаратном уровне — первый в отрасли 4-битный формат с плавающей запятой, оптимизированный для ИИ-инференса;
- Микроблочное масштабирование E4M3 — применяется к блокам по 16 значений, что снижает ошибки квантования;
- Двухпотоковые MMA-операции — пара SM может работать совместно над одной операцией, разделяя данные и сокращая трафик памяти;
- Полная когерентность L2-кеша — все SM имеют доступ к единому пулу памяти, что повышает эффективность повторного использования данных.
Общая производительность тензорных ядер в формате NVFP4 достигает 15 Пфлопс (при плотных вычислениях), что на 50% выше, чем у оригинального Blackwell, и в 7,5 раз превосходит Hopper. Это делает Blackwell Ultra идеальным решением для развёртывания LLM в production-средах.
NVFP4 против FP64: почему NVIDIA сделал выбор в пользу эффективности
Одним из самых обсуждаемых аспектов Blackwell Ultra стало почти полное отсутствие поддержки FP64 — 64-битной арифметики с плавающей запятой, которая долгое время считалась стандартом для научных вычислений и HPC. Вместо этого NVIDIA сделала ставку на NVFP4 — новый 4-битный формат, сочетающий преимущества FP8 и FP32.
Как работает NVFP4: баланс точности и эффективности
NVFP4 использует комбинированный подход к квантованию:
- На уровне блока из 16 элементов применяется масштабирование FP8 (E4M3);
- На уровне тензорной операции — масштабирование FP32, что позволяет точно восстанавливать диапазон значений.
Это даёт следующие преимущества:
| Параметр | NVFP4 | FP8 | FP16 |
|---|---|---|---|
| Потребление памяти | 1x | 1.8x | 4x |
| Производительность (относительно FP16) | 4x | 2.2x | 1x |
| Ошибка квантования (по сравнению с FP8) | ~1% | — | Незначительная |
| Поддержка в Blackwell Ultra | Полная | Частичная | Полная |
Как видно из таблицы, NVFP4 обеспечивает практически ту же точность, что и FP8, но при этом требует в 1,8 раза меньше памяти и в 3,5 раза меньше, чем FP16. Это напрямую влияет на количество параллельных запросов, скорость ответа и общую экономическую эффективность системы.
Зачем отказываться от FP64?
Решение NVIDIA отказаться от активного развития FP64 — это не просчёт, а осознанная стратегия. Анализ рабочих нагрузок в современных дата-центрах показывает, что:
- Более 85% вычислений связаны с ИИ-задачами (обучение и инференс);
- Только менее 10% приходится на традиционные HPC-расчёты, требующие FP64;
- Рост спроса на LLM и multimodal AI продолжается экспоненциально.
Выделение транзисторов и энергии на FP64 в таком контексте — неэффективное использование ресурсов. NVIDIA предпочла направить эти мощности на ускорение именно тех операций, которые реально используются массово: softmax, attention, matrix multiplication в низкой точности.
Ускорение механизма внимания: вдвое быстрее в ключевых операциях
Одной из главных «узких шей» в работе LLM является слой внимания (attention layer), особенно этап softmax, где модель определяет вероятность следующего токена. Эта операция требует высокой точности и большого объёма вычислений, что приводит к задержкам.
В Blackwell Ultra пропускная способность SFU (Special Function Units) для ключевых инструкций softmax была удвоена по сравнению с оригинальным Blackwell. Это позволяет:
- Сократить время до первого токена (Time to First Token) в интерактивных приложениях;
- Увеличить количество обрабатываемых последовательностей в секунду;
- Повысить энергоэффективность за счёт снижения числа циклов на запрос.
Особенно заметен прирост в моделях с длинным контекстом (например, 128K и более), где softmax становится доминирующим фактором задержки. Теперь даже при работе с огромными окнами контекста пользователи получают быстрый и плавный отклик — критически важный параметр для чат-ботов, ассистентов и аналитических систем.
Подсистема памяти: 288 ГБ HBM3e и 8 Тбайт/с пропускной способности
Для эффективной работы с моделями размером 300+ миллиардов параметров необходим огромный объём быстрой памяти. Blackwell Ultra оснащён 288 ГБ памяти HBM3e — на 50% больше, чем у оригинального Blackwell (192 ГБ). Такой объём позволяет:
- Размещать крупные модели целиком в VRAM без обращения к системной памяти;
- Увеличивать размер KV-кеша (Key-Value cache), что критично для скорости инференса;
- Поддерживать длинные контексты без потерь производительности.
Память организована в 8 HBM-стеков с 16 × 512-бит контроллерами, обеспечивая суммарную разрядность шины 8192 бита. Пропускная способность осталась на уровне 8 Тбайт/с — оптимальный баланс между ёмкостью и скоростью. Подбор оперативной памяти для серверов требует профессионального подхода, и подробнее об этом можно прочитать на странице про серверную оперативную память.
L2-кеш и когерентность: как данные становятся общими
Ещё одним ключевым элементом является полностью когерентный L2-кеш, доступный всем SM. Он обеспечивает:
- Единое адресное пространство для всех ядер;
- Автоматическую синхронизацию данных между SM;
- Снижение количества обращений к HBM за счёт эффективного кэширования.
Это особенно важно при выполнении разреженных вычислений и операций с нерегулярными паттернами доступа к памяти.
Коммуникации и масштабируемость: NVLink 5 и PCIe 6.0
Для построения масштабируемых ИИ-фабрик Blackwell Ultra поддерживает два ключевых интерфейса:
NVLink 5: 1,8 Тбайт/с на соединение
Интерконнект NVLink 5 обеспечивает пропускную способность до 1,8 Тбайт/с (900 Гбайт/с в каждом направлении). Это позволяет объединять до 576 GPU в единую неблокируемую вычислительную сеть — настоящую «фабрику ИИ». NVLink используется как для GPU-GPU, так и для GPU-CPU связей через NVLink-C2C.
PCIe 6.0 x16: обратная совместимость и высокая скорость
Для совместимости с существующей инфраструктурой сохранён интерфейс PCIe 6.0 x16 с пропускной способностью 128 Гбайт/с в каждом направлении. Это гарантирует возможность интеграции Blackwell Ultra в существующие серверы без необходимости полной замены платформы. Подробнее о процессорах, совместимых с новыми ускорителями, можно узнать на странице серверных процессоров.
Суперчип Grace Blackwell Ultra: когда CPU и GPU становятся одним целым
Флагманским решением на базе Blackwell Ultra стал суперчип Grace Blackwell Ultra, объединяющий:
- Один Arm-процессор Grace с высокой энергоэффективностью;
- Два GPU Blackwell Ultra;
- Интерфейс NVLink-C2C с когерентностью памяти.
Вся система работает как единый вычислительный узел с унифицированной памятью объёмом до 1 Тбайт, сочетающей HBM3e и LPDDR5X. Производительность в NVFP4 достигает 40 Пфлопс с разреженностью и 30 Пфлопс без неё. Это делает суперчип идеальной основой для гипермасштабных ИИ-систем.
Система GB300 NVL72: масштабируемость нового поколения
На базе суперчипов Grace Blackwell Ultra построена стоечная система GB300 NVL72, включающая 36 суперчипов (72 GPU). Общая производительность такой системы — 1,1 Эфлопс в FP4 без разреженности. Особенности системы:
- Полностью неблокируемая топология NVLink 5;
- Высокоэффективное управление питанием с использованием нескольких полок питания;
- Сетевые адаптеры ConnectX-8 SuperNIC с поддержкой 800G Ethernet;
- Возможность развёртывания как в частных, так и в гиперскалярных дата-центрах.
GB300 открывает путь к созданию ИИ-фабрик, способных обучать и запускать модели с триллионами параметров с экономической эффективностью, недоступной ранее.
Чем NVFP4 лучше FP4 и FP8?
NVFP4 — это гибридный формат, сочетающий микроблочное масштабирование FP8 (E4M3) и тензорное масштабирование FP32. Это позволяет достичь точности, близкой к FP8 (~1% разницы), при потреблении памяти в 1,8 раза меньшем, чем FP8, и в 3,5 раза — по сравнению с FP16. Также NVFP4 поддерживается на аппаратном уровне в тензорных ядрах пятого поколения, что обеспечивает минимальные задержки.
Зачем NVIDIA удвоила пропускную способность SFU?
SFU отвечают за выполнение сложных математических функций, таких как softmax, exp, log — которые критически важны для работы механизма внимания в LLM. Удвоение их пропускной способности позволяет сократить время до первого токена, увеличить количество обрабатываемых запросов и повысить энергоэффективность, особенно при работе с длинными контекстами.
Можно ли использовать Blackwell Ultra для научных расчётов?
Хотя Blackwell Ultra поддерживает FP32 и частично FP64, его архитектура оптимизирована в первую очередь под ИИ-нагрузки. Для традиционных HPC-задач с доминированием FP64 более подходящими остаются специализированные решения, такие как NVIDIA H100 или будущие HPC-ориентированные архитектуры. Blackwell Ultra — это выбор для тех, кто строит масштабные ИИ-системы, а не научные симуляции.
Как Blackwell Ultra влияет на стоимость одного токена?
За счёт NVFP4, увеличенного объёма памяти и оптимизации attention-слоя, Blackwell Ultra позволяет сократить затраты на генерацию одного токена на 40–60% по сравнению с Hopper. Это достигается за счёт большего количества параллельных экземпляров, более быстрого отклика и снижения энергопотребления на операцию.
Где можно купить готовые решения на базе Blackwell Ultra?
Готовые серверные решения и сборки на базе Blackwell Ultra уже доступны у ведущих партнёров NVIDIA. Подробную информацию и консультации можно получить на сайте готовых сборок Server360 или связавшись с командой по адресу контактов.
Как выбрать сервер под Blackwell Ultra: пошаговое руководство
- Определите тип нагрузки: если это ИИ-инференс или обучение LLM — Blackwell Ultra подходит идеально; для HPC рассмотрите альтернативы.
- Оцените объём моделей: при моделях >100 млрд параметров требуется 288 ГБ HBM3e и поддержка NVLink.
- Выберите конфигурацию: отдельный GPU, суперчип Grace Blackwell Ultra или стоечная система GB300.
- Убедитесь в наличии охлаждения и питания: Blackwell Ultra потребляет до 1200 Вт на GPU, требуется жидкостное охлаждение.
- Подберите накопители: рекомендуются быстрые NVMe SSD для загрузки моделей, подробнее на странице внутренних накопителей.
- Обратитесь к поставщику: закажите готовую сборку или консультацию у специалистов.
