Архитектура NVIDIA Blackwell Ultra: особенности NVFP4, отказ от FP64 и применение в ИИ-инфраструктуре

Что такое NVIDIA Blackwell Ultra: эволюция сверхмасштабной ИИ-архитектуры

NVIDIA официально представила обновлённую версию своей флагманской серверной платформы — Blackwell Ultra. Этот ускоритель стал не просто модернизацией предыдущего поколения, а глубокой переработкой ключевых компонентов, ориентированной на максимальную эффективность в задачах искусственного интеллекта, особенно в области масштабного инференса и многоступенчатого логического вывода. В отличие от традиционных подходов, где развитие идёт по пути универсализации, NVIDIA сделала ставку на специализацию: Blackwell Ultra оптимизирован под работу с новым 4-битным форматом NVFP4, а классические высокоточные вычисления FP64 фактически исключены из приоритетов.

Эта стратегия отражает фундаментальный сдвиг в индустрии: сегодня основная нагрузка в дата-центрах приходится не на научные расчёты, а на запуск и обслуживание гигантских языковых и мультимодальных моделей. Именно поэтому NVIDIA сосредоточилась на производительности в FP8, FP4 и других низкоточных форматах, которые позволяют радикально сократить энергопотребление и увеличить пропускную способность без значительной потери качества вывода. Подробнее о современных серверных платформах можно узнать на сайте Server360.

Ключевые характеристики чипа: два кристалла, 208 млрд транзисторов, один интерфейс

Blackwell Ultra сохраняет двухчиповую архитектуру, где два полноформатных кристалла соединяются через внутренний интерфейс NVIDIA High-Bandwidth Interface (NV-HBI) с пропускной способностью до 10 Тбайт/с. Это позволяет рассматривать всю конструкцию как единый логический GPU с точки зрения программной модели. Каждый кристалл изготовлен по кастомному техпроцессу TSMC 4NP, что обеспечивает плотность в 208 миллиардов транзисторов — в 2,6 раза больше, чем у предыдущего Hopper.

Вся система управляется 160 потоковыми мультипроцессорами (SM), объединёнными в 8 Graphics Processing Clusters (GPC). Каждый SM — это автономный вычислительный блок, содержащий:

128 CUDA-ядер для операций FP32/INT32/FP16/BF16;
4 тензорных ядра пятого поколения с поддержкой Transformer Engine второго поколения;
256 Кбайт Tensor Memory (TMEM) для WARP-синхронного хранения данных;
Специализированные функциональные блоки (SFU) для трансцендентной математики.

Такая организация позволяет достичь беспрецедентной плотности вычислений и минимизировать задержки при передаче данных между ядрами.

Революция в тензорных ядрах: пятое поколение и Transformer Engine 2.0

Тензорные ядра остаются сердцем архитектуры NVIDIA для задач машинного обучения. С момента их появления в Volta, каждое новое поколение приносило существенный прирост производительности. Blackwell Ultra выводит их на новый уровень благодаря нескольким ключевым инновациям:

Поддержка NVFP4 на аппаратном уровне — первый в отрасли 4-битный формат с плавающей запятой, оптимизированный для ИИ-инференса;
Микроблочное масштабирование E4M3 — применяется к блокам по 16 значений, что снижает ошибки квантования;
Двухпотоковые MMA-операции — пара SM может работать совместно над одной операцией, разделяя данные и сокращая трафик памяти;
Полная когерентность L2-кеша — все SM имеют доступ к единому пулу памяти, что повышает эффективность повторного использования данных.

Общая производительность тензорных ядер в формате NVFP4 достигает 15 Пфлопс (при плотных вычислениях), что на 50% выше, чем у оригинального Blackwell, и в 7,5 раз превосходит Hopper. Это делает Blackwell Ultra идеальным решением для развёртывания LLM в production-средах.

NVFP4 против FP64: почему NVIDIA сделал выбор в пользу эффективности

Одним из самых обсуждаемых аспектов Blackwell Ultra стало почти полное отсутствие поддержки FP64 — 64-битной арифметики с плавающей запятой, которая долгое время считалась стандартом для научных вычислений и HPC. Вместо этого NVIDIA сделала ставку на NVFP4 — новый 4-битный формат, сочетающий преимущества FP8 и FP32.

Как работает NVFP4: баланс точности и эффективности

NVFP4 использует комбинированный подход к квантованию:

На уровне блока из 16 элементов применяется масштабирование FP8 (E4M3);
На уровне тензорной операции — масштабирование FP32, что позволяет точно восстанавливать диапазон значений.

Это даёт следующие преимущества:

Параметр	NVFP4	FP8	FP16
Потребление памяти	1x	1.8x	4x
Производительность (относительно FP16)	4x	2.2x	1x
Ошибка квантования (по сравнению с FP8)	~1%	—	Незначительная
Поддержка в Blackwell Ultra	Полная	Частичная	Полная

Как видно из таблицы, NVFP4 обеспечивает практически ту же точность, что и FP8, но при этом требует в 1,8 раза меньше памяти и в 3,5 раза меньше, чем FP16. Это напрямую влияет на количество параллельных запросов, скорость ответа и общую экономическую эффективность системы.

Зачем отказываться от FP64?

Решение NVIDIA отказаться от активного развития FP64 — это не просчёт, а осознанная стратегия. Анализ рабочих нагрузок в современных дата-центрах показывает, что:

Более 85% вычислений связаны с ИИ-задачами (обучение и инференс);
Только менее 10% приходится на традиционные HPC-расчёты, требующие FP64;
Рост спроса на LLM и multimodal AI продолжается экспоненциально.

Выделение транзисторов и энергии на FP64 в таком контексте — неэффективное использование ресурсов. NVIDIA предпочла направить эти мощности на ускорение именно тех операций, которые реально используются массово: softmax, attention, matrix multiplication в низкой точности.

Ускорение механизма внимания: вдвое быстрее в ключевых операциях

Одной из главных «узких шей» в работе LLM является слой внимания (attention layer), особенно этап softmax, где модель определяет вероятность следующего токена. Эта операция требует высокой точности и большого объёма вычислений, что приводит к задержкам.

В Blackwell Ultra пропускная способность SFU (Special Function Units) для ключевых инструкций softmax была удвоена по сравнению с оригинальным Blackwell. Это позволяет:

Сократить время до первого токена (Time to First Token) в интерактивных приложениях;
Увеличить количество обрабатываемых последовательностей в секунду;
Повысить энергоэффективность за счёт снижения числа циклов на запрос.

Особенно заметен прирост в моделях с длинным контекстом (например, 128K и более), где softmax становится доминирующим фактором задержки. Теперь даже при работе с огромными окнами контекста пользователи получают быстрый и плавный отклик — критически важный параметр для чат-ботов, ассистентов и аналитических систем.

Подсистема памяти: 288 ГБ HBM3e и 8 Тбайт/с пропускной способности

Для эффективной работы с моделями размером 300+ миллиардов параметров необходим огромный объём быстрой памяти. Blackwell Ultra оснащён 288 ГБ памяти HBM3e — на 50% больше, чем у оригинального Blackwell (192 ГБ). Такой объём позволяет:

Размещать крупные модели целиком в VRAM без обращения к системной памяти;
Увеличивать размер KV-кеша (Key-Value cache), что критично для скорости инференса;
Поддерживать длинные контексты без потерь производительности.

Память организована в 8 HBM-стеков с 16 × 512-бит контроллерами, обеспечивая суммарную разрядность шины 8192 бита. Пропускная способность осталась на уровне 8 Тбайт/с — оптимальный баланс между ёмкостью и скоростью. Подбор оперативной памяти для серверов требует профессионального подхода, и подробнее об этом можно прочитать на странице про серверную оперативную память.

L2-кеш и когерентность: как данные становятся общими

Ещё одним ключевым элементом является полностью когерентный L2-кеш, доступный всем SM. Он обеспечивает:

Единое адресное пространство для всех ядер;
Автоматическую синхронизацию данных между SM;
Снижение количества обращений к HBM за счёт эффективного кэширования.

Это особенно важно при выполнении разреженных вычислений и операций с нерегулярными паттернами доступа к памяти.

Коммуникации и масштабируемость: NVLink 5 и PCIe 6.0

Для построения масштабируемых ИИ-фабрик Blackwell Ultra поддерживает два ключевых интерфейса:

NVLink 5: 1,8 Тбайт/с на соединение

Интерконнект NVLink 5 обеспечивает пропускную способность до 1,8 Тбайт/с (900 Гбайт/с в каждом направлении). Это позволяет объединять до 576 GPU в единую неблокируемую вычислительную сеть — настоящую «фабрику ИИ». NVLink используется как для GPU-GPU, так и для GPU-CPU связей через NVLink-C2C.

PCIe 6.0 x16: обратная совместимость и высокая скорость

Для совместимости с существующей инфраструктурой сохранён интерфейс PCIe 6.0 x16 с пропускной способностью 128 Гбайт/с в каждом направлении. Это гарантирует возможность интеграции Blackwell Ultra в существующие серверы без необходимости полной замены платформы. Подробнее о процессорах, совместимых с новыми ускорителями, можно узнать на странице серверных процессоров.

Суперчип Grace Blackwell Ultra: когда CPU и GPU становятся одним целым

Флагманским решением на базе Blackwell Ultra стал суперчип Grace Blackwell Ultra, объединяющий:

Один Arm-процессор Grace с высокой энергоэффективностью;
Два GPU Blackwell Ultra;
Интерфейс NVLink-C2C с когерентностью памяти.

Вся система работает как единый вычислительный узел с унифицированной памятью объёмом до 1 Тбайт, сочетающей HBM3e и LPDDR5X. Производительность в NVFP4 достигает 40 Пфлопс с разреженностью и 30 Пфлопс без неё. Это делает суперчип идеальной основой для гипермасштабных ИИ-систем.

Система GB300 NVL72: масштабируемость нового поколения

На базе суперчипов Grace Blackwell Ultra построена стоечная система GB300 NVL72, включающая 36 суперчипов (72 GPU). Общая производительность такой системы — 1,1 Эфлопс в FP4 без разреженности. Особенности системы:

Полностью неблокируемая топология NVLink 5;
Высокоэффективное управление питанием с использованием нескольких полок питания;
Сетевые адаптеры ConnectX-8 SuperNIC с поддержкой 800G Ethernet;
Возможность развёртывания как в частных, так и в гиперскалярных дата-центрах.

GB300 открывает путь к созданию ИИ-фабрик, способных обучать и запускать модели с триллионами параметров с экономической эффективностью, недоступной ранее.

Чем NVFP4 лучше FP4 и FP8?

NVFP4 — это гибридный формат, сочетающий микроблочное масштабирование FP8 (E4M3) и тензорное масштабирование FP32. Это позволяет достичь точности, близкой к FP8 (~1% разницы), при потреблении памяти в 1,8 раза меньшем, чем FP8, и в 3,5 раза — по сравнению с FP16. Также NVFP4 поддерживается на аппаратном уровне в тензорных ядрах пятого поколения, что обеспечивает минимальные задержки.

Зачем NVIDIA удвоила пропускную способность SFU?

SFU отвечают за выполнение сложных математических функций, таких как softmax, exp, log — которые критически важны для работы механизма внимания в LLM. Удвоение их пропускной способности позволяет сократить время до первого токена, увеличить количество обрабатываемых запросов и повысить энергоэффективность, особенно при работе с длинными контекстами.

Можно ли использовать Blackwell Ultra для научных расчётов?

Хотя Blackwell Ultra поддерживает FP32 и частично FP64, его архитектура оптимизирована в первую очередь под ИИ-нагрузки. Для традиционных HPC-задач с доминированием FP64 более подходящими остаются специализированные решения, такие как NVIDIA H100 или будущие HPC-ориентированные архитектуры. Blackwell Ultra — это выбор для тех, кто строит масштабные ИИ-системы, а не научные симуляции.

Как Blackwell Ultra влияет на стоимость одного токена?

За счёт NVFP4, увеличенного объёма памяти и оптимизации attention-слоя, Blackwell Ultra позволяет сократить затраты на генерацию одного токена на 40–60% по сравнению с Hopper. Это достигается за счёт большего количества параллельных экземпляров, более быстрого отклика и снижения энергопотребления на операцию.

Где можно купить готовые решения на базе Blackwell Ultra?

Готовые серверные решения и сборки на базе Blackwell Ultra уже доступны у ведущих партнёров NVIDIA. Подробную информацию и консультации можно получить на сайте готовых сборок Server360 или связавшись с командой по адресу контактов.

Как выбрать сервер под Blackwell Ultra: пошаговое руководство

Определите тип нагрузки: если это ИИ-инференс или обучение LLM — Blackwell Ultra подходит идеально; для HPC рассмотрите альтернативы.
Оцените объём моделей: при моделях >100 млрд параметров требуется 288 ГБ HBM3e и поддержка NVLink.
Выберите конфигурацию: отдельный GPU, суперчип Grace Blackwell Ultra или стоечная система GB300.
Убедитесь в наличии охлаждения и питания: Blackwell Ultra потребляет до 1200 Вт на GPU, требуется жидкостное охлаждение.
Подберите накопители: рекомендуются быстрые NVMe SSD для загрузки моделей, подробнее на странице внутренних накопителей.
Обратитесь к поставщику: закажите готовую сборку или консультацию у специалистов.