Google TPU v7 Ironwood и CPU Axion: новый ИИ-гиперкомпьютер для масштабного обучения моделей — Server360.ru

Новый этап в эволюции ИИ-инфраструктуры: Google запускает собственные процессоры для гипермасштабных вычислений

Google Cloud официально анонсировала релиз двух ключевых компонентов будущего ИИ-гиперкомпьютера: тензорного процессора нового поколения TPU v7 Ironwood и собственного серверного центрального процессора Axion на базе архитектуры Armv9. Эти решения направлены на обеспечение беспрецедентной производительности, энергоэффективности и масштабируемости для обучения и вывода крупных языковых моделей (LLM), мультимодальных систем и других вычислительно интенсивных задач ИИ.

Как подчеркивают аналитики, релиз Ironwood и Axion — это стратегический шаг Google к полной автономии в построении ИИ-инфраструктуры. Вместо зависимости от сторонних поставщиков оборудования компания создаёт единый, оптимизированный «стек» на основе собственных разработок, что позволяет достичь беспрецедентной синергии между вычислительными блоками, памятью, сетью и программным стеком.

TPU v7 Ironwood: рекордные 42,5 EFLOPS для ИИ-моделей следующего поколения

Google TPU v7 Ironwood — это самый мощный на сегодняшний день тензорный ускоритель, разработанный специально для масштабного обучения ИИ-моделей. Его ключевые характеристики впечатляют:

Производительность: 4614 FP8 TFLOPS на одном чипе;
Память: 192 ГБ HBM3E с пропускной способностью до 7,37 ТБ/с;
Масштабируемость: кластер может объединять до 9216 TPU;
Суммарная мощность: 42,5 EFLOPS (экзафлопс) в FP8;
Общий объём памяти кластера: до 1,77 ПБ HBM3E.

Для сравнения: Nvidia GB300 NVL72, считающаяся флагманом ИИ-ускорителей от конкурента, обеспечивает всего около 0,72 EFLOPS. Это делает новую платформу Google более чем в 59 раз производительнее в сегменте пиковой вычислительной мощности для ИИ-моделей. Разумеется, такое преимущество достигается за счёт масштаба: кластер Ironwood объединяет тысячи чипов, тогда как GB300 NVL72 — всего 72 GPU.

Критически важным элементом является собственная межчиповая связь Google с пропускной способностью 9,6 Тбит/с на под. Эта архитектура обеспечивает минимальные задержки и максимальную пропускную способность между ускорителями, что критично для распределённого обучения крупных моделей, где обмен данными между чипами может стать «узким местом».

CPU Axion: первый серверный процессор Google на базе Armv9

Помимо TPU, Google представила и собственный центральный процессор общего назначения — Axion. Он разработан на основе архитектуры Armv9 и предназначен для обработки базовых серверных нагрузок, управления I/O и координации работы ИИ-ускорителей.

Компания заявляет, что Axion превосходит современные x86-процессоры:

на 50% по производительности;
на 60% по энергоэффективности;
на 30% по производительности относительно других Arm-инстансов в облаке.

Ключевые технические характеристики Axion:

до 96 виртуальных ядер (в конфигурации C4A Metal);
до 768 ГБ DDR5-5600;
80 МБ L3-кэша;
поддержка унифицированного доступа к памяти (UMA);
аппаратная разгрузка сети и I/O через контроллеры Titanium.

Три конфигурации инстансов на базе Axion для разных задач

Google Cloud предлагает три типа виртуальных машин на базе CPU Axion:

Инстанс	vCPU	Память	Сеть	Хранилище	Назначение
C4A	до 72	до 576 ГБ DDR5	100 Гбит/с	SSD Titanium до 6 ТБ	ИИ-обучение, высокопроизводительные вычисления
N4A	до 64	до 512 ГБ DDR5	50 Гбит/с	SSD Titanium до 4 ТБ	Общие рабочие нагрузки, веб-приложения
C4A Metal	до 96	до 768 ГБ DDR5	100 Гбит/с	SSD Titanium до 6 ТБ	Безопасные ИИ-разработки, bare-metal приложения

Такое разнообразие конфигураций позволяет клиентам оптимально подбирать ресурсы под специфику своих задач — от массовых веб-сервисов до специализированных ИИ-проектов с требованиями к bare-metal производительности.

ИИ-гиперкомпьютер Google: единая отказоустойчивая экосистема

Объединяя TPU v7 Ironwood и CPU Axion, Google создаёт полноценный ИИ-гиперкомпьютер, способный масштабироваться до сотен тысяч чипов. Архитектура платформы включает:

единое управление вычислениями, хранилищем и сетью;
реконфигурируемую оптическую сеть на основе технологии Optical Circuit Switching;
мгновенное перенаправление трафика при сбоях;
полная программная и аппаратная интеграция компонентов.

Такая архитектура обеспечивает не только максимальную производительность, но и беспрецедентную отказоустойчивость и эффективность. По заявлению Google, использование нового суперкластера позволяет корпоративным клиентам:

повысить рентабельность инвестиций (ROI) на 353% за три года;
снизить общую стоимость владения (TCO) на 28%;
увеличить операционную эффективность на 55%.

Практическое применение: кто уже использует Ironwood и Axion

Ранние клиенты уже подтвердили интерес к новой платформе:

Anthropic планирует использовать до одного миллиона TPU для масштабирования своих ИИ-моделей серии Claude;
Lightricks — разработчик креативных ИИ-инструментов — будет применять Ironwood для обучения и обслуживания мультимодальной системы LTX-2.

Это говорит о том, что платформа уже готова к работе с реальными, масштабными ИИ-проектами, а не является только технологическим прототипом.

Как выбрать серверную платформу под ИИ-нагрузки в 2025 году

Появление Axion и Ironwood кардинально меняет баланс сил на рынке ИИ-инфраструктуры. Однако не всегда целесообразно переходить на облачные решения от Google. Многие компании, особенно в России и странах СНГ, по-прежнему отдают предпочтение on-premise или гибридным архитектурам.

При выборе серверной платформы под ИИ важно учитывать:

Тип задачи: обучение требует максимальной памяти и пропускной способности, вывод — низкой задержки;
Масштабируемость: возможность горизонтального и вертикального масштабирования;
Энергоэффективность: особенно критична для ЦОД с ограничениями по мощности;
Поддержка ПО: совместимость с фреймворками (TensorFlow, PyTorch и др.);
Стоимость владения: TCO включает не только оборудование, но и обслуживание, ПО, энергопотребление.

Для тех, кто строит собственную ИИ-инфраструктуру, стоит обратить внимание на современные компоненты:

серверные платформы от ведущих производителей;
серверные процессоры Intel Xeon и AMD EPYC;
оперативную память DDR5 с поддержкой ECC и высокой частотой;
внутренние накопители NVMe и U.2 для быстрого доступа к данным.

Как собрать ИИ-сервер для локального развертывания: пошаговая инструкция

Определите тип задачи: обучение требует GPU/TPU и много RAM, вывод — можно на CPU.
Выберите серверную платформу с поддержкой нужного количества PCIe-слотов и RAM.
Установите серверные процессоры с большим количеством ядер и кэшем L3.
Добавьте не менее 512 ГБ оперативной памяти DDR5 ECC для стабильности.
Установите NVMe-накопители (1–4 ТБ) для быстрой загрузки моделей и обработки данных.
Настройте ОС (Ubuntu LTS, Rocky Linux) и среду ИИ (CUDA, Docker, PyTorch/TensorFlow).
Оптимизируйте параметры ядра Linux под ИИ-нагрузки (например, отключите swap, настройте huge pages).

FAQ: часто задаваемые вопросы о TPU v7 Ironwood и CPU Axion

Можно ли использовать TPU v7 Ironwood вне Google Cloud?

Нет, TPU Ironwood доступен исключительно как часть инфраструктуры Google Cloud. Это проприетарное решение, не поставляемое в виде физических компонентов для сторонних ЦОД.

Подходит ли Axion для обычных серверных задач, не связанных с ИИ?

Да, инстансы N4A на базе Axion оптимизированы именно для общих рабочих нагрузок — баз данных, веб-приложений, контейнерных сред и т.д.

Какова конкурентная позиция Ironwood против Nvidia H100 и GB200?

По пиковой производительности в FP8 Ironwood значительно опережает даже GB200. Однако Nvidia сохраняет преимущество в экосистеме ПО, совместимости и доступности для on-premise решений.

Будет ли Google продавать Axion как отдельный процессор?

На данный момент Google не анонсировала продажу Axion в розницу или OEM. Процессор используется только внутри инфраструктуры Google Cloud.

Какие компании уже перешли на платформу Ironwood + Axion?

Среди первых клиентов — Anthropic и Lightricks. Ожидается, что в ближайшие месяцы к ним присоединятся и другие ведущие ИИ-компании.