Новый этап в эволюции ИИ-инфраструктуры: Google запускает собственные процессоры для гипермасштабных вычислений
Google Cloud официально анонсировала релиз двух ключевых компонентов будущего ИИ-гиперкомпьютера: тензорного процессора нового поколения TPU v7 Ironwood и собственного серверного центрального процессора Axion на базе архитектуры Armv9. Эти решения направлены на обеспечение беспрецедентной производительности, энергоэффективности и масштабируемости для обучения и вывода крупных языковых моделей (LLM), мультимодальных систем и других вычислительно интенсивных задач ИИ.
Как подчеркивают аналитики, релиз Ironwood и Axion — это стратегический шаг Google к полной автономии в построении ИИ-инфраструктуры. Вместо зависимости от сторонних поставщиков оборудования компания создаёт единый, оптимизированный «стек» на основе собственных разработок, что позволяет достичь беспрецедентной синергии между вычислительными блоками, памятью, сетью и программным стеком.
TPU v7 Ironwood: рекордные 42,5 EFLOPS для ИИ-моделей следующего поколения
Google TPU v7 Ironwood — это самый мощный на сегодняшний день тензорный ускоритель, разработанный специально для масштабного обучения ИИ-моделей. Его ключевые характеристики впечатляют:
- Производительность: 4614 FP8 TFLOPS на одном чипе;
- Память: 192 ГБ HBM3E с пропускной способностью до 7,37 ТБ/с;
- Масштабируемость: кластер может объединять до 9216 TPU;
- Суммарная мощность: 42,5 EFLOPS (экзафлопс) в FP8;
- Общий объём памяти кластера: до 1,77 ПБ HBM3E.
Для сравнения: Nvidia GB300 NVL72, считающаяся флагманом ИИ-ускорителей от конкурента, обеспечивает всего около 0,72 EFLOPS. Это делает новую платформу Google более чем в 59 раз производительнее в сегменте пиковой вычислительной мощности для ИИ-моделей. Разумеется, такое преимущество достигается за счёт масштаба: кластер Ironwood объединяет тысячи чипов, тогда как GB300 NVL72 — всего 72 GPU.
Критически важным элементом является собственная межчиповая связь Google с пропускной способностью 9,6 Тбит/с на под. Эта архитектура обеспечивает минимальные задержки и максимальную пропускную способность между ускорителями, что критично для распределённого обучения крупных моделей, где обмен данными между чипами может стать «узким местом».
CPU Axion: первый серверный процессор Google на базе Armv9
Помимо TPU, Google представила и собственный центральный процессор общего назначения — Axion. Он разработан на основе архитектуры Armv9 и предназначен для обработки базовых серверных нагрузок, управления I/O и координации работы ИИ-ускорителей.
Компания заявляет, что Axion превосходит современные x86-процессоры:
- на 50% по производительности;
- на 60% по энергоэффективности;
- на 30% по производительности относительно других Arm-инстансов в облаке.
Ключевые технические характеристики Axion:
- до 96 виртуальных ядер (в конфигурации C4A Metal);
- до 768 ГБ DDR5-5600;
- 80 МБ L3-кэша;
- поддержка унифицированного доступа к памяти (UMA);
- аппаратная разгрузка сети и I/O через контроллеры Titanium.
Три конфигурации инстансов на базе Axion для разных задач
Google Cloud предлагает три типа виртуальных машин на базе CPU Axion:
| Инстанс | vCPU | Память | Сеть | Хранилище | Назначение |
|---|---|---|---|---|---|
| C4A | до 72 | до 576 ГБ DDR5 | 100 Гбит/с | SSD Titanium до 6 ТБ | ИИ-обучение, высокопроизводительные вычисления |
| N4A | до 64 | до 512 ГБ DDR5 | 50 Гбит/с | SSD Titanium до 4 ТБ | Общие рабочие нагрузки, веб-приложения |
| C4A Metal | до 96 | до 768 ГБ DDR5 | 100 Гбит/с | SSD Titanium до 6 ТБ | Безопасные ИИ-разработки, bare-metal приложения |
Такое разнообразие конфигураций позволяет клиентам оптимально подбирать ресурсы под специфику своих задач — от массовых веб-сервисов до специализированных ИИ-проектов с требованиями к bare-metal производительности.
ИИ-гиперкомпьютер Google: единая отказоустойчивая экосистема
Объединяя TPU v7 Ironwood и CPU Axion, Google создаёт полноценный ИИ-гиперкомпьютер, способный масштабироваться до сотен тысяч чипов. Архитектура платформы включает:
- единое управление вычислениями, хранилищем и сетью;
- реконфигурируемую оптическую сеть на основе технологии Optical Circuit Switching;
- мгновенное перенаправление трафика при сбоях;
- полная программная и аппаратная интеграция компонентов.
Такая архитектура обеспечивает не только максимальную производительность, но и беспрецедентную отказоустойчивость и эффективность. По заявлению Google, использование нового суперкластера позволяет корпоративным клиентам:
- повысить рентабельность инвестиций (ROI) на 353% за три года;
- снизить общую стоимость владения (TCO) на 28%;
- увеличить операционную эффективность на 55%.
Практическое применение: кто уже использует Ironwood и Axion
Ранние клиенты уже подтвердили интерес к новой платформе:
- Anthropic планирует использовать до одного миллиона TPU для масштабирования своих ИИ-моделей серии Claude;
- Lightricks — разработчик креативных ИИ-инструментов — будет применять Ironwood для обучения и обслуживания мультимодальной системы LTX-2.
Это говорит о том, что платформа уже готова к работе с реальными, масштабными ИИ-проектами, а не является только технологическим прототипом.
Как выбрать серверную платформу под ИИ-нагрузки в 2025 году
Появление Axion и Ironwood кардинально меняет баланс сил на рынке ИИ-инфраструктуры. Однако не всегда целесообразно переходить на облачные решения от Google. Многие компании, особенно в России и странах СНГ, по-прежнему отдают предпочтение on-premise или гибридным архитектурам.
При выборе серверной платформы под ИИ важно учитывать:
- Тип задачи: обучение требует максимальной памяти и пропускной способности, вывод — низкой задержки;
- Масштабируемость: возможность горизонтального и вертикального масштабирования;
- Энергоэффективность: особенно критична для ЦОД с ограничениями по мощности;
- Поддержка ПО: совместимость с фреймворками (TensorFlow, PyTorch и др.);
- Стоимость владения: TCO включает не только оборудование, но и обслуживание, ПО, энергопотребление.
Для тех, кто строит собственную ИИ-инфраструктуру, стоит обратить внимание на современные компоненты:
- серверные платформы от ведущих производителей;
- серверные процессоры Intel Xeon и AMD EPYC;
- оперативную память DDR5 с поддержкой ECC и высокой частотой;
- внутренние накопители NVMe и U.2 для быстрого доступа к данным.
Как собрать ИИ-сервер для локального развертывания: пошаговая инструкция
- Определите тип задачи: обучение требует GPU/TPU и много RAM, вывод — можно на CPU.
- Выберите серверную платформу с поддержкой нужного количества PCIe-слотов и RAM.
- Установите серверные процессоры с большим количеством ядер и кэшем L3.
- Добавьте не менее 512 ГБ оперативной памяти DDR5 ECC для стабильности.
- Установите NVMe-накопители (1–4 ТБ) для быстрой загрузки моделей и обработки данных.
- Настройте ОС (Ubuntu LTS, Rocky Linux) и среду ИИ (CUDA, Docker, PyTorch/TensorFlow).
- Оптимизируйте параметры ядра Linux под ИИ-нагрузки (например, отключите swap, настройте huge pages).
FAQ: часто задаваемые вопросы о TPU v7 Ironwood и CPU Axion
Можно ли использовать TPU v7 Ironwood вне Google Cloud?
Нет, TPU Ironwood доступен исключительно как часть инфраструктуры Google Cloud. Это проприетарное решение, не поставляемое в виде физических компонентов для сторонних ЦОД.
Подходит ли Axion для обычных серверных задач, не связанных с ИИ?
Да, инстансы N4A на базе Axion оптимизированы именно для общих рабочих нагрузок — баз данных, веб-приложений, контейнерных сред и т.д.
Какова конкурентная позиция Ironwood против Nvidia H100 и GB200?
По пиковой производительности в FP8 Ironwood значительно опережает даже GB200. Однако Nvidia сохраняет преимущество в экосистеме ПО, совместимости и доступности для on-premise решений.
Будет ли Google продавать Axion как отдельный процессор?
На данный момент Google не анонсировала продажу Axion в розницу или OEM. Процессор используется только внутри инфраструктуры Google Cloud.
Какие компании уже перешли на платформу Ironwood + Axion?
Среди первых клиентов — Anthropic и Lightricks. Ожидается, что в ближайшие месяцы к ним присоединятся и другие ведущие ИИ-компании.
