Google Cloud amplía la infraestructura de inteligencia artificial con TPU de sexta generación

Google Cloud mejorará la infraestructura de la nube de IA con nuevas TPU y GPU NVIDIA, anunció la compañía de tecnología el 30 de octubre en el App Day & Infrastructure Summit.

Ahora en versión preliminar para los clientes de la nube, la sexta generación de Trillium NPU impulsa muchos de los servicios más populares de Google Cloud, incluidos Search y Maps.

“A través de estos avances en la infraestructura de IA, Google Cloud permite a las empresas y a los investigadores redefinir los límites de la innovación en IA”, escribió en un comunicado de prensa Mark Lohmeyer, vicepresidente y director general de Infraestructura de Computación e IA de Google Cloud. “Esperamos con ansias las nuevas y transformadoras aplicaciones de IA que surgirán de esta poderosa base”.

Trillium NPU acelera los procesos generativos de IA

A medida que crecen los grandes modelos lingüísticos, también debe hacerlo el silicio que los soporta.

La sexta generación de Trillium NPU ofrece capacitación, inferencia y entrega de aplicaciones de modelos de lenguaje grandes a 91 exaflops en un clúster de TPU. Google Cloud informa que la versión de sexta generación ofrece un aumento de 4,7 veces en el rendimiento informático máximo por chip en comparación con la quinta generación. Duplica la capacidad de la memoria de alto ancho de banda y el ancho de banda de interconexión Interchip.

Trillium satisface las altas demandas informáticas de los modelos de difusión a gran escala como Stable Diffusion XL. En su apogeo, la infraestructura Trillium puede vincular decenas de miles de chips, creando lo que Google Cloud describe como “una supercomputadora a escala de edificio”.

Los clientes empresariales han estado pidiendo una aceleración de la IA más rentable y un mayor rendimiento de inferencia, dijo Mohan Pichika, gerente de producto del grupo de infraestructura de IA en Google Cloud, en un correo electrónico a TechRepublic.

En el comunicado de prensa, Deniz Tuna, cliente de Google Cloud y jefe de desarrollo de la empresa de desarrollo de aplicaciones móviles HubX, señaló: “Utilizamos Trillium TPU para la creación de texto a imagen con MaxDiffusion y FLUX.1 y los resultados son sorprendentes. Pudimos generar cuatro imágenes en 7 segundos: ¡eso es una mejora del 35 % en la latencia de respuesta y una reducción de ~45 % en el costo/imagen en comparación con nuestro sistema actual!

Nuevas máquinas virtuales anticipan la entrega del chip NVIDIA Blackwell

En noviembre, Google agregará máquinas virtuales A3 Ultra con tecnología de GPU NVIDIA H200 Tensor Core a sus servicios en la nube. Las máquinas virtuales A3 Ultra ejecutan IA o cargas de trabajo informáticas de alta potencia en la red del centro de datos de Google Cloud a 3,2 Tbps de tráfico de GPU a GPU. También ofrecen a los clientes:

Integración con hardware NVIDIA ConnectX-7.
2 veces el ancho de banda de red de GPU a GPU en comparación con el punto de referencia anterior, A3 Mega.
Rendimiento de inferencia LLM hasta 2 veces mayor.
Casi el doble de capacidad de memoria.
1,4 veces más ancho de banda de memoria.

Las nuevas máquinas virtuales estarán disponibles a través de Google Cloud o Google Kubernetes Engine.

VER: Las GPU Blackwell están agotadas para el próximo año, dijo el director ejecutivo de Nvidia, Jensen Huang, en una reunión de inversores en octubre.

Las actualizaciones adicionales de la infraestructura de Google Cloud respaldan la creciente industria de LLM empresarial

Naturalmente, las ofertas de infraestructura de Google Cloud interoperan. Por ejemplo, el A3 Mega cuenta con el respaldo de la red de centros de datos de Júpiter, que pronto verá su propia mejora centrada en las cargas de trabajo de IA.

Con su nuevo adaptador de red, la capacidad de descarga de host de Titanium ahora se adapta de manera más efectiva a las diversas demandas de las cargas de trabajo de IA. El adaptador de red Titanium ML utiliza hardware NVIDIA ConnectX-7 y la red alineada con rieles de 4 vías en todo el centro de datos de Google Cloud para entregar 3,2 Tbps de tráfico de GPU a GPU. Los beneficios de esta combinación fluyen hasta Júpiter, la estructura de red de conmutación de circuitos ópticos de Google Cloud.

Otro elemento clave de la infraestructura de IA de Google Cloud es la potencia de procesamiento necesaria para el entrenamiento y la inferencia de IA. Hypercompute Cluster, que reúne una gran cantidad de aceleradores de IA, contiene máquinas virtuales A3 Ultra. Hypercompute Cluster se puede configurar mediante una llamada API, aprovecha bibliotecas de referencia como JAX o PyTorch y admite modelos abiertos de IA como Gemma2 y Llama3 para realizar evaluaciones comparativas.

Los clientes de Google Cloud podrán acceder a Hypercompute Cluster con máquinas virtuales A3 Ultra y adaptadores de red Titanium ML en noviembre.

Estos productos responden a las solicitudes de los clientes empresariales de utilización optimizada de la GPU y acceso simplificado a la infraestructura de IA de alto rendimiento, afirmó Pichika.

“Hypercompute Cluster proporciona una solución fácil de usar para que las empresas aprovechen el poder de AI Hypercomputer para el entrenamiento e inferencia de IA a gran escala”, dijo por correo electrónico.

Google Cloud también está preparando bastidores para las próximas GPU Blackwell GB200 NVL72 de NVIDIA, cuya adopción se prevé para los hiperescaladores a principios de 2025. Una vez que estén disponibles, estas GPU se conectarán a la serie de máquinas virtuales basadas en procesadores Axion de Google, aprovechando los procesadores Arm personalizados de Google.

Pichika se negó a abordar directamente si el momento de Hypercompute Cluster o Titanium ML estaba relacionado con retrasos en la entrega de las GPU Blackwell: “Estamos entusiasmados de continuar nuestro trabajo juntos para ofrecer a los clientes lo mejor de ambas tecnologías”.

Dos servicios más, el servicio de almacenamiento en bloque centrado en AI/ML Hyperdisk ML y el sistema de archivos paralelo centrado en AI/HPC Parallestore, ya están disponibles de forma generalizada.

Se puede acceder a los servicios de Google Cloud en numerosas regiones internacionales.

Competidores de Google Cloud para alojamiento de IA

Google Cloud compite principalmente con Amazon Web Services y Microsoft Azure en el alojamiento en la nube de grandes modelos lingüísticos. Alibaba, IBM, Oracle, VMware y otros ofrecen conjuntos similares de grandes recursos de modelos de lenguaje, aunque no siempre a la misma escala.

Según Statista, Google Cloud poseía el 10% del mercado mundial de servicios de infraestructura en la nube en el primer trimestre de 2024. Amazon AWS poseía el 34% y Microsoft Azure el 25%.