Google, Microsoft, Meta y más desarrollarán componentes de chips de IA

AMD, Broadcom, Cisco, Google, Hewlett Packard Enterprise (HPE), Intel, Meta y Microsoft están combinando su experiencia para crear un estándar industrial abierto para una tecnología de chip de IA llamada Ultra Accelerator Link. La configuración mejorará las comunicaciones de alta velocidad y baja latencia entre chips aceleradores de IA en los centros de datos.

Un estándar abierto mejorará el rendimiento de los clústeres de inteligencia artificial/aprendizaje automático en toda la industria, lo que significa que ninguna empresa en particular capitalizará desproporcionadamente la demanda de las últimas y mejores aplicaciones de IA/ML, computación de alto rendimiento y nube.

Notablemente ausentes del llamado UALink Promoter Group están NVIDIA y Amazon Web Services. De hecho, Promoter Group probablemente tenga la intención de que su nuevo estándar de interconexión derroque el dominio de las dos compañías en el hardware de IA y el mercado de la nube, respectivamente.

UALink Promoter Group espera establecer un consorcio de empresas que gestionarán el desarrollo continuo del estándar UALink en el tercer trimestre de 2024, y se les dará acceso a UALink 1.0 aproximadamente al mismo tiempo. Está previsto que se lance una versión con mayor ancho de banda en el cuarto trimestre de 2024.

VER: Gartner predice que los ingresos mundiales por chips aumentarán un 33% en 2024

¿Qué es UALink y a quién beneficiará?

Ultra Accelerator Link, o UALink, es una forma definida de conectar chips aceleradores de IA en servidores para permitir una comunicación más rápida y eficiente entre ellos.

Los chips aceleradores de IA, como GPU, TPU y otros procesadores de IA especializados, son el núcleo de todas las tecnologías de IA. Cada uno puede realizar una gran cantidad de operaciones complejas simultáneamente; sin embargo, para lograr las altas cargas de trabajo necesarias para entrenar, ejecutar y optimizar modelos de IA, es necesario que estén conectados. Cuanto más rápida sea la transferencia de datos entre los chips aceleradores, más rápido podrán acceder y procesar los datos necesarios y más eficientemente podrán compartir cargas de trabajo.

El primer estándar que será lanzado por UALink Promoter Group, UALink 1.0, incluirá hasta 1.024 aceleradores GPU AI, distribuidos en uno o varios racks en un servidor, conectados a un único Ultra Accelerator Switch. Según UALink Promoter Group, esto “permitirá cargas y almacenamientos directos entre la memoria conectada a los aceleradores de IA y, en general, aumentará la velocidad al tiempo que reducirá la latencia de transferencia de datos en comparación con las especificaciones de interconexión existentes”. También simplificará el aumento de las cargas de trabajo a medida que aumenten las demandas.

Si bien aún no se han publicado detalles sobre UALink, los miembros del grupo dijeron en una sesión informativa el miércoles que UALink 1.0 involucraría la arquitectura Infinity Fabric de AMD, mientras que el Consorcio Ultra Ethernet cubrirá la conexión de múltiples “pods” o conmutadores. Su publicación beneficiará a los OEM de sistemas, los profesionales de TI y los integradores de sistemas que buscan configurar sus centros de datos de una manera que admita altas velocidades, baja latencia y escalabilidad.

¿Qué empresas se sumaron al Grupo Promotor de UALink?

AMD.
Broadcom.
Cisco.
Google.
HPE.
Intel.
Meta.
Microsoft.

Microsoft, Meta y Google han gastado miles de millones de dólares en GPU NVIDIA para sus respectivas tecnologías de nube e inteligencia artificial, incluidos los modelos Llama de Meta, Google Cloud y Microsoft Azure. Sin embargo, respaldar el dominio continuo del hardware de NVIDIA no es un buen augurio para sus respectivos futuros en el espacio, por lo que es aconsejable estudiar una estrategia de salida.

Un conmutador UALink estandarizado permitirá a otros proveedores además de NVIDIA ofrecer aceleradores compatibles, brindando a las empresas de inteligencia artificial una gama de opciones de hardware alternativas sobre las cuales construir su sistema y no sufrir la dependencia de un proveedor.

Esto beneficia a muchas de las empresas del grupo que han desarrollado o están desarrollando sus propias aceleradoras. Google tiene una TPU personalizada y el procesador Axion; Intel tiene a Gaudí; Microsoft tiene las GPU Maia y Cobalt; y Meta tiene MTIA. Todos estos podrían conectarse mediante UALink, que probablemente será proporcionado por Broadcom.

VER: Intel Vision 2024 ofrece una nueva mirada al chip Gaudi 3 AI

¿Qué empresas en particular no se han unido al UALink Promoter Group?

Nvidia

Es probable que NVIDIA no se haya unido al grupo por dos razones principales: su dominio del mercado en hardware relacionado con la IA y su exorbitante cantidad de potencia derivada de su alto valor.

Actualmente, la empresa posee aproximadamente el 80% de la participación de mercado de GPU, pero también es un actor importante en la tecnología de interconexión con NVLink, Infiniband y Ethernet. NVLink específicamente es una tecnología de interconexión de GPU a GPU, que puede conectar aceleradores dentro de uno o varios servidores, al igual que UALink. Por tanto, no sorprende que NVIDIA no quiera compartir esa innovación con sus rivales más cercanos.

Además, según sus últimos resultados financieros, NVIDIA está cerca de superar a Apple y convertirse en la segunda empresa más valiosa del mundo, duplicando su valor hasta más de 2 billones de dólares en sólo nueve meses.

La empresa no espera ganar mucho con la estandarización de la tecnología de IA y su posición actual también es favorable. El tiempo dirá si la oferta de NVIDIA se volverá tan integral para las operaciones del centro de datos que los primeros productos UALink no derriben su corona.

VER: Supercomputación ’23: los chips de alto rendimiento de NVIDIA impulsan las cargas de trabajo de IA

Servicios web de Amazon

AWS es el único de los principales proveedores de nube pública que no se une al UALink Promoter Group. Al igual que NVIDIA, esto también podría estar relacionado con su influencia como actual líder del mercado de la nube y el hecho de que está trabajando en sus propias familias de chips aceleradores, como Trainium e Inferentia. Además, con una sólida asociación de más de 12 años, AWS también podría prestarse para esconderse detrás de NVIDIA en este ámbito.

¿Por qué son necesarios los estándares abiertos en IA?

Los estándares abiertos ayudan a evitar el dominio desproporcionado de la industria por parte de una empresa que se encontraba en el lugar correcto en el momento correcto. UALink Promoter Group permitirá que varias empresas colaboren en el hardware esencial para los centros de datos de IA para que ninguna organización pueda hacerse cargo de todo.

Este no es el primer caso de este tipo de revuelta en la IA; En diciembre, más de 50 organizaciones se asociaron para formar la Alianza global de IA para promover la IA responsable y de código abierto y ayudar a evitar que los desarrolladores de modelos cerrados obtengan demasiado poder.

El intercambio de conocimientos también sirve para acelerar los avances en el rendimiento de la IA a escala de toda la industria. La demanda de computación de IA crece continuamente y, para que las empresas de tecnología puedan mantenerse al día, necesitan lo mejor en capacidades de ampliación. El estándar UALink proporcionará una “red de ampliación robusta, de baja latencia y eficiente que puede agregar fácilmente recursos informáticos a una sola instancia”, según el grupo.

Forrest Norrod, vicepresidente ejecutivo y director general del Grupo de Soluciones de Centro de Datos de AMD, dijo en un comunicado de prensa: “El trabajo que están realizando las empresas en UALink para crear un tejido acelerador abierto, de alto rendimiento y escalable es fundamental para el futuro. de IA.

“Juntos, aportamos una amplia experiencia en la creación de inteligencia artificial a gran escala y soluciones informáticas de alto rendimiento que se basan en estándares abiertos, eficiencia y un sólido soporte de ecosistema. AMD se compromete a contribuir con nuestra experiencia, tecnologías y capacidades al grupo, así como con otros esfuerzos abiertos de la industria para avanzar en todos los aspectos de la tecnología de IA y solidificar un ecosistema de IA abierto”.