Una guía completa para 2024

OpenAI puede ser el nombre más conocido cuando se trata de IA generativa comercial, pero Meta ha conseguido hacerse un hueco a través de potentes modelos de lenguaje de gran tamaño de código abierto. Meta reveló su modelo de IA generativa más grande hasta el momento, Llama 3, el 18 de abril, que supera al GPT04 en algunas pruebas estándar de IA.

¿Qué es Llama 3?

Llama 3 es un LLM creado por Meta. Se puede utilizar para crear IA generativa, incluidos chatbots que puedan responder en lenguaje natural a una amplia variedad de consultas. Los casos de uso en los que se ha evaluado Llama 3 incluyen lluvia de ideas, escritura creativa, codificación, resumen de documentos y respuesta a preguntas en la voz de una persona o personaje específico.

El modelo completo Llama 3 viene en cuatro variantes:

8 mil millones de parámetros previamente entrenados.
Instrucción de 8 mil millones de parámetros ajustada.
70 mil millones de parámetros previamente entrenados.
Instrucción de 70 mil millones de parámetros ajustada.

Las capacidades de IA generativa de Llama 3 se pueden utilizar en un navegador, a través de funciones de IA en Facebook, Instagram, WhatsApp y Messenger de Meta. El modelo en sí se puede descargar desde Meta o desde las principales plataformas empresariales en la nube.

¿Cuándo se lanzará Llama 3 y en qué plataformas?

Llama 3 se lanzó el 18 de abril en Google Cloud Vertex AI, watsonx.ai de IBM y otras grandes plataformas de alojamiento LLM. AWS siguió y agregó Llama 3 a Amazon Bedrock el 23 de abril. A partir del 29 de abril, Llama 3 está disponible en las siguientes plataformas:

Ladrillos de datos.
Abrazando la cara.
Kaggle.
Microsoft Azure.
NIM de NVIDIA.

Las plataformas de hardware de AMD, AWS, Dell, Intel, NVIDIA y Qualcomm son compatibles con Llama 3.

¿Llama 3 es de código abierto?

Llama 3 es de código abierto, como lo han sido los otros LLM de Meta. La creación de modelos de código abierto ha sido un valioso diferenciador para Meta.

VER: El informe del índice de IA de Stanford revela 8 tendencias para la IA en los negocios hoy. (República Tecnológica)

Existe cierto debate sobre qué parte del código o los pesos de un modelo de lenguaje grande deben estar disponibles públicamente para contar como código abierto. Pero en lo que respecta a los fines comerciales, Meta ofrece una mirada más abierta a Llama 3 que sus competidores para sus LLM.

¿Llama 3 es gratis?

Llama 3 es gratuito siempre que se utilice según los términos de la licencia. El modelo se puede descargar directamente desde Meta o utilizar dentro de los diversos servicios de alojamiento en la nube enumerados anteriormente, aunque esos servicios pueden tener tarifas asociadas.

La página de inicio de Meta AI en un navegador ofrece opciones sobre qué pedirle a Llama 3 que haga. Imagen: Meta / Captura de pantalla de Megan Crouse

¿Llama 3 es multimodal?

Llama 3 no es multimodal, lo que significa que no es capaz de comprender datos de diferentes modalidades como vídeo, audio o texto. Meta planea hacer que Llama 3 sea multimodal en un futuro próximo.

Mejoras de Llama 3 respecto a Llama 2

Para hacer que Llama 3 sea más capaz que Llama 2, Meta agregó un nuevo tokenizador para codificar el lenguaje de manera mucho más eficiente. Meta mejoró Llama 3 con atención de consultas agrupadas, un método para mejorar la eficiencia de la inferencia del modelo. El conjunto de entrenamiento de Llama 3 es siete veces mayor que el conjunto de entrenamiento utilizado para Llama 2, dijo Meta, e incluye cuatro veces más código. Meta aplicó nuevas eficiencias al preentrenamiento y al ajuste de instrucciones de Llama 3.

Dado que Llama 3 está diseñado como un modelo abierto, Meta agregó barreras de seguridad pensando en los desarrolladores. Una nueva barrera de seguridad es Code Shield, cuyo objetivo es detectar el código inseguro que el modelo pueda producir.

¿Qué sigue para Llama 3?

Meta planea:

Agregue varios idiomas a Llama 3.
Expanda la ventana contextual.
Generalmente aumenta las capacidades del modelo en el futuro.

Meta está trabajando en un modelo de parámetros 400B, que puede ayudar a dar forma a la próxima generación de Llama 3. En las primeras pruebas, Llama 3 400B con ajuste de instrucciones obtuvo una puntuación de 86,1 en la evaluación de conocimientos MMLU (una prueba comparativa de IA), según Meta, lo que lo convierte en competitivo con GPT-4. Llama 400B sería el LLM más grande de Meta hasta el momento.

El lugar de Llama 3 en el competitivo panorama de la IA generativa

Llama 3 compite directamente con GPT-4 y GPT-3.5, Gemini y Gemma de Google, Mistral 7B de Mistral AI, Perplexity AI y otros LLM para uso individual o comercial para construir chatbots de IA generativa y otras herramientas. Aproximadamente una semana después de que se revelara Llama 3, Snowflake presentó su propia IA empresarial abierta con capacidades comparables, llamada Snowflake Arctic.

Los crecientes requisitos de rendimiento de LLM como Llama 3 están contribuyendo a una carrera armamentista de PC con IA que pueden ejecutar modelos al menos parcialmente en el dispositivo. Mientras tanto, las empresas de IA generativa pueden enfrentar un mayor escrutinio por sus grandes necesidades informáticas, lo que podría contribuir a empeorar el cambio climático.

Llama 3 contra GPT-4

Llama 3 supera al GPT-4 de OpenAI en HumanEval, que es un punto de referencia estándar que compara la capacidad del modelo de IA para generar código con el código escrito por humanos. Llama 3 70B obtuvo una puntuación de 81,7, en comparación con la puntuación de 67 de GPT-4.

Sin embargo, GPT-4 superó a Llama 3 en la evaluación de conocimientos MMLU con una puntuación de 86,4 frente a 79,5 de Llama 3 70B. El rendimiento de Llama 3 en más pruebas se puede encontrar en la publicación del blog de Meta.