Google presenta Gemini, su tan esperado modelo de lenguaje grande

Gemini ya está disponible para los consumidores en Bard o Pixel 8 Pro, y un modelo empresarial llegará el 13 de diciembre.

Google ha revelado Gemini, su modelo de lenguaje grande del que se rumorea desde hace mucho tiempo y rival de GPT-4. Los usuarios globales de Google Bard y Pixel 8 Pro podrán ejecutar Gemini a partir de ahora; un producto empresarial, Gemini Pro, llegará el 13 de diciembre. Los desarrolladores pueden registrarse ahora para obtener una vista previa temprana en Android AICore.

Salta a:

¿Qué es Géminis?

Gemini es un modelo de lenguaje grande que ejecuta aplicaciones de inteligencia artificial generativa; puede resumir texto, crear imágenes y responder preguntas. Gemini recibió capacitación en las Unidades de procesamiento tensorial v4 y v5e de Google.

Bard de Google es una IA generativa basada en el modo de lenguaje grande PaLM. A partir de hoy, Gemini se utilizará para darle a Bard “razonamiento, planificación, comprensión y más avanzados”, según un comunicado de prensa de Google.

VER: Microsoft invirtió 3.200 millones de dólares en IA en el Reino Unido. (República Tecnológica)

Opciones de tamaño de Géminis

Gemini viene en tres tamaños de modelo: Ultra, Pro y Nano. Ultra es el más capaz, Nano es el más pequeño y eficiente y Pro se ubica en el medio para tareas generales. La versión Nano es la que Google usa en Pixel, mientras que Bard obtiene Pro. Google dice que planea realizar “extensos controles de confianza y seguridad” antes de lanzar Gemini Ultra a grupos selectos.

Géminis para codificar

Gemini puede codificar en Python, Java, C++, Go y otros lenguajes de programación populares. Google utilizó Gemini para actualizar el sistema de generación de código basado en inteligencia artificial de Google, AlphaCode.

Gemini se agregará a más productos de Google

A continuación, Google planea llevar Gemini a Ads, Chrome y Duet AI. En el futuro, Gemini también se utilizará en la Búsqueda de Google.

Competidores de Géminis

Gemini y los productos creados con él, como los chatbots, competirán con GPT-4 de OpenAI, Copilot de Microsoft (que se basa en GPT-4 de OpenAI), Claude AI de Anthropic, Llama 2 de Meta y más. Google afirma que Gemini Ultra supera a GPT-4 en varios puntos de referencia, incluida la prueba masiva de conocimientos generales de comprensión del lenguaje multitarea y la generación de código Python.

¿Gemini tiene un producto empresarial?

A partir del 13 de diciembre, los clientes y desarrolladores empresariales podrán acceder a Gemini Pro a través de la API Gemini en Vertex AI de Google o Google AI Studio.

Google espera que Gemini Nano esté disponible de forma general para desarrolladores y clientes empresariales a principios de 2024. Los desarrolladores de Android pueden utilizar este LLM para crear aplicaciones Gemini en el dispositivo a través de AndroidAICore.

Posibles casos de uso empresarial para Gemini

De particular interés para los casos de uso empresarial podría ser la capacidad de Gemini de “comprender y razonar sobre las intenciones de los usuarios”, dijo Palash Nandy, director de ingeniería de Google, en un vídeo de demostración. Gemini genera una interfaz de usuario personalizada dependiendo de si el usuario busca imágenes o texto. En la misma interfaz de usuario, Gemini señalará áreas en las que no tiene suficiente información y pedirá aclaraciones. A través de la interfaz de usuario personalizada, el usuario puede explorar otras opciones con cada vez más detalle.

Gemini ha sido entrenado en contenido multimodal desde el principio en lugar de comenzar con texto y expandirse a audio, imágenes y video más tarde, permitiendo a Gemini analizar información escrita o visual con igual agudeza. Un ejemplo de cómo esto podría ser útil para las empresas que ofrece Google es el mensaje “¿Podría Gemini ayudar a hacer una demostración basada en este video?” en el que la IA traduce el contenido del vídeo a una animación original.

El momento de Géminis en comparación con otros LLM populares

Se ha rumoreado mucho sobre Gemini, ya que Google intenta competir con OpenAI. El New York Times informó que los ejecutivos de Google se sintieron “sacudidos” por la tecnología OpenAI en enero de 2023. Más recientemente, Google supuestamente tuvo problemas para lanzar Gemini en otros idiomas además del inglés, lo que provocó un retraso en un evento de lanzamiento en persona.

Sin embargo, lanzar el propio modelo de lenguaje grande de Google después de que ChatGPT haya recibido actualizaciones graduales impulsadas por GPT-4 durante casi un año significa que Google tiene la ventaja de superar el último año de desarrollo de IA. Por ejemplo, Gemini es multimodal (es decir, capaz de trabajar con texto, video, voz y código) y vive de forma nativa en Google Pixel 8. Los usuarios pueden acceder a Gemini en su Google Pixel 8 sin conexión a Internet, a diferencia de ChatGPT, que comenzó en un navegador.