OpenAI retira la voz de ChatGPT que sonaba como Scarlett Johansson

Scarlett Johansson asiste a la Fiesta de los Oscar de Vanity Fair 2020 organizada por Radhika Jones en el Centro Wallis Annenberg para las Artes Escénicas el 9 de febrero de 2020 en Beverly Hills, California.

Karwai Tang | Getty Images Entretenimiento | imágenes falsas

OpenAI anunció que retiraría una de las voces de ChatGPT llamada “Sky” después de que generó controversia por su parecido con la voz de la actriz Scarlett Johansson en “Her”, una película sobre inteligencia artificial.

“Hemos escuchado preguntas sobre cómo elegimos las voces en ChatGPT, especialmente Sky”, dijo el microsoft-La empresa respaldada publicó en X. “Estamos trabajando para pausar el uso de Sky mientras los abordamos”.

La película de ciencia ficción de 2013 “Her” trata sobre un hombre que se enamora de un sistema de inteligencia artificial llamado Samantha, con la voz de Johansson.

La noticia llega una semana después de que OpenAI presentara una gama de voces de audio para ChatGPT, su chatbot viral, un nuevo modelo de IA llamado GPT-4o y una versión de escritorio de ChatGPT.

Los usuarios que vieron la demostración en vivo de las capacidades de audio de ChatGPT inmediatamente comenzaron a publicar en las redes sociales que la voz de “Sky” sonaba como Johansson en la película. El CEO de OpenAI, Sam Altman, aparentemente hizo referencia a la película en una publicación en X, simplemente escribiendo “ella”.

En una publicación de blog del domingo, OpenAI escribió que las cinco voces del chatbot (Breeze, Cove, Ember, Juniper y Sky) fueron seleccionadas a través de un proceso de casting y grabación que duró cinco meses. Los profesionales del casting recibieron alrededor de 400 presentaciones de actores de voz y cine y redujeron ese número a 14, según la compañía. Luego, un equipo interno seleccionó a los cinco finalistas.

“La voz de Sky no es una imitación de Scarlett Johansson sino que pertenece a una actriz profesional diferente que usa su propia voz natural”, escribió la compañía. “Para proteger su privacidad, no podemos compartir los nombres de nuestros locutores”.

OpenAI planea probar el modo de voz en las próximas semanas, con acceso temprano para suscriptores pagos a ChatGPT Plus, según publicaciones de blog recientes, y también planea agregar nuevas voces. OpenAI también dijo que el nuevo modelo puede responder a las indicaciones de audio de los usuarios “en tan solo 232 milisegundos, con un promedio de 320 milisegundos, que es similar al tiempo de respuesta humana en una conversación”.

La empresa, fundada en 2015, ha sido valorada por los inversores en más de 80.000 millones de dólares. Está bajo presión para liderar el mercado de la IA generativa y al mismo tiempo encontrar formas de ganar dinero mientras gasta enormes sumas de dinero en procesadores e infraestructura para construir y entrenar sus modelos.

OpenAI, Microsoft y Google están a la cabeza de una fiebre del oro generativa de la IA a medida que empresas de aparentemente todos los sectores compiten por agregar chatbots y agentes impulsados por IA para evitar quedarse atrás por parte de los competidores. A principios de este mes, Anthropic, rival de OpenAI, anunció su primera oferta empresarial y una aplicación gratuita para iPhone.

Según PitchBook, se invirtió una cifra récord de 29.100 millones de dólares en casi 700 acuerdos de IA generativa en 2023, un aumento de más del 260% con respecto al año anterior. Se prevé que el mercado superará el billón de dólares en ingresos en una década.

En la presentación en vivo de la semana pasada, los miembros del equipo de OpenAI demostraron las capacidades de audio de ChatGPT. Por ejemplo, se pidió al chatbot que ayudara a calmar a alguien antes de un discurso público.

El investigador de OpenAI, Mark Chen, demostró la capacidad del modelo para contar un cuento antes de dormir y le pidió que cambiara el tono de su voz para que fuera más dramático o robótico. Incluso le pidió que cantara la historia. El equipo también le pidió que analizara la expresión facial de un usuario para comentar las emociones que la persona podría estar experimentando.

“Hola, ¿qué pasa? ¿Cómo puedo alegrarte el día hoy?” El modo de audio de ChatGPT decía cuando un usuario lo saludaba.