OpenAI busca una nueva forma de combatir las ‘alucinaciones’ de la IA

OpenAI está tomando el relevo contra las “alucinaciones” de IA, anunció la compañía el miércoles, con un método más nuevo para entrenar modelos de IA.

La investigación llega en un momento en que la desinformación derivada de los sistemas de IA se debate más acaloradamente que nunca, en medio del auge generativo de la IA y el período previo a las elecciones presidenciales de EE. UU. de 2024. OpenAI aceleró el auge de la IA generativa el año pasado cuando lanzó ChatGPT, su chatbot impulsado por GPT-3 y GPT-4, y superó los 100 millones de usuarios mensuales en dos meses, según se informa, estableciendo un récord para la aplicación de más rápido crecimiento. Hasta la fecha, microsoft ha invertido más de $ 13 mil millones en OpenAI, y el valor de la puesta en marcha ha alcanzado aproximadamente $ 29 mil millones.

Las alucinaciones de IA ocurren cuando modelos como ChatGPT de OpenAI o GoogleLos Bardo de ‘s fabrican información por completo, comportándose como si estuvieran soltando hechos. Un ejemplo: en el video promocional de febrero de Google para Bard, el chatbot hace una afirmación falsa sobre el telescopio espacial James Webb. Más recientemente, ChatGPT citó casos “falsos” en una presentación ante un tribunal federal de Nueva York, y los abogados de Nueva York involucrados pueden enfrentar sanciones.

“Incluso los modelos de última generación son propensos a producir falsedades: exhiben una tendencia a inventar hechos en momentos de incertidumbre”, escribieron los investigadores de OpenAI en el informe. “Estas alucinaciones son particularmente problemáticas en dominios que requieren un razonamiento de varios pasos, ya que un solo error lógico es suficiente para descarrilar una solución mucho más grande”.

La nueva estrategia potencial de OpenAI para luchar contra las fabricaciones: entrenar modelos de IA para recompensarse a sí mismos por cada paso individual correcto de razonamiento cuando llegan a una respuesta, en lugar de solo recompensar una conclusión final correcta. El enfoque se llama “supervisión de procesos”, en lugar de “supervisión de resultados”, y podría conducir a una IA mejor explicable, según los investigadores, ya que la estrategia alienta a los modelos a seguir una cadena de enfoque de “pensamiento” más similar a la humana.

“Detectar y mitigar los errores lógicos de un modelo, o alucinaciones, es un paso fundamental para construir AGI alineado [or artificial general intelligence]”, Karl Cobbe, investigador de matemáticas en OpenAI, dijo a CNBC, señalando que si bien OpenAI no inventó el enfoque de supervisión de procesos, la compañía está ayudando a impulsarlo. “La motivación detrás de esta investigación es abordar las alucinaciones para hacer que los modelos sean más capaz de resolver problemas de razonamiento desafiantes”.

OpenAI ha publicado un conjunto de datos adjunto de 800.000 etiquetas humanas que utilizó para entrenar el modelo mencionado en el documento de investigación, dijo Cobbe.

Ben Winters, asesor principal del Centro de información de privacidad electrónica y líder de su proyecto de IA y derechos humanos, expresó su escepticismo y le dijo a CNBC que estaría interesado en ver el conjunto de datos completo y los ejemplos que lo acompañan.

“Simplemente no creo que esto por sí solo mitigue significativamente las preocupaciones sobre la desinformación y los resultados incorrectos… cuando en realidad se usa en la naturaleza”, dijo Winters. Agregó: “Definitivamente importa si planean implementar lo que sea que hayan encontrado a través de su investigación aquí. [into their products]y si no lo son, eso genera algunas preguntas bastante serias sobre lo que están dispuestos a lanzar al público”.

Dado que no está claro si el documento de OpenAI ha sido revisado por pares o revisado en otro formato, Suresh Venkatasubramanian, director del centro de responsabilidad tecnológica de la Universidad de Brown, dijo a CNBC que considera la investigación más como una observación preliminar que cualquier otra cosa.

“Esto tendrá que sacudirse en la comunidad de investigación antes de que podamos decir algo seguro al respecto”, dijo Venkatasubramanian. “En este mundo, hay muchos resultados que aparecen con mucha regularidad y, debido a la inestabilidad general en el funcionamiento de los grandes modelos lingüísticos, lo que podría funcionar en un entorno, modelo y contexto puede no funcionar en otro entorno, modelo y contexto. .”

Venkatasubramanian agregó: “Algunas de las cosas alucinatorias que preocupan a la gente son [models] Elaboración de citas y referencias. No hay evidencia en este documento de que esto funcione para eso… No es que esté diciendo que no funcionará; Estoy diciendo que este documento no proporciona esa evidencia”.

OpenAI no respondió a una solicitud de comentarios preguntando si la investigación había sido revisada externamente de alguna manera, o cuándo, si alguna vez, la compañía planea implementar la nueva estrategia en ChatGPT y sus otros productos.

“Ciertamente, es bienvenido ver a las empresas tratando de jugar con el desarrollo de sus sistemas para tratar de reducir este tipo de errores. Creo que la clave es interpretar esto como una investigación corporativa, a la luz de las muchas barreras que existen para formas más profundas de rendición de cuentas. ”, dijo a CNBC Sarah Myers West, directora gerente del AI Now Institute.

Oeste agregó: “[OpenAI is] publicando un pequeño conjunto de datos de retroalimentación a nivel humano con este documento, pero no ha proporcionado detalles básicos sobre los datos utilizados para entrenar y probar GPT-4. Por lo tanto, todavía hay una enorme cantidad de opacidad que desafía cualquier esfuerzo significativo de rendición de cuentas en el campo de la IA, incluso cuando estos sistemas ya están afectando directamente a las personas”.