Fri. Aug 30th, 2024

El artículo de la compañía sobre decisiones de alto riesgo tomadas por modelos básicos se suma a la conversación sobre el sesgo en la IA generativa, pero Anthropic no recomienda utilizar sus métodos en el mundo real.

La empresa de inteligencia artificial Anthropic ha publicado un artículo que detalla un método de evaluación de cómo las empresas que utilizan modelos de lenguaje grandes pueden disminuir la discriminación en la salida de los modelos mediante una ingeniería rápida. El documento podría ayudar a los desarrolladores y formuladores de políticas a comprender cómo surgen la discriminación y el sesgo en las respuestas generadas por los LLM y cómo reducirlos.

Salta a:

Lo que encontró el artículo de Anthropic sobre la reducción del sesgo en los modelos básicos de IA generativa

Los investigadores encontraron los siguientes métodos para reducir el sesgo en las respuestas de Claude 2:

  • Agregue lenguaje al mensaje que indique que el modelo debe reducir la discriminación, no debe tener en cuenta la acción afirmativa, que la información demográfica fue un error o que la información demográfica no puede considerarse legalmente.
  • Enfatice la importancia de evitar la discriminación (“es realmente muy importante”) en la indicación.
  • Pídale al modelo que explique su razonamiento evitando sesgos o discriminación.

Los investigadores notaron que el artículo tenía limitaciones, incluida la gama limitada de datos demográficos, los breves párrafos de información proporcionados sobre cada situación hipotética en comparación con fuentes de información más largas del mundo real, como currículums, y la premisa de que la IA debería escribir el documento. escenarios iniciales en sí.

DESCARGAR: Esta política de ética de la IA de TechRepublic Premium

“A medida que la IA se infunde en cada parte de una organización, es importante educar a toda la organización sobre prácticas éticas de IA y al mismo tiempo proporcionar soluciones sistemáticas que provengan de investigaciones bien definidas”, dijo Baris Gultekin, jefe de gestión de productos de la empresa de nube de datos. Snowflake, en un correo electrónico a TechRepublic.

Gultekin añadió: “Estudios como éste son fantásticos para ambos. Por un lado, los educadores pueden incluir capacitación sobre ingeniería ética para generar conciencia y, por otro lado, los equipos de desarrollo pueden implementar directamente soluciones probadas directamente en sus aplicaciones. Por supuesto, a medida que se comprende mejor la tecnología y su uso en el mundo real, toda esta investigación proporciona una gran base para que los formuladores de políticas identifiquen partes interesadas y expertos que puedan ayudar en la definición de políticas que equilibren positivamente la innovación y la ética”.

Detalles sobre el estudio de Anthrophic, que utilizó su LLM Claude 2

Anthropic le pidió a Claude 2 que generara 70 temas para diversas aplicaciones de LLM en toda la sociedad relacionados con el prejuicio y la discriminación en áreas de alto riesgo como ofertas de trabajo, vivienda, tratamiento médico y préstamos.

Por ejemplo, Anthropic dio un ejemplo sobre si se debe aprobar un reclamo de seguro por daños por inundaciones. Luego, Claude 2 varió las indicaciones con información demográfica. A partir de ahí, los investigadores estudiaron cómo las respuestas de Claude 2 a esas indicaciones diferían según la demografía.

Los investigadores antrópicos declararon en el artículo: “Si bien no respaldamos ni permitimos el uso de modelos de lenguaje para tomar decisiones automatizadas para los casos de uso de alto riesgo que estudiamos, demostramos técnicas para disminuir significativamente la discriminación tanto positiva como negativa a través de una cuidadosa y rápida ingeniería. proporcionando vías hacia una implementación más segura en casos de uso donde puedan ser apropiados”.

VER: La IA ofrece desafíos y oportunidades a los profesionales de TI en Australia (TechRepublic)

Claude 2 tendía a sugerir mejores resultados para las mujeres, las personas no binarias y las personas no blancas, y peores resultados para las personas mayores de 60 años. Los investigadores querían reducir el sesgo positivo y negativo de Claude 2, sin preferir ni discriminar a ningún grupo. Los grupos eran hombres, mujeres, no binarios, blancos, negros, asiáticos, hispanos, nativos americanos y edades por década de 20 a 100.

La importancia de estudiar la discriminación en la IA generativa

Una preocupación importante cuando se trata de IA generativa es el sesgo algorítmico, o discriminación que ocurre cuando las herramientas de IA generativa se basan en conjuntos de datos con sesgo histórico o de selección. Otras fuentes importantes de sesgo en la IA generativa son el sesgo de los datos de entrenamiento o el sesgo cognitivo, en el que la aportación humana distorsiona los datos. En particular, el etiquetado inconsistente, en el que los datos no están etiquetados de acuerdo con ningún estándar y pueden contener errores humanos, puede sesgar los resultados de una IA generativa.

Algunos expertos dicen que las preocupaciones de Silicon Valley sobre las amenazas planetarias de la IA generativa pueden desviar la atención del sesgo algorítmico que ya afecta a grupos específicos y ya marginados. Por ejemplo, muchas de las mismas empresas que advierten contra la discriminación en la IA son también las que construyen la IA entrenada con datos sesgados.

En octubre de 2023, los investigadores descubrieron que ChatGPT y el modelo de fundación Alpaca mostraban “sesgos de género significativos en las cartas de recomendación generadas por LLM”. Alpaca es un modelo básico basado en LLaMA 7B de Meta y perfeccionado por investigadores de la Universidad de Stanford.

En enero de 2023, el Departamento de Justicia de EE. UU. y el Departamento de Vivienda y Desarrollo Urbano presentaron una declaración de interés en una demanda que alegaba que el software de detección basado en algoritmos SafeRent discriminaba a los inquilinos negros, lo que demuestra que el sesgo algorítmico está ocurriendo en el mundo real en situaciones similares. a los estudiados por Anthropic.

Anthropic redactó una constitución para Claude, publicada en mayo de 2023, para guiar el modelo hacia respuestas “inofensivas”. La constitución de Claude es un conjunto de principios que guían a la IA para evitar comportamientos racistas, sexistas, tóxicos, peligrosos o ilegales. Además, Claude recibe instrucciones de evitar ser “predicador, desagradable o demasiado reactivo”.

Anthropic no respalda el uso de IA generativa en decisiones de alto riesgo

“Si bien esperamos que nuestros métodos y resultados ayuden a evaluar diferentes modelos, no creemos que un buen desempeño en nuestras evaluaciones sea motivo suficiente para justificar el uso de modelos en las aplicaciones de alto riesgo que describimos aquí, ni tampoco debería hacerlo nuestra investigación de estas aplicaciones. debe leerse como un respaldo a ellos”, escribieron los investigadores de Anthropic.

Gultekin dijo: “El conjunto más amplio de prácticas que las organizaciones pueden utilizar para reducir el sesgo se encuentran en proceso de mitigación y detección, siendo una preventiva y la otra proactiva. Por el lado de la mitigación, lo importante son los insumos. Las organizaciones pueden ser más programáticas a la hora de preparar diversos conjuntos de datos para realizar ajustes y configurar barreras de seguridad directamente integradas en la interfaz de la aplicación. En cuanto a la detección, para minimizar continuamente el sesgo, todos deberíamos seguir compartiendo las mejores prácticas para monitorear, auditar e implementar la retroalimentación humana”.

“Así como los prejuicios raciales y de género sistémicos han resultado difíciles de eliminar en el mundo real, eliminar los prejuicios en la IA no es una tarea fácil”, escribió el equipo de Datos e IA de IBM en una publicación de blog publicada el 16 de octubre de 2023. IBM hizo una declaración abierta fuente del kit de herramientas AI Fairness 360 que reúne una variedad de técnicas de mitigación de sesgos.

Nota: TechRepublic se ha comunicado con Anthropic para obtener más información.

Related Post

Leave a Reply

Your email address will not be published. Required fields are marked *