La empresa de reconocimiento de voz Speechmatics venció a los gigantes tecnológicos en la reducción del sesgo

Una mujer joven que usa un software de reconocimiento de voz en un teléfono inteligente.

Luis Alvarez | DigitalVision | imágenes falsas

LONDRES – Una empresa británica de reconocimiento de voz dice que su software funcionó mejor que el de las principales empresas tecnológicas como Google y Amazon en la comprensión de las voces negras.

Speechmatics, que tiene su sede en Cambridge, Inglaterra, dijo el martes que su sistema tenía una tasa de precisión general del 83% para las voces afroamericanas.

Eso es más alto que Microsoft (73%), Amazon (69%), Google (69%), IBM (62%) y Apple (55%), según una investigación publicada por la Universidad de Stanford en 2020 que comparó los resultados de las principales empresas de tecnología en la precisión con la que sus programas de reconocimiento de voz entendieron a los afroamericanos.

Los sistemas de Amazon, IBM, Google, Microsoft y Apple cometieron casi el doble de errores al interpretar palabras pronunciadas por afroamericanos que por personas blancas, según investigadores de Stanford.

Speechmatics dice que su sistema identificó erróneamente palabras de voces negras el 17% de las veces, frente al 31% de Google y Amazon.

“Es fundamental estudiar y mejorar la equidad en los sistemas de voz a texto dado el potencial de daños dispares a las personas a través de sectores posteriores que van desde la atención médica a la justicia penal”, dijo Allison Koenecke, autora principal del estudio de Stanford.

Sesgo en IA

La tecnología de reconocimiento de voz se ha integrado rápidamente en la vida cotidiana, gracias a la prevalencia de asistentes virtuales en dispositivos inteligentes como teléfonos y parlantes.

Apple fue pionera en el uso de software activado por voz en dispositivos móviles con su asistente digital Siri, mientras que Amazon fue uno de los primeros en llevar el reconocimiento de voz al hogar con sus parlantes Echo y su asistente Alexa.

Los investigadores están cada vez más preocupados por el sesgo en los algoritmos que impulsan estos servicios de reconocimiento de voz. Específicamente, los expertos dicen que muchos programas de reconocimiento de voz están capacitados con conjuntos limitados de datos, lo que los hace menos efectivos.

Si bien las aplicaciones de reconocimiento de voz tienen pocos problemas para transcribir, un presentador de noticias de la costa este de raza blanca, “no tienen el mismo nivel de precisión” con voces subrepresentadas, según Will Williams, vicepresidente de aprendizaje automático de Speechmatics.

“Al igual que con todas estas cosas, se trata de la calidad de los datos en los conjuntos de entrenamiento”, dijo a CNBC Stephanie Hare, investigadora de ética de IA. “Ha habido prejuicios raciales, de género y de acento regional en la tecnología de reconocimiento de voz durante mucho tiempo”.

“Esta tecnología no funciona igual para todos, todavía”, agregó Hare. “Podría, eventualmente, con refinamiento”.

Datos sin etiquetar

Speechmatics dice que entrenó su inteligencia artificial con datos sin etiquetar de las redes sociales y podcasts para ayudarlo a aprender diferentes aspectos del habla, incluidos el acento, el lenguaje y la entonación.

“Podemos absorberlo casi de la misma manera que lo hace un niño”, dijo Williams a CNBC.

La firma dijo que su tecnología está entrenada en 1,1 millones de horas de audio.

Speechmatics calificó el desarrollo como un “gran avance” y dijo que espera que otras empresas de tecnología se vuelvan más transparentes sobre los esfuerzos para reducir el sesgo en la IA.

“Sería bueno si las personas fueran conjuntos de pruebas de código abierto que le permitan evaluar qué tan bien lo está haciendo en este frente”, dijo Williams. “Parte del problema ha sido que se ha ocultado el progreso en ciertos aspectos demográficos”.

Los gigantes tecnológicos han estado aumentando sus inversiones en reconocimiento de voz últimamente, y Microsoft acordó adquirir la firma de software Nuance Communications por $ 16 mil millones en abril.