El software de seguimiento ocular ha estado en desarrollo durante al menos dos décadas, y una de las empresas líderes en el dominio es un caso de éxito de inicio del área de Estocolmo en Suecia. tobii, que ahora emplea a más de 600 personas en todo el mundo, construye dispositivos que brindan servicios informáticos de atención, de los cuales el seguimiento ocular es un subconjunto.
Tecnologías de seguimiento ocular se utilizaron por primera vez con fines de investigación científica. Los estudios realizados en un entorno controlado rastrearon los movimientos oculares para sacar conclusiones sobre hacia dónde dirigían su atención los sujetos.
Sin darse cuenta de todo el trabajo que ya se había realizado en el seguimiento ocular para su uso en la investigación científica, tres empresarios suecos idearon su propia solución basada en una cámara utilizando iluminación infrarroja para pintar un patrón en los ojos del usuario, que luego la cámara reconoce. El software analizó los datos para determinar la dirección de la mirada de la persona.
Los tres empresarios establecieron Tobii hace 20 años con la premisa de que su tecnología podría usarse para permitir que las personas controlen una computadora con los movimientos de sus ojos.
Ahora, dos décadas después, el sistema es mucho más sofisticado, y el software utiliza algunas de las últimas técnicas de aprendizaje automático y visión por computadora para determinar mucho más que solo dónde está mirando alguien. Las técnicas son muy similares, ya sea que se utilicen como un sistema de seguimiento ocular basado en una pantalla o portátil.
El mercado ha cambiado mientras tanto. Las empresas ahora usan tecnologías de seguimiento ocular para un número creciente de aplicaciones, que van desde medir las reacciones de los usuarios a nuevos productos hasta detectar conductores de automóviles somnolientos. Los requisitos también han cambiado.
En los primeros días, cuando el seguimiento ocular se usaba solo en entornos científicos, era fácil controlar el entorno. Los investigadores harían que el sujeto pusiera la cabeza en un soporte para mantenerlo quieto, y también podrían controlar la iluminación. Si un sujeto era particularmente difícil de rastrear, los investigadores podían elegir a alguien más para el estudio. Pero con las aplicaciones comerciales, el objetivo es atraer usuarios y operar en tantos entornos como sea posible.
“El desafío con el seguimiento ocular no es tanto lograr que funcione, sino lograr que funcione para todas las personas en todos los tipos de entornos”, dice anand srivatsa, CEO de Tobii. “Durante los últimos 20 años, gran parte de lo que la empresa ha estado haciendo es buscar cómo podemos tomar la tecnología de seguimiento ocular y hacerla robusta para una gran población. Queremos cubrir a personas con diferentes etnias donde la forma del ojo es diferente y el color del iris es diferente. Queremos cubrir a las personas con afecciones oculares, como el ojo vago.
“No solo las personas son diferentes, sino que el entorno puede incluir luz brillante o puede haber luz frente al usuario. El sistema tiene que corregirse a sí mismo por los reflejos y tiene que funcionar para los usuarios que usan anteojos”.
Por ejemplo, las empresas que diseñan nuevos envases pueden querer saber si su botella de bebida es atractiva. Una forma de hacerlo es hacer una pregunta, pero tan pronto como haces una pregunta, el sujeto usa su “mente activa”, que generalmente está sesgada. Por ejemplo, un hombre puede negar que le guste el color rosa, cuando eso es lo que realmente llamó su atención.
Para superar estos sesgos, la investigación de mercado comercial ahora se está moviendo hacia la medición de las respuestas de las personas en lugar de pedirles información explícita. La tecnología de seguimiento ocular se adapta perfectamente a esta necesidad.
La primera área de éxito comercial de Tobii fue ayudar a las empresas a comprender las preferencias de los usuarios. Luego, la empresa entró en otra fase, en la que comercializó dispositivos de grado médico para asistencia en la comunicación. La tecnología podría usarse para dar voz a las personas: alguien con la esclerosis lateral amiotrófica (ELA), como el difunto Stephen Hawking, podrían usar sus ojos para acceder al teclado.
“Ahora, durante los últimos cinco o seis años, nuestra tecnología se ha vuelto lo suficientemente madura como para ser considerada para su implementación en el mercado masivo”, dice Srivatsa. “Hoy vemos muchas oportunidades en los juegos y en las realidades extendidas: realidad virtual (VR) y realidad aumentada (AR). También vemos oportunidades en la industria automotriz para sistemas de monitoreo de conductores, atención médica, educación y capacitación. Al mismo tiempo, continuamos comercializando productos y servicios para la investigación y el comportamiento del consumidor”.
La compañía ahora ha ido más allá de la simple detección de la mirada para medir otras cosas para obtener una visión más profunda de la atención humana, dice Srivatsa. “Hemos comenzado con esta primera medida, que es donde se mire. Pero hay otros datos biométricos que puede medir cuando mira imágenes de los ojos o la cara de las personas, como hacia dónde apunta la cabeza, si está apuntando perpendicularmente a la pantalla. ¿Estás moviendo la cabeza hacia la izquierda o hacia la derecha? A eso lo llamamos pose de la cabeza.
“Por supuesto, cuando tienes una foto de la cara de alguien, puedes hacer una identificación facial como lo haces con tu iPhone. Puedes mirar qué tan abierto está el ojo. Puede saber si la persona está a punto de cerrar los ojos. Puede observar cosas como el diámetro de la pupila, que puede ser un indicador de otros tipos de señales más altas.
“Cuando observamos las imágenes de los rostros y los ojos de las personas, podemos medir señales adicionales, a las que llamamos señales centrales. Y luego, la otra cosa que hemos hecho en las últimas dos décadas es combinar estas señales centrales en señales de nivel superior, que llamamos señales de atención.
Anand Srivatsa, Tobii
“Podemos decir si está mirando algo como una fijación, o si sus ojos se mueven rápidamente en lo que se llama un movimiento sacádico. O, según la dilatación de la pupila, puede entender cosas sobre la carga cognitiva. Puedes detectar si alguien está estresado y cosas así.
“Todas estas son señales que, en la investigación científica o en otras aplicaciones, pueden ser muy importantes de medir y comprender. En el espacio automotriz, tenemos señales de atención en torno a la somnolencia, para ayudar a un automóvil a determinar si necesita un descanso para tomar café o si está distraído”.
Tobii construyó capas de señales, lo que las llevó del seguimiento ocular al área más general de “computación de atención”, de la cual el seguimiento ocular es un componente esencial. No es casualidad que los padres digan a sus hijos “mírame cuando te hablo”: el lugar donde la gente fija la mirada dice mucho sobre hacia dónde dirige su atención.
Una de las áreas de innovación futura es AR, donde los usuarios usan un par de anteojos de aspecto normal, en los que toda la tecnología tiene que encajar perfectamente. La administración de energía es una gran preocupación, ya que el software de seguimiento ocular comparte una duración limitada de la batería con las redes, la pantalla y todo lo demás. La miniaturización, la reducción del consumo de energía y la reducción del costo de la solución general son áreas en las que se necesita más innovación.
Tobii comercializa una variedad de plataformas, algunas de las cuales son periféricos USB que funcionan a menos de 10 W. También tienen sistemas que se encuentran dentro de un auricular VR en un procesador de señal digital en el sistema Qualcomm en chips que ejecutan el auricular. Una de las innovaciones de las últimas dos décadas ha sido reducir la huella, tanto de los sensores necesarios para capturar las imágenes del ojo y hacer la pintura que necesita, como del chip que realiza el análisis de nivel superior requerido por el caso de uso
Cada vez que se encuentran nuevas soluciones, cualquiera que haga plataformas de seguimiento ocular debe hacer que esas soluciones funcionen para una gran población y en una variedad de entornos. “Incluso si solucionamos el problema de la población para cierto tipo de aplicación, tan pronto como se miniaturice, debe volver a ese nivel de población”, dice Srivatsa.
“Idealmente, quiere decir que esto funciona el 100% del tiempo en todos, lo cual es un objetivo que probablemente sea imposible de alcanzar. Pero si quiere estar en los mercados de consumo, tiene que estar en los 90 altos en porcentaje de cobertura. Esto significa que cada vez que miniaturiza, tiene que resolver el problema de la población nuevamente para volver a los 90 altos. De lo contrario, no puedes sacar un producto”.
Aplicaciones asesinas para seguimiento ocular y computación de atención
Los procesadores más pequeños y rápidos, junto con un software más inteligente, han dado lugar a nuevas soluciones que pueden resolver una variedad de problemas en diferentes industrias. Varias aplicaciones asesinas están en el horizonte, y uno de los casos más obvios es el monitoreo de conductores automotrices.
La razón número uno de los accidentes automovilísticos es el error del conductor. Un movimiento mundial, llamado Visión cero, está presionando para que la legislación en los países industrializados reduzca drásticamente el número de accidentes mortales. La Unión Europea ordenó que, para 2026, los autos nuevos no se puedan vender sin un sistema de monitoreo del conductor basado en una cámara para detectar si un conductor está somnoliento.
Incluso cuando los automóviles autónomos se vuelvan más frecuentes, será necesario asegurarse de que el conductor esté listo para recuperar el control del vehículo. No será hasta que se alcancen los niveles de autonomía 4 y 5 que el conductor dejará de ser necesario. Y no se espera plena autonomía (nivel 5) para al menos menos 15 años.
La segunda aplicación revolucionaria está en la realidad virtual, donde el seguimiento ocular o la computación de la atención se pueden usar en los auriculares de los consumidores para permitir niveles más altos de inmersión. El problema de la realidad virtual es que es incluso más intensiva gráficamente que una pantalla grande porque requiere una imagen casi con calidad de retina en un campo de visión muy amplio. El renderizado mejorado hace posible percibir hacia dónde dirigen su atención los usuarios y luego renderizar HD solo para esa parte de su vista, lo que reduce drásticamente la cantidad de potencia gráfica necesaria.
“Si observas cómo funcionan nuestros ojos, solo podemos ver una parte muy pequeña en alta definición”, dice Srivatsa. “La fóvea es la parte de su retina que puede ver con total fidelidad y tiene una gama de colores completa, y eso es solo alrededor del 1% de su campo de visión.
“Si sé exactamente dónde está mirando, puedo reducir la carga de renderizado para enfocarme solo allí, y en realidad podría volver a una resolución súper baja en otras partes de la pantalla. Ni siquiera percibes los colores en algunas partes de ese espectro, por lo que si pudieras hacerlo de manera súper inteligente, realmente podrías reducir la carga. Sony cree en el renderizado foveated y lo van a incluir en su auriculares psvr2.”
Una tercera aplicación asesina está en AR, donde existe la necesidad de contextualizar la información. Si un usuario camina hacia una estación de autobuses y mira la estación a través de lentes equipados con AR, el dispositivo debe entender que el usuario está en una parada de autobús y decirle cuándo llegará el próximo autobús.
Papel del aprendizaje automático
Debido a que la detección de atención aún no está personalizada, los sistemas actuales no pueden manejar algunos de los casos atípicos. No pueden distinguir entre los usuarios que parecen borrachos naturalmente y los que realmente están borrachos.
“La expectativa del mercado es que pueda emitir un juicio basado en los datos que ha recopilado cuando está desarrollando su producto”, dice Srivatsa. “Entonces, por ejemplo, diría que esta es la población de referencia en la que lo he probado en un entorno controlado. Una persona que se sabe que está somnolienta se coloca frente al sistema y recopilamos mediciones para usarlas como datos de entrenamiento. Luego, los algoritmos de aprendizaje automático buscan signos que puedan correlacionarse con la persona somnolienta”.
Srivatsa cree que el mercado cambiará muy rápidamente a medida que las personas se acostumbren al seguimiento ocular y la computación de atención. La aceptación del usuario podría seguir un camino similar al de la aceptación de los sistemas controlados por voz.
“Estaba en Intel cuando buscábamos poner voz en las computadoras a principios de la década de 2010 y nos dimos por vencidos porque dijimos que era demasiado difícil”, dice. “Además, era demasiado ingenioso. Y luego escuchamos sobre Alexa. Asumimos que sería un fracaso y, personalmente, no podía pensar por qué alguien querría hablar con un dispositivo. Y ahora mis hijos lo hacen todo el tiempo.
“Espero que el seguimiento ocular, y la computación de atención más amplia, tomen un camino similar, convirtiéndose en parte de la vida cotidiana antes de que nos demos cuenta”.