Google sopesa el ‘Proyecto Ellmann’ y utiliza Gemini AI para contar historias de vida

Un equipo de Google ha propuesto utilizar tecnología de inteligencia artificial para crear una vista “a vista de pájaro” de la vida de los usuarios utilizando datos de teléfonos móviles, como fotografías y búsquedas.

Apodado “Proyecto Ellmann”, en honor al biógrafo y crítico literario Richard David Ellmann, la idea sería utilizar LLM como Gemini para ingerir resultados de búsqueda, detectar patrones en las fotos de un usuario, crear un chatbot y “responder preguntas antes imposibles”, según una copia de una presentación vista por CNBC. El objetivo de Ellmann, afirma, es ser “el narrador de la historia de tu vida”.

No está claro si la compañía tiene planes de producir estas capacidades en Google Photos o en cualquier otro producto. Google Photos tiene más de mil millones de usuarios y cuatro billones de fotos y vídeos, según una entrada del blog de la empresa.

El Proyecto Ellman es solo una de las muchas formas en que Google propone crear o mejorar sus productos con tecnología de inteligencia artificial. El miércoles, Google lanzó su último modelo de IA “más capaz” y avanzado hasta el momento, Gemini, que en algunos casos superó al GPT-4 de OpenAI. La empresa planea otorgar licencias de Gemini a una amplia gama de clientes a través de Google Cloud para que lo utilicen en sus propias aplicaciones. Una de las características destacadas de Gemini es que es multimodal, lo que significa que puede procesar y comprender información más allá del texto, incluidas imágenes, videos y audio.

Un gerente de producto para Google Las fotos presentaron el Proyecto Ellman junto a los equipos de Gemini en una cumbre interna reciente, según documentos vistos por CNBC. Escribieron que los equipos pasaron los últimos meses determinando que los modelos de lenguaje grandes son la tecnología ideal para hacer realidad este enfoque a vista de pájaro de la historia de la vida.

Ellmann podría contextualizar usando biografías, momentos anteriores y fotos posteriores para describir las fotos de un usuario más profundamente que “solo píxeles con etiquetas y metadatos”, afirma la presentación. Propone poder identificar una serie de momentos como años universitarios, años del Área de la Bahía y años como padre.

“No podemos responder preguntas difíciles ni contar buenas historias sin una visión general de tu vida”, se lee en una descripción junto a una fotografía de un niño pequeño jugando con un perro en la tierra.

“Revisamos sus fotos, observamos sus etiquetas y ubicaciones para identificar un momento significativo”, se lee en una diapositiva de presentación. “Cuando damos un paso atrás y entendemos su vida en su totalidad, su historia general se vuelve clara”.

La presentación decía que los modelos de lenguaje grandes podrían inferir momentos como el nacimiento del hijo de un usuario. “Este LLM puede utilizar el conocimiento de lo más alto del árbol para inferir que este es el nacimiento de Jack y que es el primer y único hijo de James y Gemma”.

“Una de las razones por las que un LLM es tan poderoso para este enfoque a vista de pájaro es que puede tomar el contexto no estructurado de todas las diferentes elevaciones de este árbol y usarlo para mejorar la forma en que comprende otras regiones del árbol”, explicó. dice la diapositiva, junto con una ilustración de los diversos “momentos” y “capítulos” de la vida de un usuario.

Los presentadores dieron otro ejemplo de cómo determinar que un usuario había asistido recientemente a una reunión de clase. “Han pasado exactamente 10 años desde que se graduó y está lleno de caras que no se ven en 10 años así que probablemente sea un reencuentro”, infirió el equipo en su presentación.

El equipo también demostró “Ellmann Chat”, con la descripción: “Imagina abrir ChatGPT pero ya sabe todo sobre tu vida. ¿Qué le preguntarías?”

Mostraba un chat de muestra en el que un usuario pregunta “¿Tengo una mascota?” A lo que responde que sí, que el usuario tiene un perro que vestía un impermeable rojo, luego ofrece el nombre del perro y los nombres de los dos miembros de la familia con los que se lo ve más frecuentemente.

Otro ejemplo del chat fue el de un usuario que preguntó cuándo fue la última vez que sus hermanos lo visitaron. Otro le pidió que enumerara ciudades similares a las que vive porque está pensando en mudarse. Ellmann ofreció respuestas a ambas.

Ellmann también presentó un resumen de los hábitos alimentarios del usuario, como muestran otras diapositivas. “Parece que te gusta la comida italiana. Hay varias fotos de platos de pasta, así como una foto de una pizza”. También dijo que el usuario parecía disfrutar de comida nueva porque una de sus fotos tenía un menú con un plato que no reconocía.

La tecnología también determina qué productos el usuario estaba considerando comprar, sus intereses, trabajo y planes de viaje basándose en las capturas de pantalla del usuario, según la presentación. También sugirió que podría conocer sus sitios web y aplicaciones favoritos, dando ejemplos de Google Docs, Reddit e Instagram.

Un portavoz de Google dijo a CNBC: “Google Photos siempre ha utilizado IA para ayudar a las personas a buscar sus fotos y videos, y estamos entusiasmados con el potencial de los LLM para desbloquear experiencias aún más útiles. Este es un concepto de lluvia de ideas en el que el equipo se encuentra en las primeras etapas. etapas de exploración. Como siempre, nos tomaremos el tiempo necesario para asegurarnos de hacerlo de manera responsable, protegiendo la privacidad de los usuarios como nuestra principal prioridad”.

La carrera de las grandes tecnológicas para crear ‘recuerdos’ impulsados por IA

El Proyecto Ellmann propuesto podría ayudar a Google en la carrera armamentista entre los gigantes tecnológicos para crear recuerdos de vida más personalizados.

Google Photos y Apple Photos llevan años sirviendo “recuerdos” y generando álbumes basados en las tendencias de las fotografías.

En noviembre, Google anunció que con la ayuda de la IA, Google Photos ahora puede agrupar fotos similares y organizar capturas de pantalla en álbumes fáciles de encontrar.

Apple anunció en junio que su última actualización de software incluirá la capacidad de su aplicación de fotografías para reconocer personas, perros y gatos en sus fotografías. Ya clasifica caras y permite a los usuarios buscarlas por nombre.

Manzana también anunció una próxima aplicación Journal, que utilizará IA en el dispositivo para crear sugerencias personalizadas para pedir a los usuarios que escriban pasajes que describan sus recuerdos y experiencias basándose en fotos, ubicaciones, música y entrenamientos recientes.

Pero Apple, Google y otros gigantes tecnológicos todavía están lidiando con las complejidades de mostrar e identificar imágenes de manera adecuada.

Por ejemplo, Apple y Google todavía evitan etiquetar a los gorilas después de que informes de 2015 descubrieran que la empresa etiquetaba erróneamente a los negros como gorilas. Una investigación del New York Times de este año encontró que el software Android de Apple y Google, que sustenta la mayoría de los teléfonos inteligentes del mundo, desactivó la capacidad de buscar primates visualmente por temor a etiquetar a una persona como un animal.

Empresas como Google, Facebook y Apple con el tiempo ha agregado controles para minimizar los recuerdos no deseados, pero los usuarios han informado que a veces todavía aparecen recuerdos no deseados y requieren que los usuarios alternen entre varias configuraciones para minimizarlos.