Sat. Mar 23rd, 2024

Otro artículo de investigación muestra una técnica para crear avatares de aspecto realista a partir de vídeos.

Apple ha publicado dos artículos de investigación que amplían las posibilidades de la IA generativa. Un artículo resuelve un problema que impedía que grandes modelos de lenguaje se ejecutaran en ciertos dispositivos con memoria dinámica de acceso aleatorio limitada. El documento no especifica iPhones ni iPads, pero es probable que Apple intente implementar esta técnica en sus propios dispositivos.

Un segundo artículo describe los “Human Gaussian Splats”, una técnica para generar avatares 3D a partir de vídeos con una sola cámara, que podrían usarse para crear avatares para reuniones virtuales o para permitir que los consumidores se prueben ropa antes de comprarla en tiendas minoristas en línea.

Salta a:

Combinando un modelo de costos de inferencia LLM con memoria flash

A medida que más y más empresas trabajan para agregar capacidades basadas en LLM a las aplicaciones, necesitan que esas aplicaciones se ejecuten de forma nativa en los dispositivos. Un desafío para esto ha sido que los “requisitos intensivos de memoria y computación de LLM presentan desafíos, especialmente para dispositivos con capacidad DRAM limitada”, escribieron los investigadores de Apple en el artículo “LLM in a flash: Efficient Large Language Model Inference with Limited Memory”.

Los investigadores descubrieron que podían ejecutar LLM que necesitaban hasta el doble de la DRAM disponible almacenándolos en una memoria flash utilizando dos técnicas, que los investigadores llamaron “ventanas” y “agrupación de filas y columnas”. Con las ventanas, la necesidad de DRAM se reduce porque los procesos se realizan en neuronas digitales reutilizadas, no en neuronas digitales nuevas. La agrupación de filas y columnas hace que los fragmentos de datos leídos desde la memoria flash sean más grandes.

VER: Aquí encontrará todo lo que necesita saber sobre iOS 17 (TechRepublic)

Ambas técnicas son fundamentales para “construir un modelo de costos de inferencia que armonice con el comportamiento de la memoria flash, guiándonos a optimizar en dos áreas críticas: reducir el volumen de datos transferidos desde la memoria flash y leer datos en fragmentos más grandes y contiguos”, dijo. escribieron los investigadores.

Casos de uso empresarial para una operación LLM más eficiente en DRAM

Este desarrollo puede extenderse a los casos de uso empresarial, así como a los de consumo, ya que permitirá que los LLM se ejecuten en dispositivos de servicio de campo o de borde más pequeños, con memoria limitada. Los investigadores afirman que su trabajo “sienta un precedente” para futuras investigaciones; esa investigación podría incluir la optimización de la IA generativa para dispositivos relativamente pequeños y viceversa. En particular, podría facilitarle a Apple el lanzamiento de IA generativa en iPhones y iPads.

Los símbolos gaussianos humanos crean avatares 3D realistas

El segundo artículo, escrito por investigadores de Apple, el Instituto Max Planck de Sistemas Inteligentes y ETH Zurich, describe un método para producir avatares 3D. Los investigadores comenzaron con un video corto de una sola cámara y a partir de él generaron un avatar 3D utilizando un marco de representación neuronal llamado Human Gaussian Splats. La conversión anterior de vídeo a 3D, como la utilizada en algunas películas, requería varias cámaras y mucha potencia informática y esfuerzo humano.

Utilizando entre 50 y 100 fotogramas de un vídeo, Human Gaussian Splats puede generar nuevas poses y movimientos para el avatar. El marco de representación neuronal es generativo porque “rellena” partes del cuerpo humano que tal vez no hayan sido capturadas por completo en el vídeo.

Posibles casos de uso empresarial para capacidades de vídeo a avatar

Los investigadores proponen una amplia variedad de usos para sus avatares, incluyendo “AR/VR, efectos visuales, pruebas visuales (y) producción de películas”. Si bien los avatares virtuales para reuniones de negocios como los propuestos por Meta no han sido populares, los minoristas continúan experimentando permitiendo a los clientes ingresar a un vestuario virtual para ver la ropa en sus propios cuerpos. Crear avatares 3D de manera más eficiente y con menos potencia de procesamiento puede facilitar ese proceso.

El progreso de Apple en el espacio de la IA generativa

Ambos artículos muestran que, si bien es posible que Apple no tenga hoy productos de IA generativa que sean tan destacados como Copilot de Microsoft o ChatGPT de OpenAI, Apple todavía tiene algo que ver en el espacio de la IA generativa. Estos hallazgos podrían eventualmente incorporarse a Siri, el asistente de voz de Apple que se encuentra en computadoras portátiles, tabletas y teléfonos.

Nota: Apple no ha respondido a la solicitud de comentarios de TechRepublic.

Related Post

Leave a Reply

Your email address will not be published. Required fields are marked *