Wed. Apr 24th, 2024

Apple lanzó hoy varios modelos de lenguajes grandes (LLM) de código abierto que están diseñados para ejecutarse en el dispositivo en lugar de a través de servidores en la nube. Llamados OpenELM (Modelos de lenguaje eficientes de código abierto), los LLM están disponibles en Hugging Face Hub, una comunidad para compartir código de IA.


Como se describe en un documento técnico [PDF], hay ocho modelos OpenELM en total, cuatro de los cuales fueron entrenados previamente utilizando la biblioteca CoreNet y cuatro modelos optimizados con instrucciones. Apple utiliza una estrategia de escalamiento por capas que tiene como objetivo mejorar la precisión y la eficiencia.

Apple proporcionó código, registros de entrenamiento y múltiples versiones en lugar de solo el modelo entrenado final, y los investigadores detrás del proyecto esperan que conduzca a un progreso más rápido y “resultados más confiables” en el campo de la inteligencia artificial en lenguaje natural.

OpenELM, un modelo de lenguaje abierto de última generación. OpenELM utiliza una estrategia de escalamiento por capas para asignar parámetros de manera eficiente dentro de cada capa del modelo del transformador, lo que lleva a una mayor precisión. Por ejemplo, con un presupuesto de parámetros de aproximadamente mil millones de parámetros, OpenELM muestra una mejora del 2,36 % en la precisión en comparación con OLMo y requiere el doble de tokens de preentrenamiento.

A diferencia de prácticas anteriores que solo proporcionan pesos de modelo y código de inferencia, y entrenan previamente en conjuntos de datos privados, nuestra versión incluye el marco completo para el entrenamiento y la evaluación del modelo de lenguaje en conjuntos de datos disponibles públicamente, incluidos registros de entrenamiento, múltiples puntos de control y pre-entrenamiento. Configuraciones de entrenamiento.

Apple dice que está lanzando los modelos OpenELM para “potenciar y enriquecer a la comunidad de investigación abierta” con modelos de lenguaje de última generación. Compartir modelos de código abierto brinda a los investigadores una forma de investigar los riesgos y los sesgos de los datos y los modelos. Los desarrolladores y las empresas pueden utilizar los modelos tal cual o realizar modificaciones.

El intercambio abierto de información se ha convertido en una herramienta importante para que Apple reclute a los mejores ingenieros, científicos y expertos porque brinda oportunidades para trabajos de investigación que normalmente no se habrían podido publicar según las políticas secretas de Apple.

Apple aún no ha incorporado este tipo de capacidades de IA a sus dispositivos, pero se espera que iOS 18 incluya una serie de nuevas funciones de IA, y los rumores sugieren que Apple planea ejecutar sus modelos de lenguajes grandes en el dispositivo por motivos de privacidad.

Related Post

Leave a Reply

Your email address will not be published. Required fields are marked *