Apple ha lanzado ocho pequeños prototipos de lenguajes de IA destinados a su uso en el dispositivo.

imágenes falsas

En el mundo de la inteligencia artificial, los que podrían llamarse “modelos de microlenguaje” han ganado popularidad recientemente porque pueden ejecutarse en una máquina local en lugar de necesitar computadoras a nivel de centro de datos en la nube. miércoles de manzana pie Un conjunto de pequeños modelos de lenguaje de IA disponibles públicamente llamados OpenELM que son lo suficientemente pequeños como para ejecutarse directamente en un teléfono inteligente. Por el momento, son en su mayoría modelos de investigación de prueba de concepto, pero podrían formar la base para futuras ofertas de IA en dispositivos de Apple.

Los nuevos modelos de IA de Apple, denominados colectivamente OpenELM (Open Source Efficient Language Models), están actualmente disponibles en abrazo de cara bajo Licencia de muestra de código Apple. Debido a algunas restricciones en la licencia, es posible que no sea compatible con Definición generalmente aceptada «Código abierto», pero el código fuente de OpenELM está disponible.

El martes cubrimos los modelos Phi-3 de Microsoft, cuyo objetivo es lograr algo similar: un nivel útil de comprensión del lenguaje y rendimiento de procesamiento en pequeños modelos de IA que se pueden ejecutar localmente. El Phi-3-mini presenta 3.8 mil millones de parámetros, pero algunos de los modelos OpenELM de Apple son mucho más pequeños y oscilan entre 270 millones y 3 mil millones de parámetros en ocho modelos distintos.

En comparación, el modelo más grande lanzado hasta la fecha en la familia Llama 3 de Meta incluye 70 mil millones de parámetros (con un lanzamiento de 400 mil millones en camino), y el GPT-3 de OpenAI de 2020 se envió con 175 mil millones de parámetros. La cantidad de parámetros es una medida aproximada del poder y la complejidad de un modelo de IA, pero investigaciones recientes se han centrado en hacer que los modelos de lenguaje de IA más pequeños sean tan capaces como los más grandes que eran hace unos años.

READ  ODATA tiene su complejo de data center más grande en Chile y

Los ocho modelos OpenELM vienen en dos versiones: cuatro “preentrenados” (esencialmente una versión temprana del siguiente modelo) y cuatro ajustados por instrucciones (afinados para seguir instrucciones, más ideales para desarrollar asistentes de IA y chatbots):

OpenELM presenta una ventana contextual con un máximo de 2048 tokens. Los modelos fueron entrenados en conjuntos de datos disponibles públicamente. Web refinadaUna copia de montón Con los duplicados eliminados, un subconjunto de pijama rojoy un subconjunto de Dolma v1.6, que según Apple asciende a alrededor de 1,8 billones de tokens de datos. Los tokens son representaciones segmentadas de datos que los modelos de lenguaje de IA utilizan para su procesamiento.

Apple dice que su enfoque con OpenELM incluye una «estrategia de escalado de capas» que asigna parámetros de manera más eficiente en cada capa, no solo ahorrando recursos computacionales sino también mejorando el rendimiento del modelo a medida que se entrena con menos tokens. Según lo emitido por Apple libros blancosEsta estrategia permitió a OpenELM lograr una mejora del 2,36 por ciento en precisión en comparación con los sistemas Allen AI. olmos 1b (otro modelo de lenguaje pequeño) y requiere la mitad de tokens para el entrenamiento previo.

Tabla que compara OpenELM con otros pequeños modelos de lenguaje de IA en una categoría similar, tomada del artículo de investigación OpenELM de Apple.
Acercarse / Tabla que compara OpenELM con otros pequeños modelos de lenguaje de IA en una categoría similar, tomada del artículo de investigación OpenELM de Apple.

manzana

Apple también lanzó el código para red central, una biblioteca que utilicé para entrenar OpenELM, también incluía recetas de entrenamiento repetibles que permiten repetir pesos (archivos de red neuronal), lo cual es inusual para una importante empresa de tecnología hasta ahora. Como dice Apple en su resumen de investigación OpenELM, la transparencia es un objetivo clave para la empresa: “La reproducibilidad y transparencia de grandes modelos de lenguaje es fundamental para promover la investigación abierta, garantizar la confiabilidad de los resultados y permitir investigaciones sobre los sesgos de los datos y los modelos, como así como los riesgos potenciales”.

READ  David Perron de Red Wings suspendido 6 juegos por controlar a Artem Zub de los Senadores

Al publicar el código fuente, los pesos de los modelos y los materiales de capacitación, Apple dice que su objetivo es «potenciar y enriquecer la comunidad de investigación abierta». Sin embargo, también advierte que, dado que los modelos están entrenados en conjuntos de datos de origen público, «existe la posibilidad de que estos modelos produzcan resultados inexactos, dañinos, sesgados o objetables en respuesta a las indicaciones de los usuarios».

Aunque Apple aún tiene que integrar esta nueva ola de capacidades de modelo de lenguaje de IA en sus dispositivos de consumo, se rumorea que la próxima actualización de iOS 18 (que se espera que se presente en junio en la WWDC) incluirá nuevas funciones de IA que utilizan procesamiento sobre la marcha. Dispositivo para asegurar al usuario. Privacidad: aunque es probable que la empresa contrate a Google u OpenAI para manejar el procesamiento de IA más complejo fuera del dispositivo para darle a Siri un impulso que tanto necesitaba.

Estaremos encantados de escuchar lo que piensas

Deje una respuesta

ELCORREODEBEJAR.COM ES PARTICIPANTE EN EL PROGRAMA DE ASOCIADOS DE AMAZON SERVICES LLC, UN PROGRAMA DE PUBLICIDAD DE AFILIADOS DISEÑADO PARA PROPORCIONAR UN MEDIO PARA QUE LOS SITIOS GANAN TARIFAS DE PUBLICIDAD POR PUBLICIDAD Y ENLACE A AMAZON.COM. AMAZON, EL LOGOTIPO DE AMAZON, AMAZONSUPPLY Y EL LOGOTIPO DE AMAZONSUPPLY SON MARCAS COMERCIALES DE AMAZON.COM, INC. O SUS AFILIADAS. COMO ASOCIADO DE AMAZON, GANAMOS COMISIONES DE AFILIADOS DE COMPRAS QUE CALIFICAN. ¡GRACIAS, AMAZON POR AYUDARNOS A PAGAR LOS GASTOS DE NUESTRO SITIO WEB! TODAS LAS IMÁGENES DE LOS PRODUCTOS PERTENECEN A AMAZON.COM Y SUS VENDEDORES.
El Correo de Béjar