Meta ha lanzado hoy dos modelos más pequeños impulsados por Llama 3. Uno tiene 8.000 millones de parámetros y obtuvo una puntuación de 82 MMLU, una métrica del sector que mide la solidez del modelo.
LeCun reveló que actualmente se están desarrollando versiones mayores, incluida una con 400.000 millones de parámetros. Prevé que estos modelos más grandes sean más potentes y admitan más idiomas y modalidades.
¿Qué es el modelo Meta Llama 3?
Meta ha lanzado su modelo Llama 3 como oferta de IA generativa. Meta lo ha promocionado como el mejor modelo de código abierto disponible y afirma que eclipsa a cualquier otro modelo de IA generativa disponible en la actualidad. La Llama 3 puede generar imágenes y texto, e incluso puede entrenarse específicamente para un dominio o caso de uso; también cabe esperar un rendimiento más rápido y eficaz que el de su predecesora, la Llama 2.
Según la empresa, Llama 3 cuenta con un recuento de 8.000 o 70.000 millones de parámetros y puede soportar la generación de lenguaje, la clasificación, la extracción de información, la respuesta a preguntas basadas en el contenido, la investigación y el desarrollo, así como la respuesta a preguntas basadas en el contenido. Ahora puede descargarse para su uso en Databricks, Amazon Web Services, Google Cloud Platform y Microsoft Azure.
Llama 3 superó a su predecesor en varios puntos de referencia, según sus creadores, de acuerdo con los informes de su empresa. Entrenado en un conjunto de datos siete veces mayor que el utilizado con Llama 2, este modelo puede producir respuestas más matizadas en áreas como la IA conversacional y la generación de lenguaje natural en comparación con su predecesor Llama 2, así como competir contra modelos de IA generativa emblemáticos como los modelos GPT-3.5 de OpenAI y Google Gemini 1.5 Pro -¡según ellos!
Meta tiene planes para lanzar con el tiempo variantes más avanzadas de Llama 3, incluidas las capaces de crear tanto imágenes como salida de texto y más. Estos modelos posteriores deberían permitir a Meta abordar consultas más sofisticadas y desarrollar planes de varios pasos con mayor eficacia, declaró la empresa.
Estas variantes serán de última generación; sin embargo, también se están publicando Opciones de Ajuste de Colab Enterprise para que los usuarios puedan personalizar y optimizar estos modelos con sus propios datos. Es similar a cómo se optimizaron Llama 2 y Guardia 2 con datos específicos del dominio para su personalización; creando así versiones únicas.
El enfoque de Meta de publicar regularmente modelos Llama 3 grandes y pequeños demuestra su compromiso de mantener su liderazgo en la IA generativa de código abierto. Además, esta estrategia subraya su valor para las empresas que buscan varios modelos adaptados específicamente a casos de uso concretos.
¿Cuáles son las características del modelo Llama 3?
El modelo Llama 3 de Meta fue entrenado en un enorme conjunto de datos, que incluía 15T de tokens de contenido multilingüe, según Meta. Esta cantidad masiva de datos permitió a su nuevo modelo sobresalir en tareas como la clasificación de texto, la respuesta a preguntas cerradas, la codificación de la escritura creativa, la extracción de información que habita en la persona/personaje que habita en el razonamiento y el resumen. Además, también se han incluido otras mejoras, como añadir un tokenizador basado en Tiktoken que aumenta el vocabulario hasta 128k tokens.
La empresa afirma que su modelo Llama 3 ha superado a otros dispositivos en pruebas de referencia como MMLU (conocimientos de nivel universitario), GSM-8K (matemáticas de primaria), GPQA y HumanEval; superando a modelos como Google Gemma 7B Instruct y Mistral Medium en varios casos de uso, así como a Claude Sonnet, Gemini Pro 1.5 y la última generación GPT-4 de Google en determinadas pruebas de referencia.
La familia de modelos lingüísticos Llama 3 incluye variantes preentrenadas y ajustadas a las instrucciones con parámetros de 8B y 70B. Según Meta, los modelos ajustados a las instrucciones están optimizados para los casos de uso del diálogo y superan a muchos modelos de chat de código abierto en los puntos de referencia habituales del sector. Además, estos modelos también incorporan una arquitectura de flujo conversacional que ayuda al modelo a comprender mejor el habla natural no estructurada y a responder con mayor rapidez a las indicaciones.
Además de sobresalir en estas pruebas, la empresa informa de que su nuevo modelo también presenta una “tasa de alucinación”, o inexactitud en la producción de consultas de los usuarios, reducida. Además, este motor de análisis del habla con capacidad multilingüe puede reconocer formas de habla tanto naturales como sintéticas, manejando con facilidad las pausas naturales, las contracciones y la jerga.
Meta está trabajando actualmente en modelos Llama 3 más grandes y avanzados, con 400.000 millones de parámetros y compatibilidad con múltiples idiomas y modalidades; saldrán a la venta a finales de este año. Meta planea hacer accesibles al público estos modelos Llama más avanzados, con la esperanza de que los desarrolladores los utilicen para impulsar aplicaciones de su propio diseño; además, una versión mejorada de Meta AI que actualmente impulsa las barras de búsqueda en Instagram, Facebook y WhatsApp utilizará estos modelos como base.
¿Cuáles son las ventajas del modelo Llama 3?
El modelo Llama 3 de Meta es una solución de IA avanzada, que proporciona un mayor rendimiento y una experiencia de usuario mejorada. Adecuado tanto para empresas como para particulares, sus amplias aplicaciones lo convierten en una elección inteligente, como el análisis de sentimientos, la clasificación de datos y las tareas de traducción de idiomas.
El modelo Llama 3 puede descargarse gratuitamente de Meta con dos tamaños de parámetros disponibles, 8.000 y 70.000 millones respectivamente. Además, su arquitectura de alto rendimiento está optimizada para funcionar mejor con el hardware de Intel, como sus aceleradores de IA Gaudi y los procesadores Xeon, para obtener el máximo rendimiento.
Meta ha informado de que su modelo Llama 3 superó a su predecesor en pruebas de referencia como MMLU, ARC y DROP, al tiempo que obtuvo buenos resultados en otras métricas estándar de evaluación de la IA. Además, su transparencia permite a los usuarios observar cómo llega a sus resultados.
Además, este modelo puede manejar grandes volúmenes de datos sin dejar de ser escalable en diferentes plataformas informáticas, lo que lo hace conveniente para los desarrolladores que trabajan en diversos proyectos. Además, su precisión proporciona aplicaciones empresariales cruciales.
Este modelo puede manejar una impresionante variedad de idiomas y puede adaptarse fácilmente a requisitos específicos. Además, el modelo incorpora las medidas de seguridad Llama Guard y CybersecEval, diseñadas para minimizar los riesgos.
Además, este modelo se preentrenó en un conjunto de datos siete veces mayor que su predecesor. Con un entrenamiento completado sólo con más de 15 billones de tokens y escenarios multilingües como punto central, ¡de hecho actualmente ocupa el puesto de mejor modelo de su categoría!
Sin embargo, un modelo tan expansivo presenta ciertos retos. Uno de esos obstáculos es su necesidad de importantes recursos informáticos durante el entrenamiento y el ajuste fino, lo que se traduce en importantes emisiones de carbono asociadas a su proceso de creación. Para mitigar este problema, Meta ha adoptado un enfoque ético en su creación compensando las emisiones de carbono asociadas a los procesos de formación como parte de su plan de desarrollo. Además, Meta ha puesto su modelo gratuitamente a disposición de los desarrolladores de todo el mundo para que lo prueben y lo perfeccionen.
¿Cuáles son los inconvenientes del modelo Llama 3?
Como ocurre con todos los grandes modelos lingüísticos, Llama 3 puede sufrir algunas limitaciones. Entrenar este modelo lleva tiempo y dinero; para obtener resultados óptimos, hay que recopilar múltiples ejemplos de entrenamiento, lo que puede resultar lento o costoso. Además, sus respuestas podrían volverse hipersensibles a determinadas palabras o frases, lo que podría provocar respuestas inesperadas.
Aunque el modelado de la IA presenta ciertas limitaciones, sigue siendo un recurso eficaz para los desarrolladores y las empresas que buscan crear aplicaciones potenciadas por la IA. El modelo no sólo puede reducir el tiempo y los costes de desarrollo, sino que también permite a los desarrolladores personalizar la experiencia del usuario, algo que puede resultar especialmente útil en sectores como los servicios financieros, la sanidad, el comercio minorista, etc.
Meta ha introducido varias modificaciones en su modelo Llama 3, como reducir el número de parámetros necesarios y acelerar el rendimiento. Además, se introdujo soporte para entradas multimodales que pueden añadir imágenes o clips de audio directamente a la salida de texto para actividades creativas como escribir música o componer poesía. Además, el diálogo natural entre usuarios y máquinas también puede beneficiarse.
Meta ha ampliado su proceso de post-entrenamiento más allá de la simple disminución de los parámetros del modelo, creando nuevas técnicas de ajuste, como el ajuste fino supervisado y el aprendizaje por refuerzo con retroalimentación humana, para optimizar su rendimiento general. Además, Meta afirma que su modelo Llama 3 tiene un mejor muestreo de rechazo, lo que significa menos salidas incorrectas.
La empresa también ha publicado demostraciones que muestran al modelo Llama 3 en acción, como responder preguntas, completar tareas y seguir instrucciones. Puedes ver estas demostraciones en su sitio web.
La decisión de Meta de publicar su modelo Llama 3 como código abierto podría suponer una declaración impactante sobre su posición en el sector y animar a otras empresas a seguir su ejemplo, reduciendo aún más las barreras de entrada para los desarrolladores y simplificando al mismo tiempo la integración de la IA para los fabricantes de productos.
¿Estás interesado en desplegar los modelos Llama 3? Contacta con nosotros!