MM1.5: La Nueva Generación de Modelos Multimodales de Lenguaje
Failed to add items
Sorry, we are unable to add the item because your shopping basket is already at capacity.
Add to cart failed.
Please try again later
Add to wishlist failed.
Please try again later
Remove from wishlist failed.
Please try again later
Follow podcast failed
Unfollow podcast failed
-
Narrated by:
-
Written by:
About this listen
MM1.5 es una nueva familia de Modelos Multimodales de Lenguaje a Gran Escala (MLLMs) diseñada para mejorar las capacidades en la comprensión de imágenes ricas en texto, referencia visual y ubicación, y razonamiento con múltiples imágenes. Este podcast explora las innovaciones detrás de MM1.5, incluyendo:
- Un enfoque centrado en los datos para el entrenamiento del modelo. Esto implica el uso de datos OCR de alta calidad y subtítulos sintéticos para el pre-entrenamiento continuo, así como una mezcla optimizada de datos de ajuste de instrucciones visuales para la sintonización fina supervisada.
- Modelos que van desde 1B a 30B parámetros, incluyendo variantes densas y de Mezcla de Expertos (MoE). Se destaca que incluso los modelos más pequeños (1B y 3B) pueden lograr un rendimiento sólido con una selección cuidadosa de datos y estrategias de entrenamiento.
- Dos variantes especializadas: MM1.5-Video, diseñado para la comprensión de video, y MM1.5-UI, adaptado para la comprensión de la interfaz de usuario móvil.
- Un análisis profundo de los procesos de entrenamiento y las decisiones de diseño, ofreciendo información valiosa para futuras investigaciones en el desarrollo de MLLM.
Acompáñanos mientras desglosamos los componentes clave de MM1.5, sus capacidades y su impacto potencial en el futuro de la IA.
Hosted on Acast. See acast.com/privacy for more information.
No reviews yet