Enable javascript in your browser for better experience. Need to know to enable it? Go here.
Publicado : Apr 03, 2024
Apr 2024
Assess ? Vale la pena explorarlo con el objetivo de entender cómo afectará a tu empresa.

LLaVA (Asistente Visual y de Lenguaje grande, del inglés: Large Language and Vision Assistant) es un modelo multimodal en código abierto que conecta un codificador visual y un modelo de lenguaje grande (o LLM en inglés) para el entendimiento visual y lingüístico con propósito general. La gran capacidad de LLaVA en el seguimiento de instrucciones lo posiciona como un oponente altamente competitivo entre los modelos de IA multimodal. La última versión, LLaVA-NeXT, proporciona una mejor respuesta. Entre los modelos de código abierto para asistencia lingüística y visual, LLaVA es una opción prometedora cuando es comparado con GPT-4 Vision. Nuestros equipos han estado experimentando con él para responder visualmente a preguntas.

Descarga el PDF

 

 

 

English | Español | Português | 中文

Suscríbete al boletín informativo de Technology Radar

 

 

 

 

Suscríbete ahora

Visita nuestro archivo para leer los volúmenes anteriores