Enable javascript in your browser for better experience. Need to know to enable it? Go here.

Plataformas de modelos de visión de gran tamaño (LVM)

Publicado : Oct 23, 2024
NO EN LA EDICIÓN ACTUAL
Este blip no está en la edición actual del Radar. Si ha aparecido en una de las últimas ediciones, es probable que siga siendo relevante. Si es más antiguo, es posible que ya no sea relevante y que nuestra valoración sea diferente hoy en día. Desgraciadamente, no tenemos el ancho de banda necesario para revisar continuamente los anuncios de ediciones anteriores del Radar. Entender más
Oct 2024
Evaluar ?

Los modelos de lenguaje de gran tamaño (LLMs, por sus siglas en inglés), han captado tanta de nuestra atención, que tendemos a pasar por alto los avances en los modelos de visión de gran tamaño (LVMs). Estos modelos pueden ser usados para segmentar, sintetizar, reconstruir y analizar videos e imágenes, a veces en combinación con modelos de difusión o redes neuronales convolucionales estándar. A pesar del potencial de las LVMs para revolucionar la manera que trabajamos con datos visuales, aún nos enfrentamos a retos significativos al adaptarlos y aplicarlos en ambientes de producción. Los datos de video, por ejemplo, presentan retos de ingeniería únicos para recolectar datos de entrenamiento, segmentar y etiquetar objetos, refinar modelos y luego desplegar los modelos resultantes y monitorearlos en producción. Así que mientras los LLMs se prestan a simples interfaces chat o APIs de texto plano, un ingeniero de visión computarizada o ingeniero de datos debe manejar, versionar, anotar y analizar grandes cantidades de datos de video; este trabajo requiere de una interfaz visual. Las plataformas LVM son una nueva categoría de herramientas y servicios - incluyendo V7, Nvidia Deepstream SDK y Roboflow — que surgen para atender estos retos. Deepstream y Roboflow son particularmente interesantes para nosotros, dado que combinan un ambiente de desarrollo con interfaz de usuario gráfica integrada para el manejo y creación de anotaciones en video con un conjunto de APIs REST, de Python o C++ para invocar los modelos desde el código de la aplicación.

Descarga el PDF

 

 

 

English | Español | Português | 中文

Suscríbete al boletín informativo de Technology Radar

 

 

 

 

Suscríbete ahora

Visita nuestro archivo para leer los volúmenes anteriores