Meta presenta DINOv3: Modelo de visión auto-supervisado avanzado para análisis visual escalable y de alta precisión

En breve

DINOv3 es un modelo de visión por computadora auto-supervisado de vanguardia cuyo único backbone congelado ofrece características de imagen de alta resolución y supera soluciones especializadas en múltiples tareas de predicción densa establecidas.

Meta Introduce DINOv3: Modelo de Visión Auto-Supervisado Avanzado que Supera Soluciones Especializadas en Tareas de Predicción Densa

La división de investigación de la empresa tecnológica Meta, que desarrolla tecnologías de IA y realidad aumentada, Meta AI ha introducido DINOv3, un modelo de visión por computadora generalista de última generación entrenado utilizando aprendizaje auto-supervisado (SSL) para generar características visuales de alta calidad. Por primera vez, un solo backbone de visión congelado supera a modelos especializados en múltiples tareas de predicción densa establecidas, incluyendo la detección de objetos y la segmentación semántica.

DINOv3 logra este rendimiento a través de métodos avanzados de SSL que eliminan la necesidad de datos etiquetados, reduciendo el tiempo de entrenamiento y los requisitos de recursos, mientras permite que el modelo escale a 1.7 mil millones de imágenes y 7 mil millones de parámetros. Este enfoque sin etiquetas hace que el modelo sea adecuado para aplicaciones donde las anotaciones son limitadas, costosas o no están disponibles. Por ejemplo, los backbones de DINOv3 preentrenados en imágenes satelitales han demostrado resultados sólidos en tareas posteriores como la estimación de la altura del dosel.

Se espera que el modelo mejore las aplicaciones actuales y habilite nuevas en sectores como la salud, la monitorización ambiental, los vehículos autónomos, el comercio minorista y la manufactura, ofreciendo una mayor precisión y eficiencia en la comprensión visual a gran escala.

DINOv3 se está lanzando con un conjunto completo de estructuras de código abierto bajo una licencia comercial, incluyendo una estructura enfocada en satélites entrenada con imágenes de MAXAR. También se está compartiendo un subconjunto de cabezales de evaluación en cascada para permitir a los investigadores reproducir y extender los resultados. Se proporcionan cuadernos de muestra y documentación detallada para ayudar a la comunidad a comenzar a trabajar con DINOv3 de inmediato.

DINOv3: Desbloqueando Aplicaciones de Alto Impacto a Través del Aprendizaje Auto-Supervisado

Según Meta AI, DINOv3 representa un avance notable en el aprendizaje auto-supervisado (SSL), mostrando por primera vez que los modelos SSL pueden superar el rendimiento de los modelos débilmente supervisados en un amplio conjunto de tareas. Mientras que las versiones anteriores de DINO establecieron resultados sólidos en tareas de predicción densa como la segmentación y la estimación de profundidad monocular, DINOv3 se basa en esta base y logra niveles de rendimiento aún más altos.

DINOv3: Desbloqueando Aplicaciones de Alto Impacto a Través del Aprendizaje Auto-Supervisado

DINOv3 avanza el algoritmo DINO original al eliminar la necesidad de entrada de metadatos, utilizando menos computación de entrenamiento que enfoques anteriores, mientras produce modelos de fundación de visión de alto rendimiento. Las mejoras en DINOv3 permiten resultados de vanguardia en tareas posteriores como la detección de objetos, incluso cuando los pesos del modelo permanecen congelados, eliminando la necesidad de ajuste fino específico de la tarea y permitiendo una aplicación más versátil y eficiente.

Debido a que la metodología DINO no está vinculada a ningún tipo de imagen en particular, se puede aplicar en diversos dominios donde el etiquetado es costoso o poco práctico. Iteraciones anteriores, como DINOv2, han aprovechado grandes cantidades de datos no etiquetados para aplicaciones médicas, incluyendo histología, endoscopia e imágenes. Para imágenes satelitales y aéreas, donde el volumen y la complejidad de los datos hacen que el etiquetado manual sea inviable, DINOv3 permite entrenar un único modelo backbone aplicable a múltiples fuentes satelitales, apoyando casos de uso más amplios en monitoreo ambiental, planificación urbana y respuesta a desastres.

DINOv3 ya está demostrando un impacto práctico. El Instituto de Recursos Mundiales (WRI) emplea el modelo para monitorear la deforestación y guiar los esfuerzos de restauración, permitiendo a los grupos locales proteger mejor los ecosistemas. Al analizar imágenes satelitales para detectar la pérdida de árboles y cambios en el uso del suelo, DINOv3 mejora la precisión de la verificación de financiación climática, reduciendo los costos de transacción y acelerando la financiación para pequeños proyectos locales. En un caso, el uso de DINOv3 entrenado en imágenes satelitales y aéreas redujo el error promedio en la medición de la altura del dosel de los árboles en una región de Kenia de 4.1 metros a 1.2 metros, permitiendo a WRI escalar el apoyo a miles de agricultores e iniciativas de conservación de manera más efectiva.

VSN-3.15%
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
0/400
Sin comentarios
Opere con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)