Cultura

DINO de Facebook permite el aprendizaje auto-supervisado para la inteligencia artificial de la visión por computadora

El equipo de investigación de inteligencia artificial de Facebook Inc. anunció hoy más avances, esta vez en las áreas de aprendizaje auto-supervisado y aprendizaje semi-supervisado para visión por computadora.

El aprendizaje auto supervisado en IA, también conocido como aprendizaje no supervisado, se refiere a enseñar a las computadoras, o modelos de IA, a realizar ciertas tareas sin que los humanos tengan que proporcionar datos etiquetados.

En visión por computadora, los modelos de inteligencia artificial se han entrenado tradicionalmente con imágenes etiquetadas, como una imagen de un perro acompañada de la etiqueta «perro». Con el aprendizaje auto-supervisado, el modelo de IA lo resuelve por sí mismo, sin que las imágenes que se muestran estén etiquetadas.

El equipo de inteligencia artificial de Facebook dijo hoy en una publicación de blog que ha utilizado con éxito un método de aprendizaje auto-supervisado para entrenar lo que se conoce como un «modelo de transformador de visión» que puede descubrir y segmentar los objetos que ve en imágenes y videos, completamente por su cuenta.

Facebook ha bautizado su nuevo método de aprendizaje auto-supervisado «DINO». Se utiliza para entrenar transformadores de visión, que permiten que los modelos de IA se enfoquen selectivamente en ciertas partes de su entrada y, por lo tanto, razonen de manera más efectiva. La capacidad de DINO para descubrir y segmentar objetos por sí misma tiene numerosas aplicaciones potenciales, dijeron los investigadores de Facebook. Por ejemplo, podría facilitar tareas como cambiar el fondo de un chat de video o enseñar a los robots a navegar a través de un entorno desordenado.

La segmentación de objetos siempre se ha considerado uno de los desafíos más difíciles en la visión por computadora porque requiere que la IA comprenda todo lo que ve en una imagen. Eso tradicionalmente siempre requería un aprendizaje supervisado con grandes volúmenes de ejemplos anotados, explicaron los investigadores.

El modelo DINO se basa en dos componentes de enfoques auto-supervisados ​​anteriores, conocidos como el «profesor de impulso y la» formación multicultivo «. Los investigadores dijeron que al combinarlos con las «capas de auto-atención» de DINO, el modelo es capaz de construir una «comprensión de alto nivel» de cada escena que se muestra.

“DINO aprende mucho sobre el mundo visual. Al descubrir partes de objetos y características compartidas a través de imágenes, el modelo aprende un espacio de características que exhibe una estructura muy interesante ”, dijo el equipo de inteligencia artificial de Facebook. “Si incorporamos clases de ImageNet utilizando las características calculadas con DINO, vemos que se organizan de una manera interpretable, con categorías similares que se acercan entre sí. Esto sugiere que el modelo logró conectar categorías basadas en propiedades visuales, un poco como lo hacen los humanos «.

Los investigadores dicen que DINO es adecuado para tareas generales de clasificación de imágenes y también sobresale en la identificación de copias de imágenes, aunque nunca fue diseñado para hacer eso. Dicen que DINO incluso tiene el potencial de convertirse en el estándar de la industria para los sistemas de detección de copias utilizados para detectar infracciones de derechos de autor y desinformación de identidad.

Aprendizaje semi-supervisado

El otro avance de Facebook en la actualidad es un nuevo método para el aprendizaje semi-supervisado que utiliza solo una pequeña cantidad de imágenes para lograr «resultados de vanguardia» con una décima parte de los pasos de capacitación.

LEER  Testimonios Reto Año Nuevo, Cuerpo Nuevo

Los investigadores explican que muchos investigadores carecen de acceso a los recursos informáticos a gran escala necesarios para entrenar modelos de visión por computadora de alto rendimiento con una gran cantidad de datos de entrenamiento. PAWS, un nuevo enfoque de entrenamiento de modelos que se puede utilizar para crear modelos de visión por computadora extremadamente precisos, bien podría ser la respuesta.

Se dice que PAWS se basa en enfoques de autoaprendizaje como DINO, aunque se basa en una pequeña cantidad de datos etiquetados junto con muchos datos sin etiquetar para acelerar las cosas.

“De manera similar a los enfoques auto-supervisados, el enfoque durante el entrenamiento previo es entrenar una red neuronal para mapear imágenes en representaciones latentes”, explicaron los investigadores. «Dada una imagen de entrenamiento sin etiquetar, generamos dos o más vistas de la imagen utilizando aumentos y transformaciones de datos aleatorios, y entrenamos la red neuronal para que las representaciones de estas vistas sean similares entre sí».

Facebook dijo que PAWS, al entrenar un modelo ResNet-50 estándar utilizando solo el 1% de las etiquetas en el conjunto de datos de entrenamiento de ImageNet y con una décima parte de los pasos previos al entrenamiento, logró, no obstante, una «precisión de vanguardia».

El potencial final de DINO y PAWS es que pueden usarse para construir nuevos sistemas de visión por computadora que dependen mucho menos de los datos etiquetados y no requieren cantidades masivas de recursos informáticos. En otras palabras, los métodos DINO y PAWS harán que la IA de visión por computadora sea mucho más accesible que antes. Y los modelos también pueden ser mucho más precisos.

“La necesidad de anotaciones humanas suele ser un cuello de botella en el desarrollo de sistemas de visión por computadora. Al hacer que nuestros enfoques sean más eficientes en anotaciones, permitimos que los modelos se apliquen a un conjunto más amplio de tareas y, potencialmente, escalen la cantidad de conceptos que pueden reconocer ”, dijeron los investigadores.

Facebook dijo que está haciendo DINO y PAWS de código abierto, y el código para ambas técnicas de entrenamiento está disponible ahora en GitHub.

Imágenes: Facebook

Ya que estás aquí …

Muestre su apoyo a nuestra misión con nuestra suscripción de un clic a nuestro canal de YouTube (abajo). Cuantos más suscriptores tengamos, más YouTube le sugerirá contenido empresarial relevante y de tecnología emergente. ¡Gracias!

Apoya nuestra misión: >>>>>> SUSCRÍBETE AHORA >>>>>> a nuestro canal de YouTube.

… También nos gustaría contarte sobre nuestra misión y cómo puedes ayudarnos a cumplirla. El modelo comercial de SiliconANGLE Media Inc. se basa en el valor intrínseco del contenido, no en la publicidad. A diferencia de muchas publicaciones en línea, no tenemos un muro de pago ni ejecutamos anuncios publicitarios, porque queremos mantener nuestro periodismo abierto, sin influencia ni la necesidad de perseguir el tráfico.El periodismo, los informes y los comentarios sobre SiliconANGLE, junto con el video en vivo sin guión de nuestro estudio de Silicon Valley y los equipos de video trotamundos en el cubo – requiere mucho trabajo, tiempo y dinero. Mantener la calidad alta requiere el apoyo de patrocinadores que estén alineados con nuestra visión de contenido periodístico sin publicidad.

Si le gustan los informes, las entrevistas en video y otro contenido sin publicidad aquí, tómese un momento para ver una muestra del contenido de video respaldado por nuestros patrocinadores, tuitea tu apoyoy sigo volviendo a SiliconaANGLE.

Author

Moisés Cabrera

Encantado de emprender, el Internet es como pez en el rio para mi y quiero aportar valor a este mundo digital. Si crees que es de interés estos artículos no dudes en comentar.

¿Te gusta nuestro contenido?Recibe noticias y estrategias digitales a tu correo.

No pierda la oportunidad de recibir también descuentos de nuestros servicios.