- Ciencia y TecnologíaLo Más Reciente
- 12/09/2023
Nueva técnica de visión por computadora acelera segmentación semántica en tiempo real

Investigadores del MIT, el MIT-IBM Watson AI Lab y otros lugares han desarrollado un nuevo modelo de visión por computadora que reduce en gran medida la complejidad computacional de la segmentación semántica. Este modelo puede realizar la segmentación semántica de manera precisa en tiempo real en un dispositivo con recursos de hardware limitados, como las computadoras a bordo que permiten a un vehículo autónomo tomar decisiones en fracciones de segundo.
Los modelos de segmentación semántica de vanguardia aprenden directamente la interacción entre cada par de píxeles en una imagen, lo que hace que sus cálculos crezcan de forma cuadrática a medida que aumenta la resolución de la imagen. Debido a esto, aunque estos modelos son precisos, son demasiado lentos para procesar imágenes de alta resolución en tiempo real en dispositivos de borde como sensores o teléfonos móviles.
Los investigadores del MIT diseñaron un nuevo bloque de construcción para los modelos de segmentación semántica que logra las mismas capacidades que los modelos de vanguardia, pero con una complejidad computacional lineal y operaciones eficientes en hardware.
El resultado es una nueva serie de modelos para visión por computadora de alta resolución que se ejecutan hasta nueve veces más rápido que los modelos anteriores cuando se implementan en un dispositivo móvil. Además, esta nueva serie de modelos mostró la misma o mejor precisión que las alternativas anteriores.
Esta técnica no solo podría ayudar a los vehículos autónomos a tomar decisiones en tiempo real, sino que también podría mejorar la eficiencia de otras tareas de visión por computadora de alta resolución, como la segmentación de imágenes médicas.
Los investigadores utilizaron un concepto similar al de los transformadores de lenguaje natural para desarrollar su visión tranformadora. En lugar de aprender todas las interacciones posibles entre píxeles, los investigadores utilizaron una función de similitud lineal, lo que redujo significativamente la complejidad computacional.
Este nuevo enfoque permite que el modelo sea hasta nueve veces más rápido que los modelos anteriores al ejecutarse en una unidad de procesamiento gráfico Nvidia (GPU), sin perder precisión. El modelo está diseñado para tener una arquitectura compatible con hardware, lo que facilita su funcionamiento en diversos tipos de dispositivos, como gafas de realidad virtual o computadoras en vehículos autónomos.
Los investigadores planean aprovechar estos resultados para acelerar modelos de aprendizaje automático generativo y continuar optimizando el modelo para otras tareas de visión por computadora.
Si te interesó esta noticia y deseas mantenerte al día con los últimos acontecimientos, no dudes en explorar nuestras otras secciones en Uni2Noticias. Continúa informándote con nosotros.