Red de Respuestas Legales - Leyes y reglamentos - Últimas noticias | ¿Renjiasimo? La arquitectura del motor de percepción visual binocular 4.5K de tercera generación es el estreno mundial.

Últimas noticias | ¿Renjiasimo? La arquitectura del motor de percepción visual binocular 4.5K de tercera generación es el estreno mundial.

En enero de 2020, Renjia Company lanzó oficialmente la arquitectura del motor de percepción visual binocular de tercera generación, que puede admitir procesamiento en tiempo real de hasta 4,5K de resolución (4608*2560) y 20 FPS. Antes de esto, Ricoh de Japón, la principal empresa óptica del mundo, lanzó un producto de cámara de visión estéreo binocular con resolución 4K en octubre de 2018.

La arquitectura de tercera generación de Simou lanzada por Renjia es actualmente la arquitectura del motor de percepción visual binocular que puede admitir la resolución más alta del mundo. El rendimiento general de esta arquitectura ha mejorado significativamente en comparación con la generación anterior, con el índice de resolución como parámetro central aumentado casi 12 veces.

Durante mucho tiempo, en el campo de la percepción visual 3D con inteligencia artificial, la tecnología de visión estéreo binocular ha sido a menudo amada y odiada debido a su alta complejidad de algoritmo y grandes requisitos de potencia informática. Como 3D Una parte importante del campo de la detección, también es favorecido por muchos usuarios de la industria debido a sus muchas ventajas, como que su distancia de medición puede ser lejana o cercana, y puede usarse tanto en interiores como en exteriores.

La tecnología de visión estéreo binocular utiliza el principio de triangulación para obtener imágenes de la escena simultáneamente a través de dos cámaras con posiciones relativas fijas y calcula la profundidad en función del paralaje de la imagen. El método de cálculo típico es el siguiente:

Entre ellos, f es la distancia focal de la cámara, b es la línea de base, d es el paralaje y Z es el valor de profundidad. Con base en este marco teórico, se puede concluir que la precisión de la medición. La visión estéreo binocular aumentará seriamente a medida que aumente la distancia de medición. La atenuación, que también es uno de los mayores puntos débiles del sistema de visión binocular actual. Al mismo tiempo, para aumentar el área de cobertura del sistema, es necesario aumentar el campo de visión de la cámara, lo que reducirá aún más la distancia focal f, aumentando así aún más la atenuación de la precisión de la dirección Z a medida que aumenta la distancia. .

Por lo tanto, si un sistema de visión estéreo binocular desea lograr tanto "ver de lejos" como "ver con claridad", la resolución principal existente (1280*800) y el volumen del sistema (línea de base generalmente son difíciles de lograr bajo las limitaciones). de 12 cm o menos).

En resumen, mejorar la resolución del sistema de visión binocular es la única forma directa de lograr avances tecnológicos en la actualidad, y también se ajusta a la tendencia de desarrollo actual de aumentar la resolución de los sensores de imagen CMOS.

Sin embargo, si se desea mejorar la resolución binocular, la demanda de potencia informática y ancho de banda de almacenamiento aumentará exponencialmente, lo que supondrá un gran desafío para el almacenamiento y la arquitectura informática modernos. El costo de implementación es muy alto. bajo la arquitectura tradicional de CPU o GPU (en el ranking de evaluación binocular de KITTI, una CPU de 4 núcleos y 2,6 Ghz solo tarda hasta 0,2 segundos en ejecutar el algoritmo de coincidencia rSGM), y es difícil lograr una eficiencia y un rendimiento informático ideales. /saldo de costos.

Según el análisis anterior, la arquitectura del motor de percepción visual binocular de tercera generación de Renjia Simo aún continúa con la arquitectura informática heterogénea de unidad lógica (FPGA) + CPU de la generación anterior. Arquitectura de almacenamiento DDR4 de 64 bits, el ancho de banda de almacenamiento de la memoria se ha incrementado 4 veces en comparación con la generación anterior. Después de una serie de innovaciones en el diseño de aceleración de algoritmos, la resolución horizontal se ha incrementado casi 4 veces y se ha mejorado la resolución general. en casi 12 veces.

La arquitectura de tercera generación continúa el método de diseño heterogéneo de unidad lógica + CPU de la generación anterior. Basado en la generación anterior, se enfoca en romper el cuello de botella técnico del ancho de banda de la memoria y los recursos de almacenamiento en el chip. tecnología causada por la mejora de la resolución, el diagrama de diseño general es el siguiente:

El sistema utiliza DDR4 como unidad de almacenamiento, lo que mejora la eficiencia de la interacción de datos entre la unidad lógica y la unidad de almacenamiento externa, y la El ancho de banda de diseño es de hasta 16,5 GB/s. Al mismo tiempo, el diseño de la tubería continúa entre cada unidad central del sistema, lo que minimiza el retraso causado por los cálculos. El diseño cumple con el requisito de que el retraso desde la entrada de datos hasta la salida de datos sea inferior a 1 fotograma de imagen. Al mismo tiempo, el sistema también puede admitir un procesamiento paralelo más detallado de cada unidad. Para escenarios con mayores requisitos en tiempo real, puede admitir rápidamente diseños que intercambian espacio por tiempo, minimizando los retrasos del sistema.

Los parámetros de rendimiento detallados de la arquitectura de tercera generación se muestran en la siguiente tabla:

Finalmente, Renjia Company realizó una práctica completa de esta arquitectura en la placa de evaluación Xilinx Zynq UltraScale+ ZCU102. plataforma Recursos La situación de consumo se muestra en la siguiente tabla:

La práctica en el conjunto de herramientas Xilinx Vivado 2018.3 se muestra en la siguiente figura:

Para romper con los recursos de almacenamiento. y el cuello de botella de los recursos informáticos causado por el aumento sustancial de la resolución, Renjia Intelligent Engineers ha realizado una serie de diseños innovadores. Tomando tres puntos clave como ejemplos, el resumen es el siguiente:

(1) Utilice el parámetro de corrección dinámica. Tecnología de compresión para optimizar los recursos de ancho de banda de la memoria en múltiplos.

La corrección estéreo binocular utiliza mapeo inverso e interpolación bilineal. La generación de un píxel objetivo debe corresponder a un conjunto de valores de coordenadas bidimensionales y al valor de proporción utilizado en la interpolación bilineal. Tomando como ejemplo el diseño con una resolución de 4608x2560@20fps, un píxel requiere 4,5 bytes de información y la velocidad de lectura DDR requerida alcanza 1 GB/s. Para la corrección simultánea de dos imágenes, la velocidad de ancho de banda total ocupa hasta 2 GB/s. . Renjia Intelligence propone un método de compresión y descompresión para los datos de corrección basado en las características de distribución de los datos requeridos para la corrección. La compresión se completa fuera de línea en la CPU y la parte de descompresión se calcula en tiempo real mediante recursos lógicos. El método de compresión final adoptado puede lograr una relación de compresión de 2:1, y los recursos ocupados por la unidad de descompresión son solo más de 200 LUT y 0,5 BRAM. Los detalles son los siguientes:

(2) Uso. tecnología de corrección dinámica de fragmentación Reduzca el uso de memoria en el chip a 1/3.

El aumento de la resolución lateral ha provocado un aumento en el ancho de la línea caché. Por lo tanto, el requisito de espacio de almacenamiento para el cálculo en tiempo real de los datos de imágenes almacenados en caché ha aumentado casi 4 veces (en relación con el). generación anterior). Para hacer frente a los recursos de RAM del bloque en el chip Para resolver el problema de la tensión, Renjia Intelligence ha diseñado un marco que puede cortar y corregir dinámicamente la imagen. La configuración típica puede dividir la imagen en 3 bloques horizontalmente. Puede reducir el requisito de espacio para el almacenamiento en chip a 1/3 y, al mismo tiempo, los recursos BRAM son más limitados en los escenarios, y también admite más configuraciones de fragmentos o particiones para satisfacer la demanda de recursos BRAM del escenario.

(3) Diseño tridimensional a juego bloque a bloque.

La parte de coincidencia estéreo de esta arquitectura todavía utiliza el algoritmo de diseño de la generación anterior SGM/BM. Sobre la base de garantizar el rendimiento del diseño, Renjia Intelligence adopta la idea de coincidencia de bloques para dividir la izquierda. y las imágenes de la derecha en Las dos partes son desmontables y combinan de forma independiente, lo que reduce aún más el uso de recursos BRAM a la mitad en el diseño.

Esta actualización de la arquitectura de procesamiento de visión estéreo binocular se completa bajo los requisitos duales de un campo de visión más amplio y una mayor precisión para los sistemas de visión binocular en aplicaciones de escena actuales. Después de la actualización, brindará a las personas la aplicación de. El análisis inteligente del comportamiento de consumo de entidades aporta los siguientes beneficios:

(1) Aumenta el alcance que puede cubrir un único sistema de visión binocular.

Al aumentar el campo de visión de la cámara a 130°-150° (el indicador de diseño de la generación anterior era 100°), un único sistema de visión binocular puede cubrir un área de hasta 100 metros cuadrados, lo que puede reducir la cantidad de cámaras utilizadas, reduciendo así los costos de mantenimiento del sistema y mejorando la estabilidad del sistema.

(2) El posicionamiento espacial es más preciso.

Una mayor resolución del mapa de profundidad brindará una mayor precisión de medición, lo que hará que el posicionamiento espacial sea más preciso.

(3) Los detalles de la imagen son más ricos y el reconocimiento es más preciso.

A través de esta actualización, el sistema de visión binocular inteligente de Renjia puede proporcionar imágenes originales de hasta 12 millones de píxeles, lo que mejorará enormemente la precisión de aplicaciones como el reconocimiento de imágenes.

(4) El algoritmo profundo admite la optimización de actualización iterativa para aumentar la adaptabilidad de la escena.

La arquitectura de tercera generación continúa el diseño FPGA SOC, lo que permite actualizar y mantener el algoritmo de nivel de aceleración del hardware, y puede configurarse y optimizarse de acuerdo con escenarios específicos.

Al mismo tiempo, esta actualización también trae al mercado un nuevo espacio de imaginación para la aplicación de la tecnología de visión estéreo binocular. Cuando la resolución aumenta a 12 millones de píxeles, el rango de medición del sistema puede ser mayor. aumentado a miles de metros, es posible que también proporcione una nueva opción de solución para algunos campos de medición a gran escala (como conducción autónoma, seguridad inteligente, etc.).

Human Plus Intelligence (www.humanplus.ai) es una empresa de inteligencia artificial con detección visual inteligente y reconocimiento del comportamiento humano como tecnologías principales. Actualmente se centra en proporcionar comportamientos de consumo físico para marcas minoristas y minoristas. El servicio de análisis (Customer Behavior Analytics), que incluye análisis de flujo de clientes, análisis de conversión de ventas, análisis de línea de flujo de clientes, análisis de interacción humano-producto, etc., ayuda al proceso de toma de decisiones y ejecución del comercio minorista de marca para lograr un enfoque "basado en datos" y "colaboración hombre-máquina".

Enlace original: /s/VFp5tZC0dTRIsot4UtTm2A