Resumen:

  1. El autor sostiene que la red neuronal de convolución 3D extrae más información contigua, como la información espacial, pero sin perder durante el proceso que las 2D.
  2. La convolución 3D significa que la matriz del núcleo es M x H x W. Operará a lo largo de los mapas de características contiguas, como 3 mapas. Por lo tanto, la matriz del núcleo es Rx M x H x W. { R = número de mapas contiguos(R = (M-3(dimensión temporal))/1+1), M = canal anterior, H = altura del núcleo, W = anchura del núcleo }

¿Cuál es la diferencia entre la convolución 2D y 3D?

del artículo

2D convolución

Suma de elementos-multiplicación sabia con la ventana deslizante, por ejemplo 3×3, y pasar a la siguiente región(stride). Por lo tanto, usted puede notar que es la operación de 2 dimensiones.

Convolución 3D

del documento

El modelo

del trabajo

Capa H1

tamaño del canal de H1 = imagen en escala de grises(7) + gradiente-x(7) + gradiente-y(7) + opticalFlow-x(6) + opticalFlow-y(6) = 33

Conocimiento del fondo:

Capa C2

Tamaño del canal de C2: 2 x (C2-gray + C2-gradient-x + C2-gradient-y + C2-opticalFlow-x + C2-opticalFlow-y)

tamaño del núcleo = ((60-7)/1+1, (40-7)/1+1)

tamaño del canal de C2-gray = (7-3)/1+1

lo mismo que lo siguiente.

Capa S3

El documento utiliza 3D Max Pooling(1,2,2) pasos y (1,2,2) tamaño de la piscina.

Capa C4

Con el fin de aumentar el mapa de características, el documento utiliza 3D convolución cada conjunto de mapas de características. Además, utilizando el tamaño del filtro de 3, aplicar al proceso de convolución.

2{conjunto de mapas de características} x 3{tamaño del filtro} x (5-3+1)x3{gris, gradiente-x, y gradient-y)} + (4-3+1)x2{opticalFlow-x y opticalFlow-y} = 6 x 13

Capa S5

3D Max Pooling usando 1x3x3 tamaño de pool con 1x2x2 strides

Capa C6

7×4 kernel con 1 stride. tamaño del filtro = 128.

Última capa

tamaño denso = número de acción

activación lineal.

Experimento

Me sumergiré en la parte del gradiente primero, luego el flujo óptico.

Para obtener el gradiente x e y, el papel utiliza SIFT o Motion Edge History Images(MHEI).

SIFT: https://docs.opencv.org/3.4.3/da/df5/tutorial_py_sift_intro.html

Imágenes de historia de movimiento:

De Udacity

El algoritmo MHI.

Por lo tanto, podemos extraer el borde de la MHI, llamado MHEI.

Para conocer la construcción en detalle, por favor revise el documento 😀

Conclusión

La CNN 3D se puede aplicar en el problema de reconocimiento de movimiento. Por lo tanto, la CNN 3D se puede utilizar para resolver el problema de movimiento, debido a las características espaciales y temporales.

Dejar un comentario

Tu dirección de correo electrónico no será publicada.