Summary:

  1. The author maintains that 3D convolution neural network extract more contiguous information, such as spatial information, but not losing during the process than the 2D ones.
  2. 3D convolution means that the kernel matrix is M x H x W. It will operate along the contiguous feature maps, such as 3 maps. Portanto, a matriz do kernel é Rx M x H x W. { R = número de mapas contíguos(R = (M-3(dimensão temporal))/1+1), M = canal anterior, H = altura do kernel, W = largura do kernel }

Qual é a diferença entre a convolução 2D e 3D?

>

>

do papel

2D convolução

>

>>

>

>

Soma de element-multiplicação sábia com a janela deslizante, por exemplo 3×3, e passar para a região seguinte(stride). Portanto, você pode notar que é uma operação de 2 dimensões.

3D convolução

do papel

O modelo

>7031>

>

>

do papel
>

camada H1

tamanho do canal de H1 = imagem em escala de cinza(7) + gradiente-x(7) + gradient-y(7) + opticalFlow-x(6) + opticalFlow-y(6) = 33

Conhecimento de base:

C2 camada

tamanho de canal de C2: 2 x (C2-cinza + C2-gradient-x + C2-gradient-y + C2-opticalFlow-x + C2-opticalFlow-y)

tamanho do núcleo = ((60-7)/1+1, (40-7)/1+1)

tamanho do canal de C2-cinza = (7-3)/1+1

sim como os seguintes.

S3 layer

O uso de papel 3D Max Pooling(1,2,2) passos e (1,2,2) tamanho do pool.

C4 layer

A fim de aumentar o mapa de características, o papel usa convolução 3D cada conjunto de mapas de características. Além disso, usando o tamanho de filtro de 3, aplique ao processo de convolução.

2{set of feature maps} x 3{filter size} x (5-3+1)x3{gray, gradient-x, e gradiente-y)} + (4-3+1)x2{opticalFlow-x e opticalFlow-y} = 6 x 13

S5 layer

3D Max Pooling usando 1x3x3 tamanho de piscina com 1x2x2 strides

C6 layer

7×4 kernel com 1 stride. tamanho do filtro = 128.

ltima camada

denso tamanho = número de acção

activação linear.

Experimento

I mergulhará primeiro na parte do gradiente, depois o fluxo óptico.

Para obter o gradiente x e y, o papel use imagens SIFT ou Motion Edge History (MHEI).

SIFT: https://docs.opencv.org/3.4.3/da/df5/tutorial_py_sift_intro.html

Motion History Images:

>

de Udacity

O algoritmo MHI.

Hence, podemos extrair a borda do MHI, chamado MHEI.

Para conhecer a construção detalhada, verifique o papel 😀

Conclusão

A CNN 3D pode ser aplicada no problema de reconhecimento de movimento. Assim, o 3D CNN pode ser usado para resolver o problema do movimento, devido às características espaciais e temporais.

Leave a comment

O seu endereço de email não será publicado.