Summary:
- The author maintains that 3D convolution neural network extract more contiguous information, such as spatial information, but not losing during the process than the 2D ones.
- 3D convolution means that the kernel matrix is M x H x W. It will operate along the contiguous feature maps, such as 3 maps. Portanto, a matriz do kernel é Rx M x H x W. { R = número de mapas contíguos(R = (M-3(dimensão temporal))/1+1), M = canal anterior, H = altura do kernel, W = largura do kernel }
Qual é a diferença entre a convolução 2D e 3D?

2D convolução
>

>>
>
Soma de element-multiplicação sábia com a janela deslizante, por exemplo 3×3, e passar para a região seguinte(stride). Portanto, você pode notar que é uma operação de 2 dimensões.
3D convolução

O modelo
>
>
camada H1
tamanho do canal de H1 = imagem em escala de cinza(7) + gradiente-x(7) + gradient-y(7) + opticalFlow-x(6) + opticalFlow-y(6) = 33
Conhecimento de base:
C2 camada
tamanho de canal de C2: 2 x (C2-cinza + C2-gradient-x + C2-gradient-y + C2-opticalFlow-x + C2-opticalFlow-y)
tamanho do núcleo = ((60-7)/1+1, (40-7)/1+1)
tamanho do canal de C2-cinza = (7-3)/1+1
sim como os seguintes.
S3 layer
O uso de papel 3D Max Pooling(1,2,2) passos e (1,2,2) tamanho do pool.
C4 layer
A fim de aumentar o mapa de características, o papel usa convolução 3D cada conjunto de mapas de características. Além disso, usando o tamanho de filtro de 3, aplique ao processo de convolução.
2{set of feature maps} x 3{filter size} x (5-3+1)x3{gray, gradient-x, e gradiente-y)} + (4-3+1)x2{opticalFlow-x e opticalFlow-y} = 6 x 13
S5 layer
3D Max Pooling usando 1x3x3 tamanho de piscina com 1x2x2 strides
C6 layer
7×4 kernel com 1 stride. tamanho do filtro = 128.
ltima camada
denso tamanho = número de acção
activação linear.
Experimento
I mergulhará primeiro na parte do gradiente, depois o fluxo óptico.
Para obter o gradiente x e y, o papel use imagens SIFT ou Motion Edge History (MHEI).
SIFT: https://docs.opencv.org/3.4.3/da/df5/tutorial_py_sift_intro.html
Motion History Images:
>
O algoritmo MHI.
Hence, podemos extrair a borda do MHI, chamado MHEI.
Para conhecer a construção detalhada, verifique o papel 😀
Conclusão
A CNN 3D pode ser aplicada no problema de reconhecimento de movimento. Assim, o 3D CNN pode ser usado para resolver o problema do movimento, devido às características espaciais e temporais.
Comentários recentes