Sommario:
- L’autore sostiene che la rete neurale di convoluzione 3D estrae più informazioni contigue, come le informazioni spaziali, ma non perde durante il processo rispetto a quelle 2D.
- Convoluzione 3D significa che la matrice del kernel è M x H x W. Essa opererà lungo le mappe di caratteristiche contigue, come 3 mappe. Quindi, la matrice del kernel è Rx M x H x W. { R = numero di mappe contigue (R = (M-3(dimensione temporale))/1+1), M = canale precedente, H = altezza del kernel, W = larghezza del kernel }
Qual è la differenza tra convoluzione 2D e 3D?

2D convoluzione

Somma degli elementimoltiplicazione saggia con la finestra scorrevole, per esempio 3×3, e passare alla regione successiva (passo). Pertanto, si può notare che è un’operazione a 2 dimensioni.
Convoluzione 3D

Il modello

strato H1
dimensione del canale H1 = immagine in scala di grigi(7) + gradiente-x(7) + gradiente-y(7) + opticalFlow-x(6) + opticalFlow-y(6) = 33
Conoscenza dello sfondo:
strato C2
dimensione del canale C2: 2 x (C2-gray + C2-gradient-x + C2-gradient-y + C2-opticalFlow-x + C2-opticalFlow-y)
dimensione del kernel = ((60-7)/1+1, (40-7)/1+1)
dimensione del canale di C2-gray = (7-3)/1+1
così come segue.
S3 strato
La carta usa 3D Max Pooling (1,2,2) passi e (1,2,2) dimensione del pool.
C4 strato
Per aumentare la mappa delle caratteristiche, la carta usa 3D convolution ogni set di mappe di caratteristiche. Inoltre, utilizzando la dimensione del filtro di 3, applicare al processo di convoluzione.
2{set di mappe di caratteristiche} x 3{dimensione del filtro} x (5-3+1)x3{gray, gradiente-x, e gradiente-y)} + (4-3+1)x2{opticalFlow-x e opticalFlow-y} = 6 x 13
Strato S5
3D Max Pooling usando 1x3x3 pool size con 1x2x2 strides
Strato C6
Kernel 7×4 con 1 stride. dimensione del filtro = 128.
L’ultimo strato
densa dimensione = numero di azioni
attivazione lineare.
Sperimentazione
Mi immergerò prima nella parte del gradiente, poi nel flusso ottico.
Per ottenere il gradiente x e y, la carta usa SIFT o Motion Edge History Images(MHEI).
SIFT: https://docs.opencv.org/3.4.3/da/df5/tutorial_py_sift_intro.html
Motion History Images:
L’algoritmo MHI.
Per conoscere la costruzione dettagliata, si prega di controllare il documento 😀
Conclusione
La CNN 3D può essere applicata al problema del riconoscimento del movimento. Quindi, la CNN 3D può essere usata per risolvere il problema del movimento, a causa delle caratteristiche spaziali e temporali.
Commenti recenti