Sommario:

  1. L’autore sostiene che la rete neurale di convoluzione 3D estrae più informazioni contigue, come le informazioni spaziali, ma non perde durante il processo rispetto a quelle 2D.
  2. Convoluzione 3D significa che la matrice del kernel è M x H x W. Essa opererà lungo le mappe di caratteristiche contigue, come 3 mappe. Quindi, la matrice del kernel è Rx M x H x W. { R = numero di mappe contigue (R = (M-3(dimensione temporale))/1+1), M = canale precedente, H = altezza del kernel, W = larghezza del kernel }

Qual è la differenza tra convoluzione 2D e 3D?

dal documento

2D convoluzione

Somma degli elementimoltiplicazione saggia con la finestra scorrevole, per esempio 3×3, e passare alla regione successiva (passo). Pertanto, si può notare che è un’operazione a 2 dimensioni.

Convoluzione 3D

dal documento

Il modello

dalla carta

strato H1

dimensione del canale H1 = immagine in scala di grigi(7) + gradiente-x(7) + gradiente-y(7) + opticalFlow-x(6) + opticalFlow-y(6) = 33

Conoscenza dello sfondo:

strato C2

dimensione del canale C2: 2 x (C2-gray + C2-gradient-x + C2-gradient-y + C2-opticalFlow-x + C2-opticalFlow-y)

dimensione del kernel = ((60-7)/1+1, (40-7)/1+1)

dimensione del canale di C2-gray = (7-3)/1+1

così come segue.

S3 strato

La carta usa 3D Max Pooling (1,2,2) passi e (1,2,2) dimensione del pool.

C4 strato

Per aumentare la mappa delle caratteristiche, la carta usa 3D convolution ogni set di mappe di caratteristiche. Inoltre, utilizzando la dimensione del filtro di 3, applicare al processo di convoluzione.

2{set di mappe di caratteristiche} x 3{dimensione del filtro} x (5-3+1)x3{gray, gradiente-x, e gradiente-y)} + (4-3+1)x2{opticalFlow-x e opticalFlow-y} = 6 x 13

Strato S5

3D Max Pooling usando 1x3x3 pool size con 1x2x2 strides

Strato C6

Kernel 7×4 con 1 stride. dimensione del filtro = 128.

L’ultimo strato

densa dimensione = numero di azioni

attivazione lineare.

Sperimentazione

Mi immergerò prima nella parte del gradiente, poi nel flusso ottico.

Per ottenere il gradiente x e y, la carta usa SIFT o Motion Edge History Images(MHEI).

SIFT: https://docs.opencv.org/3.4.3/da/df5/tutorial_py_sift_intro.html

Motion History Images:

da Udacity

L’algoritmo MHI.

Per conoscere la costruzione dettagliata, si prega di controllare il documento 😀

Conclusione

La CNN 3D può essere applicata al problema del riconoscimento del movimento. Quindi, la CNN 3D può essere usata per risolvere il problema del movimento, a causa delle caratteristiche spaziali e temporali.

Leave a comment

Il tuo indirizzo email non sarà pubblicato.