Summary:

  1. 著者は、3次元畳み込みニューラルネットワークは、空間情報などの連続した情報を抽出し、プロセス中に失われることは2次元よりもないことを主張している。 R = 連続するマップの数(R = (M-3(temporal dimension))/1+1), M = 前のチャンネル, H = カーネルの高さ, W = カーネルの幅 }

2D と 3D の違いはなんですか?

論文より

2 次元 コンボリューション

エレメントの合計額をスライディングウィンドウで乗算します。 例えば3×3のように、次の領域(ストライド)へ移動する。 従って、2次元の演算であることがわかる。

3D convolution

論文より

The model

論文より

H1層

H1のチャンネルサイズ=グレースケール画像(7)+Gradient-。x(7) + gradient-y(7) + opticalFlow-x(6) + opticalFlow-y(6) = 33

背景の知識です。

C2 layer

C2 のチャンネルサイズ。 2 x (C2-gray + C2-gradient-x + C2-gradient-y + C2-opticalFlow-x + C2-opticalFlow-y)

kernel size = ((60-7)/1+1, (40-7)/1+1)

channel size of C2-gray = (7-3)/1+1

same as a following.

S3 layer

The paper use 3D Max Pooling(1,2,2) strides and (1,2,2) pool size.

C4 layer

特徴量を増やすために、各集団の特徴量を3Dコンボリューションで表現しています。 また、フィルタサイズ3を使用して、畳み込み処理に適用する。

2{特徴マップのセット}×3{フィルターサイズ}×(5-3+1)x3{グレー、グラデーション-x, and gradient-y)} + (4-3+1)x2{opticalFlow-x and opticalFlow-y} = 6 x 13

S5 layer

3D Max Pooling using 1x3x3 pool size with 1x2x2 strides

C6 layer

7×4 kernel with 1 stride.X.Y.

S5レイヤー

3Dプーリング。 filter size = 128.

Last layer

dense size = number of action

linear activation.これは、1x3x2ストライドのプールサイズと、1x2x2ストライドのカーネルサイズからなる。

実験

まず勾配の部分に飛び込み、次にオプティカルフローです。

勾配xとyを得るために、論文ではSIFTかMotion Edge History Images (MHEI) を使用しています。 https://docs.opencv.org/3.4.3/da/df5/tutorial_py_sift_intro.html

Motion History Images:

from Udacity

The MHI algorithm.

Hei というMHIからedgeを抽出できるようにした。

詳しい構成は論文をご覧ください:D

Conclusion

3次元CNNは動作認識の問題に適用できる。 つまり、3次元CNNは空間的、時間的な特徴を持つため、運動問題の解決に利用できる。

Leave a comment

メールアドレスが公開されることはありません。