Space-Time Patch

動画像からの特徴量抽出手法。

1枚の画像からではなく数フレームを1つのデータ集合とし、そこから特徴量を抽出する。物体の局所的な「アピアランス」と「モーション」の時間的変化を捉えた特徴量。

動画像の局所領域をN \times N (pixel) \times T(frame)におけるx,y,t軸の輝度勾配から求める。

局所領域の勾配値を領域中の画素数nとし以下のように行列でn×3行列で表す。
G=\left(\begin{array}{ccc} P_{x1}& P_{y1}&P_{t1}  \\ P_{x2}&P_{y2} &P_{t2} \\ \vdots & \vdots & \vdots \\ P_{xn}& P_{yn}&P_{tn} \end{array} \right)
この行列に対し
M=G^{'}G=\left(\begin{array}{ccc} \Sigma P_x^2& \Sigma P_x P_y&\Sigma P_x P_t  \\ \Sigma P_y P_x& \Sigma P_y^2 & \Sigma P_y P_t \\ \Sigma P_t P_x& \Sigma P_t P_y & \Sigma P_t^2 \end{array} \right)
を計算し、このMの値が特徴量となる。

イベント検出。移動方向を考慮した物体検出など幅広い領域で利用されいている模様。

やっぱり次元は超高次元になる。