忍者ブログ
キェ―――
[204]  [203]  [202]  [201]  [200]  [199]  [198]  [197]  [196]  [195]  [194


"Predictive Coding for Dynamic Vision Development of Functional Hierarchy in a Multiple Spatio-Temporal Scales RNN Model",
M. Choi and J. Tani, arXiv:1606.01672v2 [cs.CV], 8 Jun 2016.
URL: https://arxiv.org/abs/1606.01672


1. Introduction
・Predictive codingは、人間の脳が行う予測を模したモデルである。
Top-down: 高レベルの注意によって引き起こされる低レベルの知覚
Bottom-up: 予測誤差によって推測される現在の知覚に対応する注意
・Predictive codingの枠組みにおける仮定
知覚パターンは、より高レベルの注意状態に対応してエンコードされる 。
機能的に必要な階層は、複数の皮質領域を通して発展する 。
・研究目的
動的な視覚パターンのロバストな認識と生成を行うために十分な時空間階層は、どのように発展するのか?
新しいPredictive coding型のRNNモデルの提案
ネットワーク全体の神経活動が、時空間スケール特性に応じて複数階層で同時にチューニングされるとき、動的な視覚パターンをピクセルレベルで取り扱う。

・提案手法
予測的複時空間スケールRNN(Predictive multiple spatio-temporal scales RNN; P-MSTRNN)
・先行例モデルとの差分
動的視覚処理 (時空間の処理が同時に行われるため)
・学習とテストに用いられる映像データセット
複数被験者による構造化された動きの周期的なパターン
・シミュレーション実験結果
学習による時空間階層のパラメータは、動きの構造に対応したパターンで発展する。
テストデータのロバストな認識は、変動の多い標本に相互依存する。



2. Model
・P-MSTRNNは、MSTRNN(Multiple spatio-temporal scales RNN)を基本とする。
 MSTRNNにPredictive codingの枠組みを導入する。



2. 1 Architecture
・P-MSTRNNは、Context層と、底にあるInput/Output層から構成される。 (Fig. 1)
・Context層: 高次層からTop-down信号を受け取ることにより、次時間ステップにおける自身のNeural stateを予測する。
1st Context層は、現在の視覚入力と2nd層からのTop-down信号を受け取ることにより、次ステップの視覚入力を予測する。
それぞれのContext層において、高次層方向には予測誤差が逆伝搬し、結合重みとIntentionが更新される。
モデルは、Convolutional neural network (CNN)とは少し異なり、1つの層は機能的に異なる2つのUnitから構成される。
・2つのUnit: Feature unitとContext unit
前時間の値を反映させていくLeaky integratorの導入により、時間的階層の構築を可能とする。
・同層のFeature unitとContext unitは、Feature map(FM)とContext map(CM)を形成する。
FM: 近くのFMから神経入力を受け取ることによって、空間処理に貢献
CM: Recurrent結合によって、動的情報処理に貢献
Leaky integratorのDecay rateを決める時定数はすべての層にある。
・低次層は時定数小、高次層は時定数大
低次層のContext層の神経活動は早い反応を示し、高次層は遅い反応を示す。

・1st層のFMのダイナミクス: (1)(2)式
第1項: (1-1/τ^l)の割合で、t-1秒からFMがDecayしていく遷移状態
第2項: l+1層のFMから現在のFMへの入力
第3項: 前時間ステップt-1の同じCMから今のCMへの入力
第4項: 現在のFMへ送り込むデータフレーム
・FM内部状態の計算終了後、Activation値がTanh関数で得られる。

・CMのダイナミクス: (3)(4)式
第1項: t-1からのLeaky integrator入力
第2項: 前のステップからのRecurrent入力
第3項: l+1層のFMからの入力
第4項:低層からのボトムアップ入力
・FMと同様、CM内部状態の計算終了後、Activation値がTanh関数で得られる。

・畳み込みの計算を行う際、入力の大きさが出力の大きさよりも小さい時がある。
 その時は、Zero-paddingをした入力Mapが用いられる。
 積計算が要素ごとに行われるため、行列の大きさは等しくする。

・出力層のダイナミクス: (5)(6)式
出力の内部状態は、1st層のFM畳み込みによって計算される。
出力層のActivation値は、Tanh関数で計算される。

2.2 Learning, generation and recognition
・ネットワークの学習: 開ループ生成法(Open loop generation method)
ネットワーク外から現在のフレーム入力を受け、出力フレームとして1つあるいは複数の推測フレームを生成する。
その後、出力フレームと推測フレームとの間の誤差が全ての時間ステップで計算される。
・誤差は、Back-propagation through time(BPTT)法が用いられ、パラメータの最適化を行う。
重み、カーネル、バイアス、Context層の内部状態はGradient descent法を用いて最適化される。
・Open loop generationに加えて、Closed loop generationも行われる。
次ステップの出力予測には、前ステップの出力予測を用いる。
後者は前時間ステップの誤差の和となるため、誤差が大きい。
学習は、Closed loop generationの誤差が事前に決めた閾値を下回った時に終わる。

・初期値は重要。推定値を用いる。



3. Experiment
・データセット: 階層的に定義された構造に従う全身の動きのパターン
全体の動きのPrimitiveは、Sub-primitiveによって構成される。
・実験1: 時空間階層の自己組織を解析
被験者1人の6 Primitive動作の学習モデル
その後、追加的な動作の連結を学習
・実験2: モデルによる認識のケーパビリティ
認識のロバスト性がどのくらい標本パターンの変動に依存するか
被験者数増加

3.1 実験1
・データセット: 1名の被験者の全身の動きに関する6パターン
・Action primitive(P1-P6)は、Sub-primitiveによって階層的に定義される。
Arm sub-primitive、Leg sub-primitiveはそれぞれ3種類からなる。(A1,A2,A3,L1,L2,L3)
Action primitiveにおいては、各Sub-primitiveは2回ずつ含まれる。
追加学習データは、P1とP5を交互に3回繰り返す。
・ネットワーク構造
0th: Input/output層
残り: context層
Learning rate: 0.001



・学習ステージ1: 6Primitiveの学習
Closed loop errorが閾値以下になったら終了



・学習ステージ2: 追加的に6Primitiveの学習
Closed loop errorが閾値以下になったら終了



・Fig5: 異なる層の神経Activation, PCAの1次元目と2次元目
5A
左: 6Primitiveに対応する第1層におけるCMの神経活動
右: 追加時のCMの神経活動
5B
左: 6Primitiveに対応する第3層におけるFMの神経活動
右: 追加時のCMの神経活動
6Primitive
CM: サイクルパターン
FM: 中心から始まり、固定された6点に収束するパターン
追加的連結時
CM: 同じ位置、同じ形
FM: 収束ではなくサイクルパターン


3.2 実験2
・実験1との違い
Learning rate: 0.1
窓幅: 20
初期状態推定: 100回ごと
・データセット
3パターンの動き(P1,P4,P5)
5人の被験者
体型や身長の異なる被験者間で、速さに15%の変動がある。
・データセットのばらつきの確認
条件1: 5人のデータセットでネットワークを学習
条件2: 1人のデータセットでネットワークを学習
評価: 学習データに含まれない3人で、3Primitiveのすべてを含む遷移列(P1-P4-P5-P1-P4-P1)において、誤差回帰による擬似入力と比較する。

・Fig7: 660ステップあたりの入出力の誤差の比較
Context activityの変調も含み、誤差は遷移に伴って急激に上昇する。
遷移の後、誤差はほとんど0になった。
また、第4層と比較して第1層は急激な変化をする。
層の増加によって時定数が増えるためであることと、第1層は時定数が最も小さいため、比較的速いActivation変化を示すと考えられる。

・条件1と条件2の比較
データセットは1人より、複数被験者による学習条件の方が低MSEとなる。
そのため、学習データのバリエーションがあるほうがロバスト性が高いと考えられる。
これは、より低次元データを用いた先行例と同じ結果を示した。



・5人の被験者の微妙な違いがClosed loopの出力に現れる
低次層では、同じ動きがクラスタを形成すると同時に、同じ動きで異なる被験者の神経Activationの変動がよく保存される。
高次層では、実験1と同様、異なる固定点へ収束した。
これは、低次層ががサイクル的な挙動をするのに比較して、それぞれのPrimitiveに対応する3つのクラスタが形成され、
クラスタ中でも、被験者間変動を反映し、異なる点へ収束するためであると考えられる。
高次層は、ロバストなクラスタ内の固定点によって、多かれ少なかれ低次層に影響する。

4. Conclusion
・新しい動的ニューラルネットモデルの提案
ピクセルレベルで動的視覚画像パターンの生成・認識を行った。
Predictive codingの枠組みを導入した。
・結果
複時空間スケール特徴によって特徴づけられたネットワークモデルは、内部時空間階層化によって学習される。
モデルは、学習データにない被験者の動きのパターンもロバストに認識可能である。
・今後の課題
モデルのスケーリングに着目
ピクセル数の大きい画像
動きのPrimitive数
動きのPrimitiveの複雑さ



Comment 
Name 
Title 
Mail 
URL 
Comment 
Pass   Vodafone絵文字 i-mode絵文字 Ezweb絵文字


PR
Profile
geroppii
Archive
PV




忍者ブログ [PR]