忍者ブログ
キェ―――
[4]  [5]  [6]  [7]  [8]  [9]  [10]  [11]  [12]  [13]  [14
×

[PR]上記の広告は3ヶ月以上新規記事投稿のないブログに表示されています。新しい記事を書く事で広告が消えます。






"Predictive Coding for Dynamic Vision Development of Functional Hierarchy in a Multiple Spatio-Temporal Scales RNN Model",
M. Choi and J. Tani, arXiv:1606.01672v2 [cs.CV], 8 Jun 2016.
URL: https://arxiv.org/abs/1606.01672


1. Introduction
・Predictive codingは、人間の脳が行う予測を模したモデルである。
Top-down: 高レベルの注意によって引き起こされる低レベルの知覚
Bottom-up: 予測誤差によって推測される現在の知覚に対応する注意
・Predictive codingの枠組みにおける仮定
知覚パターンは、より高レベルの注意状態に対応してエンコードされる 。
機能的に必要な階層は、複数の皮質領域を通して発展する 。
・研究目的
動的な視覚パターンのロバストな認識と生成を行うために十分な時空間階層は、どのように発展するのか?
新しいPredictive coding型のRNNモデルの提案
ネットワーク全体の神経活動が、時空間スケール特性に応じて複数階層で同時にチューニングされるとき、動的な視覚パターンをピクセルレベルで取り扱う。

・提案手法
予測的複時空間スケールRNN(Predictive multiple spatio-temporal scales RNN; P-MSTRNN)
・先行例モデルとの差分
動的視覚処理 (時空間の処理が同時に行われるため)
・学習とテストに用いられる映像データセット
複数被験者による構造化された動きの周期的なパターン
・シミュレーション実験結果
学習による時空間階層のパラメータは、動きの構造に対応したパターンで発展する。
テストデータのロバストな認識は、変動の多い標本に相互依存する。



2. Model
・P-MSTRNNは、MSTRNN(Multiple spatio-temporal scales RNN)を基本とする。
 MSTRNNにPredictive codingの枠組みを導入する。



2. 1 Architecture
・P-MSTRNNは、Context層と、底にあるInput/Output層から構成される。 (Fig. 1)
・Context層: 高次層からTop-down信号を受け取ることにより、次時間ステップにおける自身のNeural stateを予測する。
1st Context層は、現在の視覚入力と2nd層からのTop-down信号を受け取ることにより、次ステップの視覚入力を予測する。
それぞれのContext層において、高次層方向には予測誤差が逆伝搬し、結合重みとIntentionが更新される。
モデルは、Convolutional neural network (CNN)とは少し異なり、1つの層は機能的に異なる2つのUnitから構成される。
・2つのUnit: Feature unitとContext unit
前時間の値を反映させていくLeaky integratorの導入により、時間的階層の構築を可能とする。
・同層のFeature unitとContext unitは、Feature map(FM)とContext map(CM)を形成する。
FM: 近くのFMから神経入力を受け取ることによって、空間処理に貢献
CM: Recurrent結合によって、動的情報処理に貢献
Leaky integratorのDecay rateを決める時定数はすべての層にある。
・低次層は時定数小、高次層は時定数大
低次層のContext層の神経活動は早い反応を示し、高次層は遅い反応を示す。

・1st層のFMのダイナミクス: (1)(2)式
第1項: (1-1/τ^l)の割合で、t-1秒からFMがDecayしていく遷移状態
第2項: l+1層のFMから現在のFMへの入力
第3項: 前時間ステップt-1の同じCMから今のCMへの入力
第4項: 現在のFMへ送り込むデータフレーム
・FM内部状態の計算終了後、Activation値がTanh関数で得られる。

・CMのダイナミクス: (3)(4)式
第1項: t-1からのLeaky integrator入力
第2項: 前のステップからのRecurrent入力
第3項: l+1層のFMからの入力
第4項:低層からのボトムアップ入力
・FMと同様、CM内部状態の計算終了後、Activation値がTanh関数で得られる。

・畳み込みの計算を行う際、入力の大きさが出力の大きさよりも小さい時がある。
 その時は、Zero-paddingをした入力Mapが用いられる。
 積計算が要素ごとに行われるため、行列の大きさは等しくする。

・出力層のダイナミクス: (5)(6)式
出力の内部状態は、1st層のFM畳み込みによって計算される。
出力層のActivation値は、Tanh関数で計算される。

2.2 Learning, generation and recognition
・ネットワークの学習: 開ループ生成法(Open loop generation method)
ネットワーク外から現在のフレーム入力を受け、出力フレームとして1つあるいは複数の推測フレームを生成する。
その後、出力フレームと推測フレームとの間の誤差が全ての時間ステップで計算される。
・誤差は、Back-propagation through time(BPTT)法が用いられ、パラメータの最適化を行う。
重み、カーネル、バイアス、Context層の内部状態はGradient descent法を用いて最適化される。
・Open loop generationに加えて、Closed loop generationも行われる。
次ステップの出力予測には、前ステップの出力予測を用いる。
後者は前時間ステップの誤差の和となるため、誤差が大きい。
学習は、Closed loop generationの誤差が事前に決めた閾値を下回った時に終わる。

・初期値は重要。推定値を用いる。



3. Experiment
・データセット: 階層的に定義された構造に従う全身の動きのパターン
全体の動きのPrimitiveは、Sub-primitiveによって構成される。
・実験1: 時空間階層の自己組織を解析
被験者1人の6 Primitive動作の学習モデル
その後、追加的な動作の連結を学習
・実験2: モデルによる認識のケーパビリティ
認識のロバスト性がどのくらい標本パターンの変動に依存するか
被験者数増加

3.1 実験1
・データセット: 1名の被験者の全身の動きに関する6パターン
・Action primitive(P1-P6)は、Sub-primitiveによって階層的に定義される。
Arm sub-primitive、Leg sub-primitiveはそれぞれ3種類からなる。(A1,A2,A3,L1,L2,L3)
Action primitiveにおいては、各Sub-primitiveは2回ずつ含まれる。
追加学習データは、P1とP5を交互に3回繰り返す。
・ネットワーク構造
0th: Input/output層
残り: context層
Learning rate: 0.001



・学習ステージ1: 6Primitiveの学習
Closed loop errorが閾値以下になったら終了



・学習ステージ2: 追加的に6Primitiveの学習
Closed loop errorが閾値以下になったら終了



・Fig5: 異なる層の神経Activation, PCAの1次元目と2次元目
5A
左: 6Primitiveに対応する第1層におけるCMの神経活動
右: 追加時のCMの神経活動
5B
左: 6Primitiveに対応する第3層におけるFMの神経活動
右: 追加時のCMの神経活動
6Primitive
CM: サイクルパターン
FM: 中心から始まり、固定された6点に収束するパターン
追加的連結時
CM: 同じ位置、同じ形
FM: 収束ではなくサイクルパターン


3.2 実験2
・実験1との違い
Learning rate: 0.1
窓幅: 20
初期状態推定: 100回ごと
・データセット
3パターンの動き(P1,P4,P5)
5人の被験者
体型や身長の異なる被験者間で、速さに15%の変動がある。
・データセットのばらつきの確認
条件1: 5人のデータセットでネットワークを学習
条件2: 1人のデータセットでネットワークを学習
評価: 学習データに含まれない3人で、3Primitiveのすべてを含む遷移列(P1-P4-P5-P1-P4-P1)において、誤差回帰による擬似入力と比較する。

・Fig7: 660ステップあたりの入出力の誤差の比較
Context activityの変調も含み、誤差は遷移に伴って急激に上昇する。
遷移の後、誤差はほとんど0になった。
また、第4層と比較して第1層は急激な変化をする。
層の増加によって時定数が増えるためであることと、第1層は時定数が最も小さいため、比較的速いActivation変化を示すと考えられる。

・条件1と条件2の比較
データセットは1人より、複数被験者による学習条件の方が低MSEとなる。
そのため、学習データのバリエーションがあるほうがロバスト性が高いと考えられる。
これは、より低次元データを用いた先行例と同じ結果を示した。



・5人の被験者の微妙な違いがClosed loopの出力に現れる
低次層では、同じ動きがクラスタを形成すると同時に、同じ動きで異なる被験者の神経Activationの変動がよく保存される。
高次層では、実験1と同様、異なる固定点へ収束した。
これは、低次層ががサイクル的な挙動をするのに比較して、それぞれのPrimitiveに対応する3つのクラスタが形成され、
クラスタ中でも、被験者間変動を反映し、異なる点へ収束するためであると考えられる。
高次層は、ロバストなクラスタ内の固定点によって、多かれ少なかれ低次層に影響する。

4. Conclusion
・新しい動的ニューラルネットモデルの提案
ピクセルレベルで動的視覚画像パターンの生成・認識を行った。
Predictive codingの枠組みを導入した。
・結果
複時空間スケール特徴によって特徴づけられたネットワークモデルは、内部時空間階層化によって学習される。
モデルは、学習データにない被験者の動きのパターンもロバストに認識可能である。
・今後の課題
モデルのスケーリングに着目
ピクセル数の大きい画像
動きのPrimitive数
動きのPrimitiveの複雑さ



この2ヶ月は、身の上に様々なことが起こりすぎている。
変化に富む環境に身を置くことを望むのに、その新しさを嘆くことが多い。
言いたいことが多すぎると、もう何も言いたくなくなる。
それは全てにおいてそうで、やりたいことが多すぎると、もう何もやりたくなくなってしまう。
完全な網羅でないと意味がないなんて思いがちで。

この性質は前からあったけど、これまではどうにかなってきた。
今まで成してきたこと、自分ができること、自分の価値を忘れてしまう。
しっかりとした形が無いから。
今まではどうしてたっけ?こんな状況でもどうにかなるもんだっけ?
あなたの心しだいで全てが変わるものだから?いつでもそうだろうか?




現在は体験の総合的な交点として更新され続けている。

人格を、乾季に干上がった地面に標高の高い地点からの水流がもたらされて形成される途中の河道、と喩えると、
経過時間で切り出してきた人格には、いくつもの分水界が存在する。
圧倒的な流量を誇ると思い込んでいた本流に、思わぬ副流がぶつかってきて、
進行方向を変えさせられてしまうことも多い。
インパクトのある水流は、目の前に突然に湧き上がってくるというよりは、
意識の外で、遠い昔から粛々と流れを進めているように思える。
そういった水流が同時並行的に何本も流れていて、
ある瞬間瞬間に統合されながら、人格が形成されるというイメージを持っている。
そして、そこに認識が伴うと様々な人格(水界)を自由に引き出せるのではないか。

最近、特別に認識していなかった副流のひとつに読書体験があるのに気づいた。
ここでいう読書体験は、総体としての読書体験とそれらの本ひとつひとつに分類される。
いつからだろうか、不思議なほどに現在は重視していなかったが、
大学生時代は理由のない使命感で読書に没頭し、その莫大なエネルギーの消費があった。
過去を否定することによって現在の優位性を保とうとする弱い心の働きのためか、
ただ濃密であっただけで、数や固有名詞で表面的に主張できる部分がなかったからか、は分からない。
もちろん、本で読んだことが与える現在への影響(当たり前)を考えないわけではなかった。
ただ、思えば積極的・方法的な姿勢がなかったかもな、というのはちょっとした発見である。

ということを考えたのも、昔の読書記録を見返していたからである。
特に、狂気じみた島尾敏雄の私小説「死の棘」を、狂気じみたFlower travellin' band「Satori」を聴きながら読んでいた、
怨念に包まれた夏休みの夕暮れ時、蒸し暑く密閉された自室の記憶が生々しく蘇った。
たまたま読んだ本と、たまたま聴いた音楽、たまたま陥った状況、あの体験が自分の貞操観念に影を落としているような気がした。
今年は著名人の不貞が問題になることがよくあって、そういったニュースに関連した人々のリアクションに気を揉んでしまう。
不貞の輩を許せないといった単純な問題ではなく、
色恋沙汰そのものに対する異常なまでの拒否感と異常なまでの執着を同時に発揮している。

文章を書きだすとキリがないのでやめますが、とりあえず電子書籍を購入しようと考えている。



-------

「死にますとも。...けどあなたとちがってあたしは生涯をかけてあなたひとりしか知らないんですからね。...

妻の服従を少しもうたがわず、妻は自分の皮膚の一部だとこじつけて思い、自分の弱さと暗い部分を彼女に皺寄せして、それに気づかずにいた。

立てこんだひらやの家々が寝しずまっている暗い路地に立ちどまって、かさねてなんべんも妻の肉を打っていると、苦行のにおいがただよってきてむなしさがふくれあがり、...

それは既に発作のはじまりかけた目つきなのだ。

「...あなたはこれがあたしの復讐だなどとおっしゃるの?復讐はこんななまやさしいものじゃありません。...

きちがいを装うことを私は覚えてきた。それはひどくみにくいが、妻が発作を起こすと、それをしないではいられなくなる。

徐々にではあるが、自殺の方法をあれこれ考えている自分に気づくことが多くなり、私は自分を見直す思いだ。...いつもはいちばん嫌悪があり、またできそうもない刃物による自殺が、今はむしろ鮮潔な結末があって、おそらくぶざまなその最期の現場に飛びちる血のりは、私の汚れの幾分かを洗ってくれるかもしれない気がしてき、...

さわぎの最中に、妻が笑い出すか、あくびをすると、私たちに正気がもどってきて、抱き合って涙ぐみ、お互いに、かわいそうだ、かわいそうだ、ごめんなさい、と言い合う。

「カテイノジジョウ、しないでよ」...「ぼく、たのしいことなんてもうなくなっちゃった。たのしくってもこころから笑えないんだ」などと言うのだ。...「アタチダッテ、カンガエテイルンダカラ」とにこりともしないで言った。

妻は波のように次々に押しよせてくる不信のたよりなさに耐えられず、確かな自分をしっかりつかみたいのに、突きあげてくる狂操をおさえることができず、たよりなげな悲しみをむきだしにしている。

妻は自分が死んでも私が追い死になどしないであとに残り、長く長く生きのびるにちがいないということがわかっているかのようだ。

私の最後の隠しごとが、今あばかれる!あばかれることはいいとして、妻の前に、行為としての隠しごとは、すべて追い出したはずであったのに。...結局出さなければならぬと知りながら、そらとぼけて時間をのばしていると、そんなにしてまでひとつのうそを守ろうとする自分の暗い情熱に絶望の思いが湧いてくる。

毎日がまるで死のからだを撫でているみたいだ。

私のゆがんだ生活がこどもらに与えてしまった歪みを、どう見つけだしそして直していけばよいかを考えると暗澹となった。

他人の前でも発作をおさめない新しい妻の症状に、奈落の底に突き落とされた気持を味わっていた。

ずっと遠道になるが、できるだけ家族だけで過ごす新しい過去を作っておかなければならぬ。私に残された手段は、時を身方にすることだけだと気づいてきたようなのだ。

「トシオ、早く早くこれをとって」と突き出す足の裏を見ると、長い棘が突きささっている。...「根っこを残さないでちゃんと抜いてくれなくちゃいやよ」

島尾 敏雄, "死の棘", 新潮文庫 (1981).



頭がイカれているので、生活の軸がヒカキン・ゲームズになっている。




自分の狂ったインスタ見ます???

 



PR
Profile
geroppii
Archive




忍者ブログ [PR]