無明の学習開始...です

一ヶ月程遅れましたが、無明の学習が開始しました。ふ~~

設定はこんな感じ...

①三層パーセプトロンを使用... 入力層369、中間層81、出力層2

369個のパラメターを81に凝縮してそれを更に煮詰めた結果が評価関数の「出力」...と言う事です。

なぜ「中間層81」か?中間層のノード数は入力ノードの1割から2割程度に設定するので当初80程度を考えていました...将棋盤のマス目が81なので、なんとなくです。

②データベースに取り込んだ約29万局の棋譜からランダムに選び...

千日手局、引き分けは局は現在の所メリットが薄いと思ったのでスキップです。

③対局に出現した全局面を生成し... 369個のパラメターを抽出...

④TD(λ)と呼ばれる強化学習のアルゴリズムを使用しパーセプトロンを調整...

TD(λ)
http://www.eb.waseda.ac.jp/murata/ryotaro.nishino/openhouse/reinforce3.p...

②~④を気の遠くなるほど繰り返します。

「学習」に必要な時間は一局辺り1秒程度で済みます。一日辺り約86,000回位のペースです。

但し、一局辺りの学習量は微細です。

...で、何を「学習」するのか? (続)

投稿者: 紫外線 投稿日時: 月, 01/25/2010 - 14:29 categories [ ]

返信

このフィールドの内容は非公開にされ、公表されることはありません。
  • ウェブページアドレスとメールアドレスは、自動的にハイパーリンクに変換されます。
  • 使用できるHTMLタグ: <a> <em> <strong> <cite> <code> <ul> <ol> <li> <dl> <dt> <dd> <hr>
  • 行と段落は自動的に折り返されます。

書式オプションに関するさらに詳しい情報...