評価関数 - どうしましょ?

...と半年掛けてネチネチと将棋ソフトの部品を書き溜めて来たわけですが、「評価関数」の構築をこれ以上は先送りに出来ないので着手します。(本来はこれを最初にするべきなのでは???)

開発方針としては...

①関数の構築はソフトに任せる ⇒ イワユル自動学習の方向へ、ですね。将棋がヘタッピの我が自分で書くなど恐れ多い話です。

学習の手法としては強化学習のバリエーションの一つ、TD学習(Temporal Difference Learning)を使用。

強化学習
http://ja.wikipedia.org/wiki/%E5%BC%B7%E5%8C%96%E5%AD%A6%E7%BF%92

TD学習
http://mikilab.doshisha.ac.jp/dia/research/person/suyara/RL/TD-Learning/...
http://en.wikipedia.org/wiki/Temporal_difference_learning

...普段は家族・仕事・家事、etcと忙しい一般人にとっては寝る間にも頑張ってくれる自動学習はアリガタ~イ存在です。

②「ボナメソ」は使用しない...即ち「(普通、高段者の)棋譜より学習し、指し手を人間の解答と合致するように評価関数のパラメターを調整する」...はやらないという事です。棋譜を使用してのの学習は多分行うでしょうが、別の方向で...ですね。

いろいろ論文漁って(これにえらく時間がかかった)基本のコードは出来ているのでもう少し煮詰めれば「評価関数作成・学習」プログラムが完成...するはずです。

投稿者: 紫外線 投稿日時: 火, 12/29/2009 - 15:29 categories [ ]