評価関数 - 強化学習とは?

強化学習はAIの学習方法の一つで簡単に書くなら「学習中に起きたイベント(良い事・悪いこと)を未来の行動に反映させる」...ということです。

これは子供が将棋を覚えるプロセスとほぼ同じですね。すなわち...

①まず何でも目に付く手を指してみる

②そして...

結果が良ければ ⇒ (以前より高い確率で)後の対局にも試してみる
結果が悪ければ ⇒ その手は指さない...少なくとも後の対局に使用する確率は低くなる

③最初に戻る

...と、こんな感じでしょうか。そして以上の手順を繰り返すことにより「将棋を学習」することができます。

我の読んだ論文の学習方法は...

評価関数を初期状態でスタートし、

①評価関数により手を選択して対局

②そして...

勝ったら ⇒ 以前より対局中に選択した手の評価を少し上げる
負けたら ⇒ 以前より対局中に選択した手の評価を少し下げる

③最初に戻って繰り返し

...と、これを何千・何万回繰り返すと良さげな手には徐々に評価が上がり、そうでない手の評価は落ちてゆきます。「選択した手の評価を少し上げる・下げる」はパラメターの値を変動して行います。

この学習方法の利点は

「マシンが自分で学習してくれるので(一度構築してしまえば)人間の手間はいりません」

に尽きますね。但し、

「学習には時間がべラボーに掛かり、いくら時間を掛けても評価関数の質が向上しない」可能性があります。

投稿者: 紫外線 投稿日時: 火, 12/29/2009 - 22:11 categories [ ]

返信

このフィールドの内容は非公開にされ、公表されることはありません。
  • ウェブページアドレスとメールアドレスは、自動的にハイパーリンクに変換されます。
  • 使用できるHTMLタグ: <a> <em> <strong> <cite> <code> <ul> <ol> <li> <dl> <dt> <dd> <hr>
  • 行と段落は自動的に折り返されます。

書式オプションに関するさらに詳しい情報...