倶楽部入口倶楽部活動検索累計訪問者数
一年目 約9万3千 |
評価関数 - 強化学習とは?強化学習はAIの学習方法の一つで簡単に書くなら「学習中に起きたイベント(良い事・悪いこと)を未来の行動に反映させる」...ということです。 これは子供が将棋を覚えるプロセスとほぼ同じですね。すなわち... ①まず何でも目に付く手を指してみる ②そして... 結果が良ければ ⇒ (以前より高い確率で)後の対局にも試してみる ③最初に戻る ...と、こんな感じでしょうか。そして以上の手順を繰り返すことにより「将棋を学習」することができます。 我の読んだ論文の学習方法は... 評価関数を初期状態でスタートし、 ①評価関数により手を選択して対局 ②そして... 勝ったら ⇒ 以前より対局中に選択した手の評価を少し上げる ③最初に戻って繰り返し ...と、これを何千・何万回繰り返すと良さげな手には徐々に評価が上がり、そうでない手の評価は落ちてゆきます。「選択した手の評価を少し上げる・下げる」はパラメターの値を変動して行います。 この学習方法の利点は 「マシンが自分で学習してくれるので(一度構築してしまえば)人間の手間はいりません」 に尽きますね。但し、 「学習には時間がべラボーに掛かり、いくら時間を掛けても評価関数の質が向上しない」可能性があります。
投稿者: 紫外線 投稿日時: 火, 12/29/2009 - 22:11 categories [ ]
返信 |
ID取得(無料)してログインすると広告は不表示掲示板更新状況ID取得(無料)してログインすると広告は不表示 |
最近のコメント
17分 56秒前
1時間 12分前
2時間 47分前
2時間 58分前
3時間 46分前
5時間 15分前
5時間 43分前
7時間 21分前
7時間 29分前
7時間 7分前
8時間 14分前
8時間 58分前
9時間 48分前
18時間 35分前
19時間 21分前
20時間 19分前
22時間 21分前
22時間 52分前
23時間 39分前
1日 1時間前