機械よ自ら学べ~強化学習編~
みなさま、いかがお過ごしでしょうか?
今日も張り切っていきましょう!
前回までで教師あり学習と教師なし学習についてOutPutしてきました!
まだ見てない方、よろしければ見ていただければ嬉しいです。
記事の最後に貼っておきます。
簡単にまとめておくと・・
教師あり学習ではデータと正解データをセットで与えることで、
画像を識別できるようになったりすることができて、
法則性を見出してアプローチしていくものでした。
今日は動物っぽい強化学習についてOutPutしていきます。
強化学習とは簡単に説明すると
自分がメリット・報酬などをできるだけたくさん受け取るように学習していく
というものなんです。
これだけの説明では理解しがたいと思うので簡単な例を交えて説明しますね。
強化学習は環境・行動・報酬・エージェント
この4つの条件が与えられた時に学習することができます。
将棋をさせるAIをを作ろうかと考えた時
環境は「将棋」にあたり、つまり競技の種類・種目のことで
行動は「一手」のことです。飛車を動かしたりすることです。
報酬は「勝敗」のことです。最後のわかる結果のことです。
エージェントは「指し手」のこととなるわけです!
これらの条件が揃ったとして強化学習の手順としては
- まずはやってみる=行動をさせる
- 勝敗が決まった、つまり報酬が得られた時に今までの一手一手をしっかりと記憶しておく。
- 行動をフィードバックし、もう一度得られたデータを生かして行動=対局する。
- また勝敗が決まった時にまたフィードバックして行動=対局する
このループを繰り返してセンスを磨いていくのです。
特に4番目について
「あの時の行動=一手が大きく勝利に貢献した!あのパターンではこの行動が有効なんだな」
「あの時の行動は余計だな・・次似たような時には違う行動をしてみようかな」
みたいに機械が学習していくのです。
この強化学習はちらっと冒頭でも言いましたが非常に動物に近い考え方なのです。
「お手をすると餌がもらえるのか・よしお手でもするか」
「このモンスター強いな・・あの攻撃モーションは気をつけよう
よし勝ったぞ!!やっぱりあの攻撃は気をつけるべきだな・・」などなど笑
人でも犬でも行動して報酬が得られた際にどんどん学習して
報酬を多く手に入れようとしていくのです。
機械に強化学習をうまく組み込めれば自動的に学習して行動できるかもしれませんね・
今日もありがとうございました!!
次回はディープラーンニングについてOutPutしていきたいと思います。
参考文献:
コンピューターで「脳」がつくれるか
AIが恋に落ちる日
あ、それと記事貼っときます!