【G検定対策】ちょっとわかる！深層強化学習の超入門

🚨 重要： この記事は、概念を非常に簡単に説明することを目的としています。そのため、実際の技術的な詳細や厳密な解釈とは異なる部分が含まれている可能性があります。G検定の対策として、この記事で興味を持たれた方は、必ず公式テキストやより専門的な情報源を参照し、正確な知識を習得するようにしてください。

エンジニア向きではありません。「公式テキスト買ってやる気満々だったのに、なんもわからない…(´;ω;｀)」という方向けです。

深層強化学習って何？
内発的報酬：点がなくても頑張る！
1. モンテカルロ木探索とアルファ碁
2. マルチエージェント強化学習：みんなで協力！
難しい問題とその解決策
まとめ

深層強化学習って何？

深層強化学習は、コンピュータが「試して学ぶ」方法です。たとえば、ゲームで「ジャンプしたら点がもらえる！」と気づいて、次からジャンプを繰り返すような感じです。人間が「こうしなさい」と教えるのではなく、自分で試行錯誤して上手くなっていきます。ディープラーニングと強化学習を合体させたものです。

基本のDQNからスタート！

深層強化学習の有名なものがDQN（Deep Q-Network）です。ゲームの画面を見て、「どのボタンを押すと点がもらえるか」を覚えていきます。たとえば、マリオで「右に進むとコインが取れる！」と学ぶような感じです。

いまだにドキュンって読んじゃう…

DQNの大事な工夫

経験再生: 過去の失敗や成功を覚えておいて、ランダムに取り出して復習します。学校のテスト勉強のように、忘れないようにするのです。
ターゲットネットワーク: 「今どのくらい上手いか」を測る基準をちょっと固定して、ブレないようにします。先生が答案用紙の答えをすぐに変えないようなものです。

DQNの進化：拡張手法いろいろ！

DQNをさらに強くするために、いろいろな拡張手法が出てきました。

ダブルDQN: 「これが一番良い選択」と過信しないように、2つの目で見直すような感じです。
優先度付き経験再生: 失敗した大事な経験を優先して復習します。「ここで失敗したから次は気をつけよう」というものです。
デュエリングネットワーク: 「行動の価値」と「状況の良さ」を分けて考えます。たとえば、「ジャンプが大事」か「この場所が有利か」を別々に判断します。
カテゴリカルDQN: 点数の予想を「10点か20点か」のように細かく分けて考えます。
ノイジーネットワーク: わざとノイズを入れて、「いつも同じことばかりしないように」冒険させます。
Rainbow: これらの工夫を全部合体させた最強DQNです！

内発的報酬：点がなくても頑張る！

普通は「点がもらえたら嬉しい」と学びますが、内発的報酬は「新しいことを見つけたら嬉しい！」と自分でモチベーションを作ります。子供がゲームで「隠し部屋を見つけた！」と喜ぶような感じです。

モンテカルロ木探索とアルファ碁

モンテカルロ木探索は、「次どうなるか」を何回もシミュレーションして賢く選ぶ方法です。これを使ったのがアルファ碁で、囲碁の世界チャンピオンに勝利しました。

アルファ碁ゼロ: 人間のデータを一切使わず、自分で試して強くなりました。
アルファゼロ: 囲碁以外にも将棋やチェスで無敵になったものです。

マルチエージェント強化学習：みんなで協力！

マルチエージェント強化学習は、複数のコンピュータが一緒に学びます。

OpenAI Five: 5人チームでDota 2というゲームをプロ並みにプレイします。
アルファスター: StarCraft IIで人間に勝利しました。

難しい問題とその解決策

深層強化学習には壁もあります。

次元の呪い: データが多すぎて処理が困難になる問題です。
状態表現学習: ゲーム画面から「今どこにいるか」を自分で理解します。
連続値制御: 「少し右」などの細かい動きを覚えます。
報酬成形: 点が少ないとき、どうやってやる気を出すか工夫します。
サンプル効率: 少ない試行で賢くなる方法です。
安全性の担保: 「危険なことをしないように」と制御します。

知識やデータを賢く使う

ドメイン知識: 「このゲームはこうすれば良い」というヒントを最初から入れます。
オフラインデータ: 過去のデータだけで学ぶオフライン強化学習です。
模倣学習: 人間のデモンストレーションを見て真似します。たとえば、マリオの上手いプレイ動画を見て学ぶような感じです。

現実世界で使う工夫

sim2real: シミュレーションで学んだことを現実で使います。リアリティギャップ（シミュレーションと現実のズレ）を埋めることが大切です。
ドメインランダマイゼーション: いろいろな環境で練習して、現実でも対応できるようにします。
残差強化学習: 基本の動きに少しプラスして賢くします。

モデルフリーとモデルベース

モデルフリー: 「次どうなるか」考えず、試して覚えます（DQNなど）。
モデルベース: 世界モデルを作って、「次はこうなるかな？」と予測しながら学びます。優れていますが難しいです。

まとめ

深層強化学習は、DQNから始まって、経験再生やターゲットネットワークで賢くなりました。ダブルDQNやRainbowのように進化して、内発的報酬やモンテカルロ木探索でアルファ碁やアルファゼロが生まれました。マルチエージェントでOpenAI Fiveやアルファスターも登場しました。次元の呪いやサンプル効率を解決しながら、模倣学習やsim2realで現実にも応用しています。モデルフリーとモデルベースでいろいろな方法があり、とても素晴らしい世界です！