強化学習

Reinforcement Learning

きょうかがくしゅう

エージェントが環境と相互作用し、報酬を最大化する行動方策を学習する手法。試行錯誤を通じて最適な行動を獲得する。Q学習やSARSAが代表的なアルゴリズムで、ゲームAIやロボット制御に応用される。

基礎理論 > 情報に関する理論

他の資格での定義

エージェントが環境と相互作用しながら、報酬を最大化するように行動方針を学習する手法。ゲームAIやロボット制御、自動運転などに応用される。

エージェントが環境と相互作用しながら、報酬を最大化する行動方策を学習する機械学習手法。試行錯誤を通じて最適な行動を学ぶ。ゲームAIやロボット制御に応用される。

データからパターンや規則性を自動的に学習し、予測や分類を行う技術の総称。教師あり学習、教師なし学習、強化学習に大別される。学習データから汎化能力を獲得し、未知データに対する推論を可能にする。

入力データと正解ラベルのペアから学習する手法。回帰（数値予測）と分類（カテゴリ分け）に大別される。線形回帰、ロジスティック回帰、決定木、サポートベクトルマシン、ニューラルネットワークなどが代表的なアルゴリズム。

正解ラベルのないデータから構造やパターンを発見する手法。クラスタリング（k-means法など）や次元削減（主成分分析など）が代表的。データの潜在的なグループ分けや特徴抽出に用いられる。

データ間のマージン（境界からの距離）を最大化する超平面で分類を行う機械学習手法。カーネルトリックにより非線形分類にも対応でき、汎化能力が高い。少数のサポートベクトルで決定境界が定まるため、解釈性にも優れる。

特徴量に基づく条件分岐を木構造で表現し、分類や回帰を行う機械学習手法。情報利得やジニ不純度を基準にノードを分割する。解釈性が高く、ランダムフォレストや勾配ブースティングの基礎となる。

モデルが訓練データに過度に適合し、未知データに対する汎化性能が低下する現象。訓練誤差が小さくても検証誤差が大きい状態。正則化、ドロップアウト、早期打切り、データ拡張などで対策する。バイアスとバリアンスのトレードオフが背景にある。