強化学習
Reinforcement Learning
きょうかがくしゅう
エージェントが環境と相互作用し、報酬を最大化する行動方策を学習する手法。試行錯誤を通じて最適な行動を獲得する。Q学習やSARSAが代表的なアルゴリズムで、ゲームAIやロボット制御に応用される。
基礎理論 > 情報に関する理論
他の資格での定義
関連キーワードの用語
AP機械学習
データからパターンや規則性を自動的に学習し、予測や分類を行う技術の総称。教師あり学習、教師なし学習、強化学習に大別される。学習データから汎化能力を獲得し、未知データに対する推論を可能にする。
AP教師あり学習
入力データと正解ラベルのペアから学習する手法。回帰(数値予測)と分類(カテゴリ分け)に大別される。線形回帰、ロジスティック回帰、決定木、サポートベクトルマシン、ニューラルネットワークなどが代表的なアルゴリズム。
AP教師なし学習
正解ラベルのないデータから構造やパターンを発見する手法。クラスタリング(k-means法など)や次元削減(主成分分析など)が代表的。データの潜在的なグループ分けや特徴抽出に用いられる。
APサポートベクトルマシン
データ間のマージン(境界からの距離)を最大化する超平面で分類を行う機械学習手法。カーネルトリックにより非線形分類にも対応でき、汎化能力が高い。少数のサポートベクトルで決定境界が定まるため、解釈性にも優れる。
AP決定木
特徴量に基づく条件分岐を木構造で表現し、分類や回帰を行う機械学習手法。情報利得やジニ不純度を基準にノードを分割する。解釈性が高く、ランダムフォレストや勾配ブースティングの基礎となる。
AP過学習
モデルが訓練データに過度に適合し、未知データに対する汎化性能が低下する現象。訓練誤差が小さくても検証誤差が大きい状態。正則化、ドロップアウト、早期打切り、データ拡張などで対策する。バイアスとバリアンスのトレードオフが背景にある。