IT用語帳

強化学習

Reinforcement Learning

きょうかがくしゅう

エージェントが環境と相互作用し、報酬を最大化する行動方策を学習する手法。試行錯誤を通じて最適な行動を獲得する。Q学習やSARSAが代表的なアルゴリズムで、ゲームAIやロボット制御に応用される。
基礎理論 > 情報に関する理論

関連キーワードの用語

AP機械学習

データからパターンや規則性を自動的に学習し、予測や分類を行う技術の総称。教師あり学習、教師なし学習、強化学習に大別される。学習データから汎化能力を獲得し、未知データに対する推論を可能にする。

AP教師あり学習

入力データと正解ラベルのペアから学習する手法。回帰(数値予測)と分類(カテゴリ分け)に大別される。線形回帰、ロジスティック回帰、決定木、サポートベクトルマシン、ニューラルネットワークなどが代表的なアルゴリズム。

AP教師なし学習

正解ラベルのないデータから構造やパターンを発見する手法。クラスタリング(k-means法など)や次元削減(主成分分析など)が代表的。データの潜在的なグループ分けや特徴抽出に用いられる。

APサポートベクトルマシン

データ間のマージン(境界からの距離)を最大化する超平面で分類を行う機械学習手法。カーネルトリックにより非線形分類にも対応でき、汎化能力が高い。少数のサポートベクトルで決定境界が定まるため、解釈性にも優れる。

AP決定木

特徴量に基づく条件分岐を木構造で表現し、分類や回帰を行う機械学習手法。情報利得やジニ不純度を基準にノードを分割する。解釈性が高く、ランダムフォレストや勾配ブースティングの基礎となる。

AP過学習

モデルが訓練データに過度に適合し、未知データに対する汎化性能が低下する現象。訓練誤差が小さくても検証誤差が大きい状態。正則化、ドロップアウト、早期打切り、データ拡張などで対策する。バイアスとバリアンスのトレードオフが背景にある。