モデル量子化

Model Quantization

もでるりょうしか

ニューラルネットワークモデルのパラメータを32ビット浮動小数点数から8ビット整数などの低精度表現に変換する最適化技術。モデルサイズの削減、推論速度の向上、消費電力の低減を実現する。精度の低下を抑えつつ組込みデバイスへの実装を可能にする。

IoTシステムと応用 > AI・機械学習の組込み活用

関連キーワードの用語

エッジデバイス上でAI（機械学習モデル）の推論処理を行う技術。クラウドに依存せずリアルタイムの判断が可能で、プライバシー保護やネットワーク帯域の削減にも寄与する。NPU（ニューラルプロセッシングユニット）搭載のSoCが増えている。

マイクロコントローラ（数十KB〜数百KBのRAM）上で機械学習モデルの推論を実行する技術。モデルの軽量化（量子化、枝刈り）により、超低消費電力デバイスでの音声認識、画像分類、異常検知などを実現する。TensorFlow Lite for Microcontrollersが代表的なフレームワーク。

ニューラルネットワークの推論処理に特化したプロセッサ。行列演算やテンソル演算を効率的に実行するアーキテクチャを持つ。SoCに統合されるケースが増えており、エッジデバイスでのリアルタイムAI処理を実現する。

学習済みの機械学習モデルを使って、入力データに対する予測・分類結果を出力するソフトウェア。組込み向けにはTensorFlow Lite、ONNX Runtime、TensorRTなどがある。ターゲットハードウェアに最適化された推論を高速に実行する。

プログラムの実行時の性能情報（関数ごとの実行時間、呼出し回数、メモリ使用量等）を計測・分析する手法。ボトルネックの特定と性能最適化に使用される。組込みシステムではタイマやトレース機能を活用したプロファイリングが行われる。

特定の機能を実現するために、家電製品、自動車、産業機器などの機器に組み込まれたコンピュータシステム。汎用コンピュータと異なり、リアルタイム性、省電力性、小型化、高信頼性などの制約の下で設計される。