プリフィル vs デコード：LLM推論レイテンシの理解

LLM推論における2つの異なるレイテンシフェーズ（プリフィルとデコード）を明確に説明し、開発者がAIの応答時間を診断・最適化するのに役立ちます。

ユーザーがAIの応答が遅いと不満を言う場合、モデルが返信を始める前の初期待機時間と、返信開始後のトークン単位の遅い生成という2つの異なる遅延を経験していることがよくあります。これらはLLM推論における2つの異なるフェーズ、プリフィルとデコードに対応します。プリフィルは入力プロンプト全体を並列処理し、アテンション機構のためのキーバリューキャッシュを計算します。デコードは出力トークンを1つずつ生成し、各ステップで完全なフォワードパスが必要です。この区別を理解することは、推論パイプラインの最適化に不可欠です。継続的バッチ処理、投機的デコード、KVキャッシュ管理などの技術は、これらのフェーズに異なる方法で対応します。AIアプリケーションを構築する開発者にとって、レイテンシがプリフィルとデコードのどちらに支配されているかを知ることは、適切な最適化戦略（プリフィル負荷の高いワークロードにはプロンプト圧縮、デコード負荷の高いシナリオにはモデル量子化など）を選択するのに役立ちます。この基礎知識は、LLMを本番環境にデプロイするすべての人にとって不可欠です。