RoPE位置エンコーディング解説：なぜ現代NLPで支配的なのか

回転位置埋め込み（RoPE）とその前身を技術的に深掘りし、なぜLLMの標準となったかを解説。

回転位置埋め込み（RoPE）は、LLaMA、GPT-4など現代の大規模言語モデルで事実上の標準位置エンコーディング手法となっています。本記事では、Shawの加算型アプローチからTransformer-XLの4項再構成、T5のバイアス型、Swin Transformerの2次元拡張を経て、RoPEのエレガントな回転ベースの解法に至る相対位置エンコーディング（RPE）の進化を追跡します。RoPEは注意機構内でクエリとキーベクトルを回転させることで位置をエンコードし、追加パラメータなしで相対位置を自然に捉えます。主な利点には、優れた長さ一般化、線形注意との互換性、既存アーキテクチャへのシームレスな統合が含まれます。この進化を理解することで、エンジニアは新しいモデル設計における位置エンコーディングについて情報に基づいた決定を下せます。