最近のCSDNの記事では、KubernetesクラスターにおけるGPUリソース管理への新しいアプローチ、つまり履歴ワークロード予測に基づく動的オーバーサブスクリプションが紹介されています。著者は、過去のGPU使用パターンを分析して将来の需要を予測し、複数のカードにわたってGPUリソースの安全なオーバーコミットを可能にするシステムについて説明しています。この手法は、AIトレーニング環境における高価なGPUハードウェアの慢性的な未使用問題に対処し、静的な割り当てではかなりの容量がアイドル状態になることがよくあります。この方法は、「水位」予測モデルを使用して安全なオーバーサブスクリプション比率を決定し、リアルタイムで割り当てを動的に調整します。
中国の開発者による、履歴ワークロード予測を使用したKubernetesでの動的GPUオーバーサブスクリプション手法。