本地 LLM 雙 GPU 配置實測:性能到底提升多少?
作者在本地環境測試了雙 GPU(RTX PRO 4500 Blackwell + RTX 4000 SFF Ada,合計 52GB VRAM)運行大型語言模型的效果,使用 LM Studio 在雙 GPU 下運行 gpt-oss-120b 模型。
結果顯示,雙 GPU 配置在處理長上下文和大參數模型時性能提升明顯。文章提供了詳細的環境配置、測試方法和性能數據,對想要在本地部署大模型的開發者很有參考價值。
ローカルLLM で 2 GPU 構成を検証してみる
ローカルLLM で 2 GPU 構成を検証してみる
ローカル環境で大規模言語モデル(LLM)を動かす際、GPUを2枚構成にすることで性能が向上するのか検証してみました。
CPU: AMD Ryzen 9 5900XT
NVIDIA RTX PRO 4500 Blackwell (VRAM 32GB)
NVIDIA RTX 4000 SFF Ada (VRAM 20GB)
使用ツール:LM Studio (gpt-oss-120bをローカルで実行)
プロンプト: 3000語程度のショートストーリーを生成してください。
単體GPUと2GPU構成での性能差(tokens/sec)を測定
Ctrl + Shift + H で Hardware を表示
GPUs に検出された GPU の有効/無効を切り替えるトグルスイッチがある
2GPU構成におけるメリットは「より多くGPUにオフロードできる」ことに尽きるようです。
ただし、オフロード數が増えても通信オーバーヘッドや非対称GPU構成による遅延が生じるため、性能向上にはつながらない(むしろ低下する)ケースも多いと考えられます。
フリーランスのフロントエンドエンジニア | TypeScriptを中心にWebアプリ開発を担当。現在はRustを學習しつつ、AI活用やローカルLLM・ComfyUIを試しています。
フリーランスのフロントエンドエンジニア | TypeScriptを中心にWebアプリ開発を担当。現在はRustを學習しつつ、AI活用やローカルLLM・ComfyUIを試しています。