FlashOptim：記憶體高效優化器，訓練顯存減半

標準混合精度訓練每個參數需要約16字節（權重+梯度+優化器狀態），使得即使7B模型在沒有100GB+加速器內存的情況下也不實際。FlashOptim引入兩項關鍵創新，將這一數字降至7字節（梯度釋放後僅5字節）。

第一項技術通過利用量化誤差的緊界改進了主權重分割，在不損失質量的情況下實現更激進的壓縮。第二項設計了新型壓擴函數，大幅降低8位優化器狀態量化誤差——這是此前方案的核心瓶頸。

在視覺和語言任務（包括Llama-3.1-8B微調）上的實驗表明，應用於SGD、AdamW和Lion優化器時，質量無可測量的下降。檢查點大小也縮減超過一半。這具有即時的實用價值：擁有單張48GB GPU的研究者現在可以微調此前需要80GB+顯卡的模型。

訓練大模型最大的瓶頸之一是顯存。標準 AdamW 訓練中，每個參數需要 16 字節——參數本身 4 字節、梯度 4 字節、一階動量 4 字節、二階動量 4 字節。一個 7B 模型就要 112GB 顯存，遠超消費級 GPU 的容量。

核心技術

FlashOptim 通過兩個關鍵創新大幅壓縮顯存：

1. 改進的 Master Weight 分割

傳統方法將 FP32 權重拆成 BF16 高位和 FP16 低位。FlashOptim 發現了更緊的量化誤差上界，讓低位部分可以用更少的比特存儲而不損失精度。

2. Companding 量化函數

借鑑音頻壓縮中的 companding 技術，設計非線性映射函數來壓縮優化器狀態。傳統 8-bit 量化對大值精度好但小值誤差大，companding 在兩端都保持高精度。

實際效果

| 配置 | 每參數字節 | 7B 模型顯存 |

|------|-----------|------------|

| 標準 AdamW | 16 字節 | ~112 GB |

| FlashOptim | 7 字節 | ~49 GB |

| + gradient release | 5 字節 | ~35 GB |

在 Llama-3.1-8B 微調、ImageNet 分類、GPT-2 預訓練等任務上，FlashOptim 與標準訓練的最終精度**完全一致**——不是"差不多"，是沒有可測量的差異。

爲什麼重要

這意味着一張 48GB 的 A6000 就能訓練原本需要 A100 80GB 的模型。Checkpoint 大小也縮小一半以上，存儲和傳輸成本大幅降低。對於資源有限的研究者和中小團隊，這是直接的生產力提升。

與行業趨勢的關聯

FlashOptim 的出現正值 LLM 微調（LLM fine-tuning）需求爆發期。隨着 Llama、Mistral、Qwen 等開源大模型的普及，模型壓縮（model compression）和量化（quantization）技術成爲讓更多團隊能夠參與 AI 訓練的關鍵。FlashOptim 與 QLoRA、GPTQ、AWQ 等量化方案互補——它們壓縮模型本身，FlashOptim 壓縮訓練過程。兩者結合，資源有限的團隊也能實現高質量的大模型訓練。