AMD新論文顛覆認知:FP4訓練不穩定,原因不是隨機性不足

AMD新論文顛覆認知:FP4訓練不穩定,原因不是隨機性不足

編輯|冷貓

眾所周知,大模型訓練成本極高論文

但大家又知道,降低訓練精度能夠顯著降低訓練成本論文。DeepSeek-V3 用 FP8 訓練把成本打到了 560 萬美元,已經讓全行業側目。

在 FP8 成功後論文,行業仍然在不斷探索低精度的邊界:從 FP8 降到 FP4,訓練成本還能再降多少?

理論上,FP4 的計算吞吐可以是 FP8 的兩倍論文。NVIDIA Blackwell 和 AMD MI350 系列都已經在硬體層面原生支援了 FP4 運算,前者在 B200 上標稱 FP4 算力可達 4500 TOPS(稀疏)。硬體已經準備好了,但軟體和演算法那一側,一直卡在一個問題上:

用 FP4 從頭訓練大模型,訓練過程非常不穩定論文

過去兩年裡,LLM-FP4、NVFP4 預訓練等工作陸續嘗試了這條路,但鮮有方案能在 4 位元精度下乾淨利落地跑通全流程預訓練,同時保持接近 FP8 的收斂質量論文

更棘手的是,崩潰的原因一直不清楚,分析認為,FP4 訓練不穩定的原因很可能來自隨機性不足論文

但就在最近,AMD 聯合賓夕法尼亞州立大學釋出了一篇論文,顛覆了傳統的認知,為原生 FP4 訓練給出了一個全新的清晰診斷論文

AMD新論文顛覆認知:FP4訓練不穩定,原因不是隨機性不足

展開全文

論文標題論文:Pretraining large language models with MXFP4 on Native FP4 Hardware

論文連結論文

這篇論文在 AMD Instinct MI355X GPU 上,用 MXFP4 格式完成了 Llama 3.1-8B 的全流程預訓練,端到端訓練速度比 FP8 基線快 9-10%,token 開銷僅多 8-9%論文。這是目前第一個在原生 FP4 硬體(非軟體模擬)上完成大模型預訓練的完整實驗。

更重要的是,論文揭示了核心問題:FP4 訓練的不穩定性的來源不是隨機性不足,是結構性微縮放誤差沿敏感梯度路徑累積放大論文

MXFP4 是什麼

在拆解論文之前,有必要先理解 MXFP4 這個資料格式論文

傳統的整數量化通常對整個張量使用一個縮放因子論文。MXFP4 的核心設計叫「微縮放」(Micro-scaling):把一個張量切成小塊(比如每 32 個元素一組),為每個小塊分配一個共享指數(E8M0 格式),塊內的每個元素用 4 位元浮點數表示。重建公式可以寫成:

AMD新論文顛覆認知:FP4訓練不穩定,原因不是隨機性不足

其中 E_shared 是塊內最大指數,Q_FP4 是最近舍入到 4 位元浮點可表示值論文

微縮放的好處在於:每個小塊有自己的動態範圍,不會被全域性異常值「綁架」論文。這讓 4 位元浮點數的表示質量比樸素的全域性量化好很多。

但即便有了微縮放,FP4 訓練依然不穩定論文

排查實驗論文:不穩定的根源

研究團隊先設計了一個逐步排查的控制實驗論文

一次完整的 Transformer 線性層計算論文,涉及三個通用矩陣乘法操作:

Fprop(前向傳播):計算 Y = XW^T論文,產出啟用值

Dgrad(啟用梯度):計算 ∇X = ∇Y · W論文,將梯度回傳給輸入

Wgrad(權重梯度):計算 ∇W = (∇Y)^T · X論文,產出用於更新權重的梯度

研究團隊保持其他所有因素不變,逐步把這三個操作從 FP8 替換成 MXFP4,觀察每一步對收斂的影響論文。所有實驗都在 AMD Instinct MI355X 上用原生 FP4 tensor core 執行,不依賴軟體模擬。

訓練任務是 MLPerf 標準設定,在 C4 資料集上預訓練 Llama 3.1-8B,收斂目標是驗證集困惑度達到 3.3論文

前兩步只帶來了溫和的額外 token 開銷,但一旦把 Wgrad 也換成 MXFP4,開銷直接跳到 26-27%論文

Wgrad 是 FP4 訓練的瓶頸所在論文。 前向傳播和啟用梯度對 FP4 量化有相當的容忍度,但權重梯度一旦被量化到 4 位元,收斂質量就出現了顯著退化。

業界此前的主流直覺是:FP4 量化誤差本質上是噪聲問題,因此可以透過注入隨機性來「平滑」誤差分佈論文。兩種常見策略是:

隨機舍入(Stochastic Rounding):在量化時引入隨機性論文,使舍入誤差的期望值為零

隨機 Hadamard 旋轉(Randomized Hadamard)論文:在量化前用帶隨機符號翻轉的 Hadamard 變換打散資料分佈

AMD新論文顛覆認知:FP4訓練不穩定,原因不是隨機性不足

當 Wgrad 被量化後,兩種隨機性策略不僅沒有穩定訓練,反而直接導致了不收斂論文。隨機性非但沒有幫忙,還在關鍵的梯度路徑上引入了更多有效量化誤差。

相比之下,確定性 Hadamard 旋轉一把將全流程 token 開銷從 26-27% 壓回到 8-9%,訓練軌跡緊密跟蹤 FP8 基線論文

這是一個非常有診斷價值的結果論文。隨機和確定性 Hadamard 旋轉都是正交變換,都能打散異常值的能量分佈,理論上對量化誤差的緩解效果應該類似。但它們在 Wgrad 場景下的表現截然相反,這揭示了問題的本質:

FP4 訓練的不穩定性,是由 MXFP4 微縮放在敏感梯度路徑上產生的結構性誤差驅動的論文。 隨機性策略失敗是因為它們在每一步引入了不同的誤差模式(pattern),而這些變化的誤差模式沿梯度路徑累積,反而放大了不穩定性。確定性旋轉之所以有效,恰恰因為它在每一步施加相同的變換,讓誤差模式保持一致,避免了誤差累積。

端到端效率:訓練步吞吐 +20%論文,綜合加速 9-10%

把確定性 Hadamard 旋轉加上全流程 MXFP4 之後論文,效率資料如下:

AMD新論文顛覆認知:FP4訓練不穩定,原因不是隨機性不足

訓練步吞吐提升了 20%,扣掉多出的 8-9% token 開銷之後,端到端綜合加速仍有 9-10%論文

考慮到這是把精度從 8 位元直接砍到 4 位元,這個收斂質量和加速幅度都相當可觀論文

AMD新論文顛覆認知:FP4訓練不穩定,原因不是隨機性不足

左圖:在 C4 資料集上進行 MLPerf 預訓練時,Llama 3.1–8B 的驗證困惑度隨訓練 token 數變化的曲線論文。結果顯示,MXFP4 + 確定性 Hadamard 與 FP8 的表現非常接近,而未進行穩定化處理的全流程 MXFP4 收斂速度更慢,訓練穩定性也更差。右圖:訓練後期的區域性放大檢視。MLPerf 的目標困惑度為 3.3。與未穩定化的 MXFP4 執行相比,確定性 Hadamard(H16)能夠與 FP8 基線保持更緊密的一致性。

值得注意的是,作者在論文中明確強調了一項重要限制:這套 FP4 訓練方案(MLPerf C4 資料集 + Llama 3.1-8B)的效果已經得到驗證,但不能直接假設它能無縫遷移到所有模型、所有資料集和所有訓練方法論文。FP4 訓練的行為可能是高度設定依賴的,具體的穩定策略需要根據場景重新驗證。

結語

把這篇論文放到更大的產業脈絡裡,至少有三層意義論文

第一層:它回答了一個根本性的「為什麼」論文。 過去的 FP4 訓練工作大多聚焦於「怎麼讓它不崩」,這篇論文第一次給出了清晰的因果診斷:崩潰源於 Wgrad 路徑上的結構性微縮放誤差,而非隨機性不足。這個診斷本身就具有方法論價值,它告訴後續研究者:在低精度訓練中遇到不穩定性時,應該優先排查結構性誤差源,而非盲目增加隨機性。

第二層:它把 FP4 從「推理專屬」推向了「訓練可用」論文。 此前行業共識是 FP4 只適合推理量化,訓練至少要用 FP8。NVIDIA 在 Blackwell 上主推 FP4 推理而非訓練,也反映了這一判斷。這篇論文在原生 FP4 硬體上跑通了全流程預訓練,意味著 MI355X 和 Blackwell 上那些為推理準備的 FP4 算力,理論上也可以用來訓練。如果 FP4 訓練在更大模型和更多場景上被驗證可行,等於現有硬體的可用訓練算力直接翻倍。

第三層:它使用了 OCP 開放標準論文。 MXFP4 是 OCP Microscaling 格式標準的一部分,背後有 AMD、NVIDIA、Intel、Meta、Microsoft、Arm、Qualcomm 七家公司聯合支援。基於開放標準意味著這套方法在不同廠商的硬體上都有可移植性,不會被鎖定在單一生態裡。

從 FP16 到 FP8,DeepSeek-V3 已經證明精度減半可以大幅降低訓練成本論文。從 FP8 到 FP4,這篇論文邁出了關鍵的第一步。精度每砍一刀,整個大模型訓練的經濟性都在發生轉變。

本站內容來自使用者投稿,如果侵犯了您的權利,請與我們聯絡刪除。聯絡郵箱:835971066@qq.com

本文連結://wap.yxd-1688.com/post/42852.html

🌐 /