聞樂 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
誰說擴散模型只能生成圖像和視頻?
現(xiàn)在它們能高質(zhì)量地寫代碼了,速度還比傳統(tǒng)大模型更快!
Inception Labs推出基于擴散技術(shù)的全新商業(yè)級大語言模型——Mercury。
Mercury突破了自回歸模型 “從左到右” 逐詞生成的限制,采用 “從噪聲到結(jié)構(gòu)化輸出” 的方式,能一次性預測所有方向的token,提高了生成速度。
這樣一來,Mercury還解決了自回歸“一旦生成難以回頭調(diào)整”的問題。
擴散模型并不是僅考慮前面已經(jīng)生成的內(nèi)容,它能在生成過程中進行動態(tài)糾錯修改,具有更大的靈活性。
盡管采用了擴散技術(shù),Mercury模型系列仍保留了Transformer架構(gòu)。
這確保了該模型能直接復用近年來為大語言模型開發(fā)的高效訓練、推理優(yōu)化技術(shù)(如低階算子優(yōu)化、超參數(shù)調(diào)優(yōu)工具等)。
實測數(shù)據(jù)顯示,面對相同的編程任務,Mercury的代碼生成速度比傳統(tǒng)工具最多快10倍,大幅縮短了開發(fā)周期。
在H100 GPU上實現(xiàn)1109 tokens/秒吞吐量
Mercury用成熟的Transformer作為神經(jīng)網(wǎng)絡基礎,結(jié)合擴散技術(shù)的并行生成能力,既保留了大模型的兼容性,又突破了自回歸模型逐詞生成的速度限制。
擴散生成流程
Mercury的核心創(chuàng)新在于 “擴散式生成”,流程如下:
- 訓練階段的正向過程:從真實文本(如代碼片段)出發(fā),逐步加入噪聲(隨機替換、刪除token等),最終變成完全隨機的噪聲序列。
- 推理階段的反向過程(核心):從隨機噪聲開始,通過Transformer模型迭代優(yōu)化,逐步去除噪聲,最終生成符合真實分布的文本。每次迭代中,模型會并行修改多個token,而非逐詞生成。
這一過程擴展了此前的離散擴散方法,通過優(yōu)化數(shù)據(jù)處理和計算邏輯,實現(xiàn)了大規(guī)模訓練(萬億級token)。
高效利用硬件
Mercury主要通過并行化文本生成、動態(tài)去噪調(diào)度、混合精度量化等技術(shù),極致發(fā)揮GPU性能,實現(xiàn)對硬件的高效利用,降低訓練和推理成本。
- 并行化文本生成
擴散機制允許模型在單次前向傳播中預測多個token,相較于自回歸模型的“從左到右”逐詞生成,顯著提升了GPU利用率。
在NVIDIA H100 GPU上,Mercury Coder Mini和Mercury Coder Small(Mercury Coder系列編碼優(yōu)化產(chǎn)品)分別實現(xiàn)了1109 tokens/秒和737 tokens/秒的吞吐量。
在Copilot Arena的基準測試中,可將響應時間壓縮至其他工具的1/4,同時硬件資源占用減少60%。
- 動態(tài)去噪調(diào)度算法
Mercury通過自適應調(diào)整去噪步數(shù),在簡單任務中減少計算量,在復雜任務中保留足夠迭代次數(shù),實現(xiàn)精度與效率的平衡,從而更高效地利用硬件資源,避免不必要的計算開銷。
- 混合精度量化技術(shù)
模型在推理時可自動切換至低精度計算模式,內(nèi)存占用減少30%,同時通過殘差補償機制維持輸出質(zhì)量。這讓Mercury能在有限的硬件內(nèi)存條件下運行,且不明顯影響性能。
強大的錯誤糾正能力
與傳統(tǒng)自回歸模型 “從左到右” 逐詞生成,一旦生成難以回頭調(diào)整不同,Mercury不受限于僅考慮前面已生成的內(nèi)容,能夠在生成過程中動態(tài)修改之前的內(nèi)容,具有更大的靈活性。
- 雙向注意力機制
- Mercury在去噪過程中引入上下文雙向關(guān)聯(lián),能夠更好地理解文本的前后語境,從而更準確地發(fā)現(xiàn)和糾正錯誤。
- 實時糾錯模塊
- 模型在去噪步驟中會同步檢測代碼邏輯漏洞,通過強化學習動態(tài)修正輸出。在代碼生成任務中,Mercury Coder可以自動修正邏輯漏洞,還支持函數(shù)級參數(shù)自動校正,能有效提高代碼的準確性和可用性。
- 多語言語法樹嵌入
- Mercury將Python、Java等語言的抽象語法樹(AST)結(jié)構(gòu)融入擴散過程,有助于減少語法錯誤。
超快響應速度與當前CI能力不匹配
在LLMs出現(xiàn)之前,持續(xù)集成/交付(CI/CD)的速度就已經(jīng)成為一個主要瓶頸,這導致開發(fā)人員在測試時把時間浪費在等待拉取請求(PRs)上。
有時,一個更改操作需要在隊列中等待數(shù)小時,甚至有時會因為不穩(wěn)定需要重新開始。
Mercury模型在編寫代碼方面實現(xiàn)了超高速響應,但如果每次代碼更改都需要數(shù)小時進行測試,那么就像這位網(wǎng)友提出的問題一樣:
即使大模型能夠以比人類快100倍的速度寫代碼,但測試速度跟不上的話,這將沒有什么意義。
于是問題來了:
如何緩解超快響應速度與當前CI能力不匹配的問題?
一些人認為因為開發(fā)人員時間比機器時間昂貴得多,所以可以通過簡單地“投入更多機器”來解決CI速度問題。
然而,也有另一些人指出,這對于谷歌等“印鈔機”公司可能可行,但對于普通公司來說,CI預算是固定的,增加計算資源并不是一件容易的事情。
Inception Labs團隊
Mercury的開發(fā)方Inception Labs的三位聯(lián)合創(chuàng)始人是來自斯坦福、UCLA和康奈爾大學的計算機教授。
其中,Stefano Ermon是擴散模型的共同發(fā)明人,他與Sohl-Dickstein等學者共同構(gòu)建了擴散模型的理論基礎,并通過后續(xù)研究推動了模型的實用化。
另一位創(chuàng)始人Aditya Grover曾在Meta FAIR擔任研究科學家。
攻讀博士學位期間,他先后在谷歌DeepMind、微軟研究院和OpenAI實習。
Volodymyr Kuleshov曾在2018年獲得Arthur Samuel最佳論文獎。
該團隊包括來自Google DeepMind、微軟、Meta、OpenAI和NVIDIA的資深人士,目前正專注于用擴散技術(shù)改進大模型性能。
Inception Labs還開放了Mercury模型的在線體驗平臺。
感興趣的朋友可點擊下方鏈接體驗~
論文地址:https://arxiv.org/abs/2506.17298
Mercury在線體驗平臺:https://chat.inceptionlabs.ai/
參考鏈接:
https://news.ycombinator.com/item?id=44489690
— 完 —
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.