網易首頁 > 網易號 > 正文申請入駐

AI真能“理解”人類語言嗎？這個大模型開掛了

2023-12-27 10:59:37　來源: 智能進化論

北京舉報

分享至

導讀：算法創新，如何解鎖語義理解新高度？

2023年，大模型從年初卷到年末。無論是國內的百模大戰格局，還是國外一超多強的新競爭態勢，基礎模型的能力依然是生成式AI的核心。

對于提升基礎模型能力，OpenAI曾提出一個著名的Scaling Law，即模型的參數規模越大、投入的高質量數據越多、投入的算力越多，模型就越強大越智能。這一法則也被稱之為伸縮法則或擴展定律。

然而，從算力、數據到算法，各個方面資源均受約束的情況，則是訓練基礎大模型時面臨的常態。比如算力緊缺一卡難求，高質量數據嚴重不足等。那么，算法的創新能否扛起提升大模型精度的重任？

11月底，浪潮信息的千億開源模型源2.0在算法創新方面為產業界探索了新的方向。

源2.0采用了一種新型的注意力算法結構LFA（局部注意力過濾增強機制，Localized Filtering-based Attention），對比傳統Transformer架構下的注意力機制，LFA對自然語言的關聯語義理解更精準，能夠顯著提升模型精度。

Train Loss是衡量模型精度的指標之一，數值越低意味著模型精度越好。基于 LFA 模型結構，102B的源 2.0模型訓練 288B 的 Tokens，最終 Train Loss 為 1.18，相比245B的源 1.0模型，Train Loss 降低了 28%。

這意味著，源2.0打開了一扇新的大門，在無需大幅提升模型參數規模、計算量和內存開銷的情況下，通過算法創新也可以實現模型精度的顯著提升。

為什么LFA能顯著提升大語言模型精度？

2017年谷歌推出的Transformer架構是當前大語言模型的基礎架構，也是這一輪生成式AI浪潮的核心技術底座。雖然Transformer架構具有強大的泛化能力，但并非在所有場景下都有完美表現。對自然語言長序列的處理，以及對序列中的順序信息的理解就是其短板之一。

Transformer架構中的注意力機制對輸入的所有文字一視同仁，不會假設自然語言相鄰詞之間存在先驗的語義關聯。而在自然語言中，相鄰詞之間的語義關聯是一個明顯特征。

比如，“我想吃重慶火鍋”這句話，重慶是修飾火鍋的，這兩個詞之間有更強的依賴關系。

當把這句話丟給一個Transformer架構的大語言模型時，其注意力機制會首先進行分詞，我/想/吃/重慶/火鍋，即對所有token平均對待，而不會注意到相鄰詞之間是否存在更強的局部關系。

如果能將相鄰詞之間的語義關聯引入大模型的注意力機制，將獲得更精準的自然語言理解能力，從而提升大語言模型的精度。

源2.0研發團隊首先嘗試了常用的EMA算法。EMA（指數移動平均）是在處理時序數據時一種比較經典的考慮局部關系的算法。雖然EMA也能降低Train Loss值，改進模型精度，但會導致內存開銷和計算耗時大幅增加，尤其是對千億規模的模型來說，訓練成本太大。

最終，源2.0研發團隊采用了兩組卷積+RMSNorm的方法，構建了LFA結構。也就是說，依然基于Transformer架構，但在自注意力層中引入了CNN捕捉相鄰詞的關系。

兩組卷積中，卷積核為2，步長為1，然后再經過RMSNorm歸一化。第二次卷積后，相鄰詞之間的關系又被傳遞到下一個詞，相當于能夠捕捉到三個相鄰詞之間的關系。

以“有只貓在吃東西”這句話為例，第二次卷積后，注意力機制能夠覆蓋三個相鄰詞之間的局部關系，如：（空格，有），（（空格，有），只），（（有，只），貓），（（只，貓），在），（（貓，在），吃），（（在，吃），東西）。

從源2.0技術論文中的消融實驗可以看出，basic是LLaMA結構即傳統Transformer注意力機制，對比之下，LFA結構的模型可以將Train Loss值從1.251降低到1.2069，而模型參數和訓練耗時的增加并不明顯。

算法創新推動源2.0能力全面升級

基于LFA結構的算法創新，源2.0探索出一個在有限算力資源、有限數據質量、有限參數規模的情況下，提升模型精度的新方向。

這種算法創新加上數據、算力層面的創新，也讓源2.0在數理邏輯、代碼生成、知識問答、中英文翻譯、語義理解等方面的能力大幅提升，實現了對源1.0的全面超越。

在源2.0的技術論文中，浪潮信息公布了源2.0在多個權威評測中的表現，包括：面向代碼生成任務的基準測試HumanEval、用于數學問題求解的測試GSM-8K、用來評估標準化考試的基準測試AGIEval、事實性問答測試 TruthfulQA等。

從測試結果看，源2.0在精準度方面全面超過了ChatGPT，并在某些測試上接近GPT4的水平。

在HumanEval評測集上，使用了SC（自洽性，Self-Consistency）方法的源2.0準確率達到77.4%。

在AGIEval測試中，源2.0已經可以對相當復雜的高考數學題進行完美解答。源2.0的回答，無論是推理思路、求解過程，還是符號計算和數值計算都非常準確。

“LFA事實上也代表著一個新的研究方向，我們可以沿著這個方向走下去，發現更多更好的局部性結構，來建模自然語言處理或者序列關系。”浪潮信息人工智能軟件研發總監吳韶華表示。

以開源方式，聚焦基礎模型能力迭代

根據北京市經濟和信息化局的數據，截止到2023年10月，單是中國國內公開的大模型數量，就已經達到了238個。當最初的粗放式發展過后，國內百模大戰的格局必將走向逐漸收斂的階段。

其中，有戰略定力和技術實力能夠持續迭代基礎模型能力的企業并不多，浪潮信息就是其中之一。目前，浪潮信息在生成式AI領域的布局聚焦在基礎模型能力的提升上，而且始終堅持開源路線。

在開源方面，源大模型堅持全面開源，包括開源API、基礎模型參數和代碼、訓練數據集等。

圖片來自攝圖網

2021年9月推出的2457億參數的源1.0模型是當時業界最大規模的大語言模型，模型發布后浪潮信息便推出了開源開放計劃，目前已經賦能海量開發者基于源1.0進行應用創新。

2023年11月，源2.0基礎大模型一經發布即開源，包括1026億、518億、21億三種參數規模。通過算法、數據、算力三大維度的全面創新，源2.0實現了基礎模型能力的大幅提升。

同時，源2.0還推出了開源共訓計劃，所有開發者都可以提出自己的場景需求，源大模型團隊會開展相關的數據清洗/收集與模型訓練，訓練完成后的基礎模型會持續開源到社區反饋給開發者，為開發者提供更好的模型基礎能力支持。

“大模型開源，能夠加速整個產業協同發展，這是它最本質的價值。產業要健康發展，不能說只有一家公司擁有一個非常領先的能力，其他人都沒有辦法提供類似的能力。生成式AI一定是一個多元化的生態。我們希望這個產業能夠百花齊放，能夠更加的豐富。” 浪潮信息高級副總裁劉軍曾向媒體表示。

目前，能夠超越Transformer的下一代模型結構會是什么樣子，業界仍處于拆黑盒的探索階段。

但換一個思路，前沿技術的發展從來不是突進式變化，而是連續演進的。在探索大模型算法結構的發展方向上，當下任何一個微小的技術改進都是尤為踏實的一步。從這點來看，源2.0的算法創新也為業界推開一扇新的大門。

本文為「智能進化論」原創作品。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

智能進化論

關注AI產業趨勢、場景應用

374文章數 68關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

健康

教育

時尚

親子

軍事航空

手機 / 數碼

房產 / 家居

AI真能“理解”人類語言嗎？這個大模型開掛了

為什么LFA能顯著提升大語言模型精度？

算法創新推動源2.0能力全面升級

以開源方式，聚焦基礎模型能力迭代

不只H20？黃仁勛：希望對華銷售更好的芯片

特朗普宣布終止資助美國高鐵:耗費數千億美元無法交付

特朗普宣布終止資助美國高鐵:耗費數千億美元無法交付

不給楊瀚森傳球，他有自己的理由

都美竹將參加綜藝，單身媽媽發文抵制

宗氏三兄妹在港起訴宗馥莉文書曝光

8月初上市 長安第三代UNI-V勁擎型嘗鮮價11.49萬

態度原創

呼吸科專家破解呼吸道九大謠言！

3844人！2025博后資助B檔、C檔獲選結果公布

苦日子來了，大家做好長期打算吧！

行~女兒在爸爸懷里撒嬌要玩具，爸爸不語，只是一味說“行” #睡個好覺

胡塞武裝稱襲擊以色列多處目標 致其“航班中斷”

8月初上市長安第三代UNI-V勁擎型嘗鮮價11.49萬

胡塞武裝稱襲擊以色列多處目標致其“航班中斷”