導讀:算法創新,如何解鎖語義理解新高度?
2023年,大模型從年初卷到年末。無論是國內的百模大戰格局,還是國外一超多強的新競爭態勢,基礎模型的能力依然是生成式AI的核心。
對于提升基礎模型能力,OpenAI曾提出一個著名的Scaling Law,即模型的參數規模越大、投入的高質量數據越多、投入的算力越多,模型就越強大越智能。這一法則也被稱之為伸縮法則或擴展定律。
然而,從算力、數據到算法,各個方面資源均受約束的情況,則是訓練基礎大模型時面臨的常態。比如算力緊缺一卡難求,高質量數據嚴重不足等。那么,算法的創新能否扛起提升大模型精度的重任?
11月底,浪潮信息的千億開源模型源2.0在算法創新方面為產業界探索了新的方向。
源2.0采用了一種新型的注意力算法結構LFA(局部注意力過濾增強機制,Localized Filtering-based Attention),對比傳統Transformer架構下的注意力機制,LFA對自然語言的關聯語義理解更精準,能夠顯著提升模型精度。
Train Loss是衡量模型精度的指標之一,數值越低意味著模型精度越好。基于 LFA 模型結構,102B的源 2.0模型訓練 288B 的 Tokens,最終 Train Loss 為 1.18,相比245B的源 1.0模型,Train Loss 降低了 28%。
這意味著,源2.0打開了一扇新的大門,在無需大幅提升模型參數規模、計算量和內存開銷的情況下,通過算法創新也可以實現模型精度的顯著提升。
為什么LFA能顯著提升大語言模型精度?
2017年谷歌推出的Transformer架構是當前大語言模型的基礎架構,也是這一輪生成式AI浪潮的核心技術底座。雖然Transformer架構具有強大的泛化能力,但并非在所有場景下都有完美表現。對自然語言長序列的處理,以及對序列中的順序信息的理解就是其短板之一。
Transformer架構中的注意力機制對輸入的所有文字一視同仁,不會假設自然語言相鄰詞之間存在先驗的語義關聯。而在自然語言中,相鄰詞之間的語義關聯是一個明顯特征。
比如,“我想吃重慶火鍋”這句話,重慶是修飾火鍋的,這兩個詞之間有更強的依賴關系。
當把這句話丟給一個Transformer架構的大語言模型時,其注意力機制會首先進行分詞,我/想/吃/重慶/火鍋,即對所有token平均對待,而不會注意到相鄰詞之間是否存在更強的局部關系。
如果能將相鄰詞之間的語義關聯引入大模型的注意力機制,將獲得更精準的自然語言理解能力,從而提升大語言模型的精度。
源2.0研發團隊首先嘗試了常用的EMA算法。EMA(指數移動平均)是在處理時序數據時一種比較經典的考慮局部關系的算法。雖然EMA也能降低Train Loss值,改進模型精度,但會導致內存開銷和計算耗時大幅增加,尤其是對千億規模的模型來說,訓練成本太大。
最終,源2.0研發團隊采用了兩組卷積+RMSNorm的方法,構建了LFA結構。也就是說,依然基于Transformer架構,但在自注意力層中引入了CNN捕捉相鄰詞的關系。
兩組卷積中,卷積核為2,步長為1,然后再經過RMSNorm歸一化。第二次卷積后,相鄰詞之間的關系又被傳遞到下一個詞,相當于能夠捕捉到三個相鄰詞之間的關系。
以“有只貓在吃東西”這句話為例,第二次卷積后,注意力機制能夠覆蓋三個相鄰詞之間的局部關系,如:(空格,有),((空格,有),只),((有,只),貓),((只,貓),在),((貓,在),吃),((在,吃),東西)。
從源2.0技術論文中的消融實驗可以看出,basic是LLaMA結構即傳統Transformer注意力機制,對比之下,LFA結構的模型可以將Train Loss值從1.251降低到1.2069,而模型參數和訓練耗時的增加并不明顯。
算法創新推動源2.0能力全面升級
基于LFA結構的算法創新,源2.0探索出一個在有限算力資源、有限數據質量、有限參數規模的情況下,提升模型精度的新方向。
這種算法創新加上數據、算力層面的創新,也讓源2.0在數理邏輯、代碼生成、知識問答、中英文翻譯、語義理解等方面的能力大幅提升,實現了對源1.0的全面超越。
在源2.0的技術論文中,浪潮信息公布了源2.0在多個權威評測中的表現,包括:面向代碼生成任務的基準測試HumanEval、用于數學問題求解的測試GSM-8K、用來評估標準化考試的基準測試AGIEval、事實性問答測試 TruthfulQA等。
從測試結果看,源2.0在精準度方面全面超過了ChatGPT,并在某些測試上接近GPT4的水平。
在HumanEval評測集上,使用了SC(自洽性,Self-Consistency)方法的源2.0準確率達到77.4%。
在AGIEval測試中,源2.0已經可以對相當復雜的高考數學題進行完美解答。源2.0的回答,無論是推理思路、求解過程,還是符號計算和數值計算都非常準確。
“LFA事實上也代表著一個新的研究方向,我們可以沿著這個方向走下去,發現更多更好的局部性結構,來建模自然語言處理或者序列關系。”浪潮信息人工智能軟件研發總監吳韶華表示。
以開源方式,聚焦基礎模型能力迭代
根據北京市經濟和信息化局的數據,截止到2023年10月,單是中國國內公開的大模型數量,就已經達到了238個。當最初的粗放式發展過后,國內百模大戰的格局必將走向逐漸收斂的階段。
其中,有戰略定力和技術實力能夠持續迭代基礎模型能力的企業并不多,浪潮信息就是其中之一。目前,浪潮信息在生成式AI領域的布局聚焦在基礎模型能力的提升上,而且始終堅持開源路線。
在開源方面,源大模型堅持全面開源,包括開源API、基礎模型參數和代碼、訓練數據集等。
圖片來自攝圖網
2021年9月推出的2457億參數的源1.0模型是當時業界最大規模的大語言模型,模型發布后浪潮信息便推出了開源開放計劃,目前已經賦能海量開發者基于源1.0進行應用創新。
2023年11月,源2.0基礎大模型一經發布即開源,包括1026億、518億、21億三種參數規模。通過算法、數據、算力三大維度的全面創新,源2.0實現了基礎模型能力的大幅提升。
同時,源2.0還推出了開源共訓計劃,所有開發者都可以提出自己的場景需求,源大模型團隊會開展相關的數據清洗/收集與模型訓練,訓練完成后的基礎模型會持續開源到社區反饋給開發者,為開發者提供更好的模型基礎能力支持。
“大模型開源,能夠加速整個產業協同發展,這是它最本質的價值。產業要健康發展,不能說只有一家公司擁有一個非常領先的能力,其他人都沒有辦法提供類似的能力。生成式AI一定是一個多元化的生態。我們希望這個產業能夠百花齊放,能夠更加的豐富。” 浪潮信息高級副總裁劉軍曾向媒體表示。
目前,能夠超越Transformer的下一代模型結構會是什么樣子,業界仍處于拆黑盒的探索階段。
但換一個思路,前沿技術的發展從來不是突進式變化,而是連續演進的。在探索大模型算法結構的發展方向上,當下任何一個微小的技術改進都是尤為踏實的一步。從這點來看,源2.0的算法創新也為業界推開一扇新的大門。
本文為「智能進化論」原創作品。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.