99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

AI真能“理解”人類語言嗎?這個大模型開掛了

0
分享至

導讀:算法創新,如何解鎖語義理解新高度?

2023年,大模型從年初卷到年末。無論是國內的百模大戰格局,還是國外一超多強的新競爭態勢,基礎模型的能力依然是生成式AI的核心。

對于提升基礎模型能力,OpenAI曾提出一個著名的Scaling Law,即模型的參數規模越大、投入的高質量數據越多、投入的算力越多,模型就越強大越智能。這一法則也被稱之為伸縮法則或擴展定律。

然而,從算力、數據到算法,各個方面資源均受約束的情況,則是訓練基礎大模型時面臨的常態。比如算力緊缺一卡難求,高質量數據嚴重不足等。那么,算法的創新能否扛起提升大模型精度的重任?

11月底,浪潮信息的千億開源模型源2.0在算法創新方面為產業界探索了新的方向。

源2.0采用了一種新型的注意力算法結構LFA(局部注意力過濾增強機制,Localized Filtering-based Attention),對比傳統Transformer架構下的注意力機制,LFA對自然語言的關聯語義理解更精準,能夠顯著提升模型精度。

Train Loss是衡量模型精度的指標之一,數值越低意味著模型精度越好。基于 LFA 模型結構,102B的源 2.0模型訓練 288B 的 Tokens,最終 Train Loss 為 1.18,相比245B的源 1.0模型,Train Loss 降低了 28%。

這意味著,源2.0打開了一扇新的大門,在無需大幅提升模型參數規模、計算量和內存開銷的情況下,通過算法創新也可以實現模型精度的顯著提升。



為什么LFA能顯著提升大語言模型精度?

2017年谷歌推出的Transformer架構是當前大語言模型的基礎架構,也是這一輪生成式AI浪潮的核心技術底座。雖然Transformer架構具有強大的泛化能力,但并非在所有場景下都有完美表現。對自然語言長序列的處理,以及對序列中的順序信息的理解就是其短板之一。

Transformer架構中的注意力機制對輸入的所有文字一視同仁,不會假設自然語言相鄰詞之間存在先驗的語義關聯。而在自然語言中,相鄰詞之間的語義關聯是一個明顯特征。

比如,“我想吃重慶火鍋”這句話,重慶是修飾火鍋的,這兩個詞之間有更強的依賴關系。

當把這句話丟給一個Transformer架構的大語言模型時,其注意力機制會首先進行分詞,我/想/吃/重慶/火鍋,即對所有token平均對待,而不會注意到相鄰詞之間是否存在更強的局部關系。

如果能將相鄰詞之間的語義關聯引入大模型的注意力機制,將獲得更精準的自然語言理解能力,從而提升大語言模型的精度。

源2.0研發團隊首先嘗試了常用的EMA算法。EMA(指數移動平均)是在處理時序數據時一種比較經典的考慮局部關系的算法。雖然EMA也能降低Train Loss值,改進模型精度,但會導致內存開銷和計算耗時大幅增加,尤其是對千億規模的模型來說,訓練成本太大。

最終,源2.0研發團隊采用了兩組卷積+RMSNorm的方法,構建了LFA結構。也就是說,依然基于Transformer架構,但在自注意力層中引入了CNN捕捉相鄰詞的關系。



兩組卷積中,卷積核為2,步長為1,然后再經過RMSNorm歸一化。第二次卷積后,相鄰詞之間的關系又被傳遞到下一個詞,相當于能夠捕捉到三個相鄰詞之間的關系。



以“有只貓在吃東西”這句話為例,第二次卷積后,注意力機制能夠覆蓋三個相鄰詞之間的局部關系,如:(空格,有),((空格,有),只),((有,只),貓),((只,貓),在),((貓,在),吃),((在,吃),東西)。



從源2.0技術論文中的消融實驗可以看出,basic是LLaMA結構即傳統Transformer注意力機制,對比之下,LFA結構的模型可以將Train Loss值從1.251降低到1.2069,而模型參數和訓練耗時的增加并不明顯。



算法創新推動源2.0能力全面升級

基于LFA結構的算法創新,源2.0探索出一個在有限算力資源、有限數據質量、有限參數規模的情況下,提升模型精度的新方向。

這種算法創新加上數據、算力層面的創新,也讓源2.0在數理邏輯、代碼生成、知識問答、中英文翻譯、語義理解等方面的能力大幅提升,實現了對源1.0的全面超越。

在源2.0的技術論文中,浪潮信息公布了源2.0在多個權威評測中的表現,包括:面向代碼生成任務的基準測試HumanEval、用于數學問題求解的測試GSM-8K、用來評估標準化考試的基準測試AGIEval、事實性問答測試 TruthfulQA等。

從測試結果看,源2.0在精準度方面全面超過了ChatGPT,并在某些測試上接近GPT4的水平。



在HumanEval評測集上,使用了SC(自洽性,Self-Consistency)方法的源2.0準確率達到77.4%。



在AGIEval測試中,源2.0已經可以對相當復雜的高考數學題進行完美解答。源2.0的回答,無論是推理思路、求解過程,還是符號計算和數值計算都非常準確。





“LFA事實上也代表著一個新的研究方向,我們可以沿著這個方向走下去,發現更多更好的局部性結構,來建模自然語言處理或者序列關系。”浪潮信息人工智能軟件研發總監吳韶華表示。

以開源方式,聚焦基礎模型能力迭代

根據北京市經濟和信息化局的數據,截止到2023年10月,單是中國國內公開的大模型數量,就已經達到了238個。當最初的粗放式發展過后,國內百模大戰的格局必將走向逐漸收斂的階段。

其中,有戰略定力和技術實力能夠持續迭代基礎模型能力的企業并不多,浪潮信息就是其中之一。目前,浪潮信息在生成式AI領域的布局聚焦在基礎模型能力的提升上,而且始終堅持開源路線。

在開源方面,源大模型堅持全面開源,包括開源API、基礎模型參數和代碼、訓練數據集等。



圖片來自攝圖網

2021年9月推出的2457億參數的源1.0模型是當時業界最大規模的大語言模型,模型發布后浪潮信息便推出了開源開放計劃,目前已經賦能海量開發者基于源1.0進行應用創新。

2023年11月,源2.0基礎大模型一經發布即開源,包括1026億、518億、21億三種參數規模。通過算法、數據、算力三大維度的全面創新,源2.0實現了基礎模型能力的大幅提升。

同時,源2.0還推出了開源共訓計劃,所有開發者都可以提出自己的場景需求,源大模型團隊會開展相關的數據清洗/收集與模型訓練,訓練完成后的基礎模型會持續開源到社區反饋給開發者,為開發者提供更好的模型基礎能力支持。

“大模型開源,能夠加速整個產業協同發展,這是它最本質的價值。產業要健康發展,不能說只有一家公司擁有一個非常領先的能力,其他人都沒有辦法提供類似的能力。生成式AI一定是一個多元化的生態。我們希望這個產業能夠百花齊放,能夠更加的豐富。” 浪潮信息高級副總裁劉軍曾向媒體表示。

目前,能夠超越Transformer的下一代模型結構會是什么樣子,業界仍處于拆黑盒的探索階段。

但換一個思路,前沿技術的發展從來不是突進式變化,而是連續演進的。在探索大模型算法結構的發展方向上,當下任何一個微小的技術改進都是尤為踏實的一步。從這點來看,源2.0的算法創新也為業界推開一扇新的大門。

本文為「智能進化論」原創作品。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
397天僅賣掉17套!內金沙昔日“地王”為何陷入去化困境?

397天僅賣掉17套!內金沙昔日“地王”為何陷入去化困境?

成都商報房產發布
2025-07-16 16:18:02
阿塞拜疆的反水,不是臨時起意,而是俄羅斯的三筆爛賬暴雷了

阿塞拜疆的反水,不是臨時起意,而是俄羅斯的三筆爛賬暴雷了

林子說事
2025-07-14 11:38:23
上海著名醫院換帥!享受國務院特殊津貼

上海著名醫院換帥!享受國務院特殊津貼

上觀新聞
2025-07-16 20:28:54
深夜炸彈!宗慶后還有6個孩子,宗馥莉曾絕食對抗父親

深夜炸彈!宗慶后還有6個孩子,宗馥莉曾絕食對抗父親

販財局
2025-07-16 22:57:44
血淋淋教訓!上海慘烈車禍,兩名道路維修人員在工作時人被撞沒了

血淋淋教訓!上海慘烈車禍,兩名道路維修人員在工作時人被撞沒了

小虎新車推薦員
2025-07-17 06:26:16
4億換一個夢,“辭職”籃協主席的姚明,已經走上了另一條路

4億換一個夢,“辭職”籃協主席的姚明,已經走上了另一條路

新語愛八卦
2025-07-16 15:09:19
情義江湖9:老韓的調查,加代算是仁義的

情義江湖9:老韓的調查,加代算是仁義的

金昔說故事
2025-07-17 08:46:41
美國新興熱門城鎮大揭秘:低犯罪率和廉價住房吸引大批買家涌入

美國新興熱門城鎮大揭秘:低犯罪率和廉價住房吸引大批買家涌入

北美省錢快報
2025-07-16 01:12:40
特朗普:暫時沒打算解雇美聯儲主席

特朗普:暫時沒打算解雇美聯儲主席

環球網資訊
2025-07-17 01:52:55
鳳凰網扒出宗馥莉家里冰箱都裝攝像頭!太佩服宗馥莉了

鳳凰網扒出宗馥莉家里冰箱都裝攝像頭!太佩服宗馥莉了

魔都姐姐雜談
2025-07-17 08:39:44
16歲女高中生每天玩手機到半夜,母親洗衣發現硬塊,翻開衣服崩潰

16歲女高中生每天玩手機到半夜,母親洗衣發現硬塊,翻開衣服崩潰

罪案洞察者
2025-07-09 11:19:55
情義江湖1:好弟弟做買賣,杰哥托加代幫忙照應

情義江湖1:好弟弟做買賣,杰哥托加代幫忙照應

金昔說故事
2025-07-16 22:37:12
一個父親月薪多少才能撐起一個家?網友:所以別生孩子一身輕松

一個父親月薪多少才能撐起一個家?網友:所以別生孩子一身輕松

帶你感受人間冷暖
2025-07-15 00:20:05
澤連斯基痛簽總統令,大決戰來了?關鍵時刻,中國一句話鎮住日本

澤連斯基痛簽總統令,大決戰來了?關鍵時刻,中國一句話鎮住日本

掌青說歷史
2025-07-16 11:04:02
宗慶后其實希望兒子能傳宗接代

宗慶后其實希望兒子能傳宗接代

特特農村生活
2025-07-16 13:42:53
烏克蘭和北約現在才明白,中國才是俄羅斯最后的希望

烏克蘭和北約現在才明白,中國才是俄羅斯最后的希望

起喜電影
2025-07-16 19:43:07
韓國被要求證明泡菜端午祭是原創,現已過去兩天,首爾那邊靜悄悄

韓國被要求證明泡菜端午祭是原創,現已過去兩天,首爾那邊靜悄悄

丫頭舫
2025-07-16 18:02:05
林泱泱同志逝世

林泱泱同志逝世

新京報政事兒
2025-07-16 19:13:38
曝宗慶后共7個娃,兒子生母常到娃哈哈鬧事,2013年宗慶后被刺傷

曝宗慶后共7個娃,兒子生母常到娃哈哈鬧事,2013年宗慶后被刺傷

古希臘掌管松餅的神
2025-07-17 09:18:42
直到現在,我才明白,為什么胡塞武裝能讓中俄投下棄權票!

直到現在,我才明白,為什么胡塞武裝能讓中俄投下棄權票!

從軍行
2025-07-16 22:21:44
2025-07-17 10:44:49
智能進化論 incentive-icons
智能進化論
關注AI產業趨勢、場景應用
374文章數 68關注度
往期回顧 全部

科技要聞

不只H20?黃仁勛:希望對華銷售更好的芯片

頭條要聞

特朗普宣布終止資助美國高鐵:耗費數千億美元無法交付

頭條要聞

特朗普宣布終止資助美國高鐵:耗費數千億美元無法交付

體育要聞

不給楊瀚森傳球,他有自己的理由

娛樂要聞

都美竹將參加綜藝,單身媽媽發文抵制

財經要聞

宗氏三兄妹在港起訴宗馥莉文書曝光

汽車要聞

8月初上市 長安第三代UNI-V勁擎型嘗鮮價11.49萬

態度原創

健康
教育
時尚
親子
軍事航空

呼吸科專家破解呼吸道九大謠言!

教育要聞

3844人!2025博后資助B檔、C檔獲選結果公布

苦日子來了,大家做好長期打算吧!

親子要聞

行~女兒在爸爸懷里撒嬌要玩具,爸爸不語,只是一味說“行” #睡個好覺

軍事要聞

胡塞武裝稱襲擊以色列多處目標 致其“航班中斷”

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 盐亭县| 八宿县| 额尔古纳市| 阿克| 新泰市| 岱山县| 利津县| 瑞金市| 开原市| 仙桃市| 房产| 仪征市| 仲巴县| 保德县| 大方县| 辽宁省| 高青县| 阳谷县| 墨江| 阿鲁科尔沁旗| 剑川县| 隆德县| 尼勒克县| 昌图县| 巴楚县| 西吉县| 正阳县| 密山市| 胶南市| 兰溪市| 梨树县| 南投县| 望城县| 潍坊市| 绵阳市| 宁乡县| 枣强县| 金沙县| 呼伦贝尔市| 丰都县| SHOW|