近日,一項發布于GitHub的研究引發業界熱議。該研究的作者認為,華為推出的盤古大模型(Pangu Pro MoE)與阿里巴巴發布的通義千問Qwen-2.5 14B模型在參數結構上存在“驚人一致”。作者通過實證比較,發現Pangu Pro MoE模型與Qwen-2.5 14B模型在注意力參數分布上的平均相關性高達0.927,遠超其他模型對比的正常范圍。此外,作者還發現了 Alibaba版權信息。
有網友認為,這可能意味著Pangu Pro MoE存在抄襲。盤古大模型團隊在GitHub中進行了回應,否認抄襲指控,并且認為該作者的評估方法不科學,并按其方法做了多組不同大模型的對比,“ 注意力參數分布上的平均相關性” 也都是很高的水平。此外,盤古 Pro MoE技術開發團隊也在微信公號“諾亞方舟實驗室”做了說明。
簡單說包括兩點:
① 盤古 Pro MoE 開源模型是基于昇騰硬件平臺開發、訓練的基礎大模型, 并非基于其他廠商模型增量訓練而來,有多項 關鍵創新和突破。
②部分基礎組件的代碼參考了其他公司的開源貢獻,涉及其他開源大模型的部分開源代碼。嚴格遵循開源許可證的要求,在開源代碼文件中 清晰標注開源代碼的版權聲明。
從上面的內容可以看到:
①在大模型,全自研很少,各家企業一邊在自己做研究,一邊也吸取其他公司開源的成果,也將自己的部分成果開源。通信圈這個特征更為明顯,一個企業說自己進入了無人區,表明自己在某一方面領先,但在其研發中同樣會參考業界已有的成果,包括開源信息、公開論文,也包括專利等。例如頭部企業都稱自己擁有較多的5G核心專利,但沒有一家說5G是自己“全自研”的。
②盤古 Pro MoE 開源模型,清楚標注引用了哪些公司的開源技術,本身也是對知識產權的尊重。雖然有的軟件不這么做。
③在技術受限的情況下, 華為盤古 Pro MoE在挖掘訓練資源潛力方面有了突破。
④“注意力參數相關性分析”,并非從技術角度判定一致性,而是從輸出結果結果角度判定。面向同一個語言體系,不同大模型之間參數相關都會在一個較高水平,能否作為判定是否參數借用的依據,相關性0.9是不是一個好的閾值。另外還有一個可能,參數越多,不同模型之間的參數相關度越高;如果這個推斷成立,通過對模型參數蒸餾,減少參數數量,提高應用時的效率,僅會對結果帶來很小的影響。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.