編輯 | 虞爾湖
出品 | 潮起網「于見專欄」
近日,Github上的一篇技術論文引發軒然大波,其核心圍繞華為盤古大模型是否抄襲展開。該論文作者通過新的“模型指紋”技術,對盤古Pro MoE模型與其他模型進行了實證比較。
由于盤古模型與阿里千問的模型注意力參數平均相關性極高,盤古大模型也被指涉嫌抄襲。因此,背后的技術研發團隊以及華為公司,也被推上了輿論的風口浪尖。
不過,盤古團隊并以“評估方法不科學”為由否認抄襲。兩撥人各執一詞,也讓一度沉寂的技術社區,一時之間活躍度飆升,網友對于該話題的討論,也遠未停息。
一石激起千層浪,宣稱“自研”卻被指抄襲
據了解,模型指紋技術的原理是提取模型每一層多頭注意力機制中Q、K、V、O矩陣的標準差,將這些標準差按層排成序列并歸一化,形成“指紋”,再計算兩個模型之間指紋序列的皮爾遜相關系數來判斷是否存在“繼承”關系。
這種技術即便在模型架構發生變化或進行大規模繼續訓練時,指紋依然穩定,且經過驗證,有已知繼承關系的模型指紋高度相似,獨立訓練的模型指紋差異顯著。
通過該技術,作者發現Pangu Pro MoE模型與Qwen-2.5 14B模型在注意力參數分布上的平均相關性高達0.927,遠超其他模型對比的正常范圍。
圖源:Python人工智能前沿
基于此,作者有力推斷:Pangu Pro MoE并非完全從零訓練,而是通過“upcycling”(繼續訓練 + 架構調整)修改自Qwen模型;技術文檔中聲稱Pangu是“自研”,但可能存在版權侵權和報告造假。
此外,作者還進行了更多相關分析。QKV偏置分析揭示盤古和Qwen2.5-14B在所有三種投影類型(Q、K、V)上都存在驚人相似性,兩種模型展現出幾乎相同的模式,尤其是早期層特有的尖峰特征及隨后的收斂行為,而QKV偏置是Qwen 1-2.5代模型的獨特設計特征,包括Qwen3在內的大多數開源模型已放棄這種方法。
注意力層歸一化權重分析進一步強化了相似性,盤古和Qwen2.5-14B在層序列上展現出極為一致的趨勢,具有平行的初始化模式和收斂行為,區別于其他模型。
在模型激活分析中,初步結果顯示盤古仍然與Qwen相似,表明它們的計算模式存在顯著重疊。
圖源:網絡,盤古模型中出現通義千問代碼
此外,作者還注意到盤古的官方倉庫異常包含了Qwen 2024的許可證,倉庫Issue中揭露的欺詐行為,以及多位自稱來自其團隊的吹哨人的消息,也與作者的發現驚人的一致。
因此,論文原作者以及支持他的網友普遍認為,盤古大模型與通義千問高度相似,很難用巧合來解釋。
抄襲爭議中,雙方各執一詞
面對抄襲質疑,盤古團隊在Issue里進行了回應,完全否認抄襲指控,并且認為LLM-Fingerprint的評估方法完全不科學。
盤古大模型的首席開發者在內部澄清,通過使用該評估方法,得出pangu-72b-a16b對比Qwen2.5-14b相關性為0.92,baichuan2-13b對比Qwen1.5-14b為0.87,baichuan2-13b對比pangu-72b-a16b為0.84,baichuan2-13b對比Qwen2.5-14b為0.86,認為具有不同層數的模型,在該評估方法下也產生了高度相似的結果,表明論文和指標缺乏實際意義,盤古并未涉及抄襲。
圖源:新浪科技微博
而作者HostAGI完全不信服盤古團隊的解釋。他們認為盤古仍然顯示出最高的相似度,且評估方法僅是初步比較的工具,盤古觸發了警告信號。
與此同時,他們并非僅基于注意力參數作出判斷,在更深入調查后,如論文中對FFN的分析以及主頁上發布的許多新結果,這些都難以用“巧合”來解釋,開源社區也在發現更多“巧合”,如分析梯度和KV緩存相似性。
此外,社區其他成員也參與到討論中。qratosone詢問Qwen2-MoE是否從較小的稠密模型升級改造而來,HonestAGI給予肯定答復,并指出在Qwen 2的技術報告中有提及。
對此,網友各執一詞。有網友認為,需要進一步要求對同一組公認的升級模型進行直接比較的全面相關性分析,認為進行相關性分析而非僅僅是投影展示圖是必要的,還要求引用技術報告支持關于Qwen升級過程的說法,并建議開源代碼實現。
而HonestAGI則表示,計劃在收集足夠社區反饋后更新論文,感謝建設性建議,稱其進一步強化關鍵結論,并解釋Qwen2使用帶噪聲的升級方法為專家引入多樣性,可能改變Q和K的激活導致參數分布偏移。
還有網友提及,傳言稱mistral-7b基于llama家族某個版本開發,建議在開源模型上增加更多實驗,認為目前結果不夠有說服力,需要考慮如何確保評估方法對新開源模型可靠,以及評分系統的泛化能力等。
被卷入輿論風波,未來將如何收場?
值得注意的是,社區提交記錄顯示,盤古某關鍵模塊的commit時間晚于通義對應功能發布日,且未按開源規范注明參考來源。而這種“時間差”與“沉默引用”的組合,進一步加深了技術社區的疑慮。
很顯然,對于以技術“安身立命”的華為而言,此次無法用巧合來解釋的事件,或許會對其品牌形象、技術研發、商業合作等帶來不可估量的影響。
值得注意的是,這并非華為首次被指抄襲。例如,2024年華為的三折疊手機爆賣之時,就引發了韓國網友的不滿,認為其抄襲三星,聲稱三星手機才是折疊屏的創始者。
彼時,據@新浪科技報道,展會期間有媒體問及榮耀Magic V3和華為三折屏手機特別像,有人說是華為抄襲榮耀,也有人說榮耀率先拿到華為的圖紙。最后該事件也成了難被證實的羅生門。
無獨有偶,華為系汽車甚至智能駕駛在AEB(自動緊急制動)也曾陷入抄襲質疑中。最被普羅大眾所熟知的,還有華為高舉高打發布的鴻蒙系統。
雖然官方口口聲聲稱鴻蒙為華為原創、代碼原生的操作系統。但是關于其套殼安卓的爭議之聲卻不絕于耳。而對于其近年不斷公開宣稱的芯片自研技術,也有不少網友提出質疑。實際上,華為芯片的泰山架構并非如其宣傳所述是純粹自研,而是持續購買ARM V8、V9的底層授權。
結語
通過前文的分析不難看出,這場爭議暴露出的,是AI行業亟待建立參數開源與評估標準化機制。無論是從知識產權相關的法律法規層面,我國智能科技企業想要真正改變被海外企業“卡脖子”的命運,或許只有腳踏實地進行科學技術研究這條道路。
而通過華為不僅一次的陷入抄襲質疑也不難看出,盤古大模型陷入抄襲風波,不是華為第一次置身風口浪尖,也不會是最后一次。
俗話說,真理越辯越明。該事件的發生,也在警示人們,在AI行業高速發展的同時,尊重知識版權、合理合法開展行業競爭,才是技術強國的根本。
而華為作為國民級技術企業,更應在維護行業原創精神、尊重知識產權方面,做出榜樣、守住創新底線。期待華為能用實際行動,為自己正名。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.