經歷一天行業熱議后,華為AI大模型研究團隊如今終于回應盤古開源模型被質疑套殼抄襲爭議。
7月5日下午,華為旗下AI大語言模型盤古Pro MoE技術開發團隊“諾亞方舟實驗室”發布了一份聲明,稱盤古 Pro MoE開源模型是基于昇騰硬件平臺開發、訓練的基礎大模型,并非基于其他廠商模型增量訓練而來。
“我們注意到近期開源社區及網絡平臺關于盤古大模型開源代碼的討論。盤古 Pro MoE 開源模型是基于昇騰硬件平臺開發、訓練的基礎大模型,并非基于其他廠商模型增量訓練而來,在架構設計、技術特性等方面做了關鍵創新,是全球首個面向昇騰硬件平臺設計的同規格混合專家模型,創新性地提出了分組混合專家模型(MoGE)架構,有效解決了大規模分布式訓練的負載均衡難題,提升訓練效率。其他技術特性創新,請參考昇騰生態競爭力系列技術報告披露內容。”華為盤古團隊表示。
盤古團隊指出,“盤古 Pro MoE 開源模型部分基礎組件的代碼實現參考了業界開源實踐,涉及其他開源大模型的部分開源代碼。我們嚴格遵循開源許可證的要求,在開源代碼文件中清晰標注開源代碼的版權聲明。這不僅是開源社區的通行做法,也符合業界倡導的開源協作精神。”
盤古Pro MoE技術開發團隊強調,團隊始終堅持開放創新,尊重第三方知識產權,同時提倡包容、公平、開放、團結和可持續的開源理念。感謝全球開發者與合作伙伴對盤古大模型的關注和支持,團隊高度重視開源社區的建設性意見。希望通過盤古大模型開源,與志同道合的伙伴一起,探索并不斷優化模型能力,加速技術突破與產業落地。
據悉,諾亞方舟實驗室是華為公司于2012年設立的人工智能研究機構,聘用全球科研人員從事基礎研究。該實驗室通過遷移學習等技術創新,為盤古大模型等重大項目提供核心算法支持。目前,諾亞方舟實驗室主要負責華為盤古大語言模型(LLM)系列研發工作。
2021年,華為云發布了盤古系列預訓練大模型,包括NLP(自然語言)大模型、CV(視覺)大模型、科學計算大模型。
今年6月21日,華為云發布盤古大模型5.0,包含不同參數規格的模型,如十億級參數的Pangu E系列可支撐手機、PC等端側的智能應用;百億級參數的Pangu P系列,適用于低時延、低成本的推理場景;以及千億級參數的Pangu U系列、萬億級參數的Pangu S系列超級大模型等,幫助企業更好地在全場景應用AI技術。
6月30日,華為公司宣布開源盤古70億參數的稠密模型、盤古Pro MoE 720億參數的混合專家模型和基于昇騰的模型推理技術,并對外公布相關研究論文。對此,華為表示,此舉是華為踐行昇騰生態戰略的又一關鍵舉措,推動大模型技術的研究與創新發展,加速推進人工智能在千行百業的應用與價值創造。
但隨后,華為盤古Pro MoE模型被質疑套殼抄襲阿里云通義千問Qwen-2.5 14B模型。
7月4日,一項發布于GitHub的研究指出,華為盤古Pro MoE 模型(總參數720億)采用了LLM-Fingerprint(模型指紋技術),與阿里通義千問Qwen-2.5 14B模型的注意力參數分布存在高度相似性,平均相關性達0.927(接近完全一致的1.0),顯著超出模型間正常差異范圍,并指向“非獨立開發”的可能性。
作者自稱是哥斯達黎加大學的韓國學生。他在文中指出,盤古開源代碼文件中發現標注“Copyright 2024 The Qwen team, Alibaba Group”,被質疑復制阿里代碼時未刪除版權聲明。
截至發稿前,上述GitHub庫已經刪除。
對此,華為諾亞方舟實驗室在最新聲明中否認抄襲指控,并稱此為引用開源組件,并進行了合規標注,符合開源協議要求。
該事件在過去一天引起廣泛關注,社交平臺上有很多討論。知乎上多篇帖文指出,這個GitHub作者將大語言模型的每個transformer層的QKVO參數的標準差組合在一起形成特征向量,作者把這個模型叫做“指紋”,然后作者根據模型指紋計算大語言模型之間的距離,將其作為相似度。但這種邏輯方法不能衡量模型的相似度,而且本身使用參數標準差來判定并非科學手段。
截至發稿前,阿里Qwen方面暫時沒有聲明回應。但筆者了解到,多個大廠AI研究團隊都在關注此事進展。
抄襲事件再次暴露出AI大模型開源定義模糊、協議規則與法律界定部分仍比較“模糊”、開源的模型與代碼協議較為混亂等問題。
普遍而言,開源并不代表沒有版權,任何第三方使用都應該遵循其開源許可協議,如果企業需要用開源代碼進行商業化,需要與開源項目所有者進行授權或提交一定的費用。而在法律層面上,大模型所有者可以通過專利、商標、版權等方式保護自己的大模型知識產權。
多位開源行業專家曾對筆者表示,使用開源項目主要關注兩點:一是要聲明原作者是誰,你用的是哪個項目,而且要遵循開源項目里的開源協議、作者聲明,不能修改且不能刪除;二是關注項目的商業化界限,有些項目可用于商業化,還有一些項目不允許商業化、二次開發等,這需要開發者重新溝通和評估。
在此之前,零一萬物開源大模型Yi-34B被質疑使用Meta LIama開源模型架構,斯坦福大學的Llama3-V項目曾套殼面壁智能研發的MiniCPM-Llama3-V 2.5、等事件,均引發開發者群體的關注。
未知資本常務董事william wong曾表示,很多初創公司后臺接入ChatGPT,前端做了個UI設計就上架蘋果商店鼓吹自己在做生成式AI創業了,他認為這種生成式AI項目沒有技術壁壘和商業邏輯,只是“蹭熱度”。
但隨著今年開源AI模型DeepSeek-R1/V3風靡全球,自研底座大模型技術成本較高,很多AI模型和應用背后都有DeepSeek身影。因此,未來如何定義好開源AI模型邊界,讓開源技術更加健康有序發展,仍是行業亟待解決的重要課題。
據華為云稱,過去一年中,盤古大模型已經在30多個行業、400多個場景中落地,在政務、金融、制造、醫藥研發、煤礦、鋼鐵、鐵路、自動駕駛、工業設計、建筑設計、氣象等領域發揮巨大價值。(本文首發于鈦媒體App,作者|林志佳,編輯|蓋虹達)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.