近日,一項發布于 GitHub 與 arXiv 的研究引發業界熱議:華為推出的盤古大模型(Pangu Pro MoE)被發現與阿里巴巴達摩院發布的通義千問 Qwen-2.5 14B 模型在參數結構上“驚人一致”。
盤古模型的官方倉庫異常地包含了 Qwen 2024的許可證文件:Copyright 2024 The Qwen team, Alibaba Group and the HuggingFace Team. All rights reserved.
該研究使用最新的“LLM 指紋”技術,指出兩者之間在注意力權重輸出空間的相似性高達0.927,遠高于其他主流模型組合。
這一發現引發了有關“模型繼承”“換皮式訓練”甚至“抄襲”的廣泛討論。
模型“指紋”技術揭示潛在繼承關系:
這項研究來自上海大學的研究人員 Zhiguang Yang 和 Hanzhou Wu,論文題為《A Fingerprint for Large Language Models》,已公開在 arXiv 平臺。
作者提出了一種黑盒大模型指紋識別技術,即便無法訪問模型權重,也能通過 API 輸出(如 logits 或 top-k 概率)判斷模型之間是否存在歸屬或繼承關系。
研究團隊在 GitHub 項目 HonestAGI/LLM-Fingerprint 中對多個主流模型進行了比對,發現:
“盤古 Pangu Pro MoE 與 Qwen-2.5 14B 模型在注意力模塊中呈現 極高相似性 ,而這在其他模型對比中從未出現。”
該結果意味著,Pangu 很可能在 Qwen 的基礎上進行訓練或修改,而非“從零自主研發”。
QKV 偏差分析結果:
QKV 偏差分析顯示,盤古模型和 Qwen2.5-14B 在三種投影類型(Q、K、V)上均表現出驚人的相似性。
這兩個模型都表現出幾乎相同的模式,尤其是在早期層的特征峰值以及隨后的收斂行為方面。
鑒于 QKV 偏差是 Qwen 1代至2.5代的一個顯著設計特征,而大多數開源模型(包括 Qwen3)放棄了這種方法,這一點尤為重要。
詳細分析:
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.