近日,一項(xiàng)發(fā)布于 GitHub 與 arXiv 的研究引發(fā)業(yè)界熱議:華為推出的盤(pán)古大模型(Pangu Pro MoE)被發(fā)現(xiàn)與阿里巴巴達(dá)摩院發(fā)布的通義千問(wèn) Qwen-2.5 14B 模型在參數(shù)結(jié)構(gòu)上“驚人一致”。
盤(pán)古模型的官方倉(cāng)庫(kù)異常地包含了 Qwen 2024的許可證文件:Copyright 2024 The Qwen team, Alibaba Group and the HuggingFace Team. All rights reserved.
該研究使用最新的“LLM 指紋”技術(shù),指出兩者之間在注意力權(quán)重輸出空間的相似性高達(dá)0.927,遠(yuǎn)高于其他主流模型組合。
這一發(fā)現(xiàn)引發(fā)了有關(guān)“模型繼承”“換皮式訓(xùn)練”甚至“抄襲”的廣泛討論。
模型“指紋”技術(shù)揭示潛在繼承關(guān)系:
這項(xiàng)研究來(lái)自上海大學(xué)的研究人員 Zhiguang Yang 和 Hanzhou Wu,論文題為《A Fingerprint for Large Language Models》,已公開(kāi)在 arXiv 平臺(tái)。
作者提出了一種黑盒大模型指紋識(shí)別技術(shù),即便無(wú)法訪問(wèn)模型權(quán)重,也能通過(guò) API 輸出(如 logits 或 top-k 概率)判斷模型之間是否存在歸屬或繼承關(guān)系。
研究團(tuán)隊(duì)在 GitHub 項(xiàng)目 HonestAGI/LLM-Fingerprint 中對(duì)多個(gè)主流模型進(jìn)行了比對(duì),發(fā)現(xiàn):
“盤(pán)古 Pangu Pro MoE 與 Qwen-2.5 14B 模型在注意力模塊中呈現(xiàn) 極高相似性 ,而這在其他模型對(duì)比中從未出現(xiàn)。”
該結(jié)果意味著,Pangu 很可能在 Qwen 的基礎(chǔ)上進(jìn)行訓(xùn)練或修改,而非“從零自主研發(fā)”。
QKV 偏差分析結(jié)果:
QKV 偏差分析顯示,盤(pán)古模型和 Qwen2.5-14B 在三種投影類(lèi)型(Q、K、V)上均表現(xiàn)出驚人的相似性。
這兩個(gè)模型都表現(xiàn)出幾乎相同的模式,尤其是在早期層的特征峰值以及隨后的收斂行為方面。
鑒于 QKV 偏差是 Qwen 1代至2.5代的一個(gè)顯著設(shè)計(jì)特征,而大多數(shù)開(kāi)源模型(包括 Qwen3)放棄了這種方法,這一點(diǎn)尤為重要。
詳細(xì)分析:
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.