99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

曝華為員工匿名用6000字控訴盤古大模型造假,華為被推至風口浪尖

0
分享至

華為研發的盤古大模型從一開始就輿論不斷,近期更是一些網傳的技術型人員直接用專業手段在各技術論壇發表華為造假的文章,由于大眾對這些技術存在盲區,無法表別真假,所以輿論并沒有那么強烈。

知道出現了一篇名為《盤古之殤:華為諾亞盤古大模型研發歷程的心酸與黑暗》的文章,作者匿名發表,自稱為華為員工,文章用近6000字爆料盤古開發的種種問題。

注明:作者也在其中先自證身份,但仍真假難辨,以下貼出全文,讓大家自編真假。文章較長,大家耐心觀看,內容爆料甚多。

各位好,

我是一名盤古大模型團隊的員工,華為諾亞方舟實驗室的員工。

首先為自證身份,列舉一些細節:

現諾亞主任,前算法應用部部長,后改名為小模型實驗室的主任王云鶴。前諾亞主任:姚駿(大家稱姚老師)。幾個實驗室主任:唐睿明(明哥,明隊,已離職),尚利峰,張維(維哥),郝建業(郝老師),劉武龍(稱呼為武龍所)等。其他骨干成員和專家陸續有很多人離職。

我們隸屬于“四野”這個組織。四野下屬有許多縱隊,基礎語言大模型是四縱。王云鶴的小模型是十六縱隊。我們參加過蘇州的集結,有各種月份的時間節點。在蘇州攻關會頒發任務令,需要在節點前達成目標。蘇州集結會把各地的人員都集中在蘇州研究所,平常住賓館,比如在甪直的酒店,與家人孩子天各一方。

在蘇州集結的時候周六默認上班,非常辛苦,不過周六有下午茶,有一次還有小龍蝦。在蘇州研究所的工位搬遷過一次,從一棟樓換到了另一棟。蘇州研究所樓棟都是歐式裝修,門口有大坡,里面景色很不錯。去蘇州集結一般至少要去一周,甚至更久,多的人甚至一兩個月都回不了家。

諾亞曾經傳說是研究型的,但是來了之后因為在四野做大模型項目,項目成員完全變成了交付型的,且充滿了例會,評審,匯報。很多時候做實驗都要申請。團隊需要對接終端小藝,華為云,ICT等諸多業務線,交付壓力不小。

諾亞研發的盤古模型早期內部代號叫做“盤古智子”,一開始只有內部需要申請試用的網頁版,到后續迫于壓力在Welink上接入和公測開放。

這些天發生關于質疑盤古大模型抄襲千問的事情鬧得沸沸揚揚。作為一個盤古團隊的成員,我最近夜夜輾轉反側,難以入眠。盤古的品牌受到如此大的影響,一方面,我自私的為我的職業發展擔憂,也為自己過去的努力工作感到不值。另一方面,由于有人開始揭露這些事情我內心又感到大快人心。在多少個日日夜夜,我們對內部某些人一次次靠著造假而又獲得了無數利益的行為咬牙切齒而又無能為力。這種壓抑和羞辱也逐漸消磨了我對華為的感情,讓我在這里的時日逐漸渾渾噩噩,迷茫無措,時常懷疑自己的人生和自我價值。

我承認我是一個懦弱的人,作為一個小小的打工人,我不僅不敢和王云鶴等內部手眼通天的人做對,更不敢和華為這樣的龐然大物做對。我很怕失去我的工作,畢竟我也有家人和孩子,所以我打心眼里很佩服揭露者。但是,看到內部還在試圖洗地掩蓋事實,蒙蔽公眾的時候,我實在不能容忍了。我也希望勇敢一次,順從自己本心。就算自損八百,我也希望能傷敵一千。我決定把我在這里的所見所聞(部分來自于同事口述)公布出來,關于盤古大模型的“傳奇故事”:

華為確實主要在昇騰卡上訓練大模型(小模型實驗室有不少英偉達的卡,他們之前也會用來訓練,后面轉移到昇騰)。曾經我被華為“打造世界第二選擇”的決心而折服,我本身也曾經對華為有深厚的感情。我們陪著昇騰一步步摸爬滾打,從充滿bug到現在能訓出模型,付出了巨大的心血和代價。

最初我們的算力非常有限,在910A上訓練模型。那會只支持fp16,訓練的穩定性遠不如bf16。盤古的moe開始很早,23年就主要是訓練38Bmoe模型和后續的71B dense模型。71B的dense模型通過擴增變成了第一代的135Bdense模型,后面主力模型也逐漸在910B上訓練。

71B和135B模型都有一個巨大的硬傷就是tokenizer。當時使用的tokenizer編碼效率極低,每個單個的符號,數字,空格,乃至漢字都會占用一個token。可想而知這會非常浪費算力,且使得模型的效果很差。這時候小模型實驗室正好有個自己訓的詞表。姚老師當時懷疑是不是模型的tokenizer不好(雖然事后來看,他的懷疑是無疑正確的),于是就決定,讓71B和135B換tokenizer,因為小模型實驗室曾經嘗試過。團隊縫合了兩個tokenizer,開始了tokenizer的更換。71B模型的更換失敗了,而135B因為采用了更精細的embedding初始化策略,續訓了至少1T的數據后詞表總算更換成功,但可想而知,效果并不會變好。

于此同期,阿里和智譜等國內其他公司在GPU上訓練,且已經摸索出了正確的方法,盤古和競品的差距越來越大。內部一個230B從頭訓練的dense模型又因為各種原因訓練失敗,導致項目的狀況幾乎陷入絕境。面臨幾個節點的壓力以及內部對盤古的強烈質疑時,團隊的士氣低迷到了極點。團隊在算力極其有限的時候,做出了很多努力和掙扎。比如,團隊偶然發現當時的38B moe并沒有預期moe的效果。于是去掉了moe參數,還原為了13B的dense模型。由于38B的moe源自很早的pangu alpha 13B,架構相對落后,團隊進行了一系列的操作,比如切換絕對位置編碼到rope,去掉bias,切換為rmsnorm。同時鑒于tokenizer的一些失敗和換詞表的經驗,這個模型的詞表也更換為了王云鶴的小模型實驗室7B模型所使用的詞表。后面這個13B模型進行了擴增續訓,變成了第二代38B dense模型(在幾個月內這個模型都是主要的盤古中檔位模型),曾經具有一定的競爭力。但是,由于更大的135B模型架構落后,且更換詞表模型損傷巨大(后續分析發現當時更換的縫合詞表有更嚴重的bug),續訓后也與千問等當時國內領先模型存在很大差距。這時由于內部的質疑聲和領導的壓力也越來越大。團隊的狀態幾乎陷入了絕境。

在這種情況下,王云鶴和他的小模型實驗室出手了。他們聲稱是從舊的135B參數繼承改造而來,通過訓練短短的幾百B數據,各項指標平均提升了十個點左右。實際上,這就是他們套殼應用到大模型的第一次杰作。華為的外行領導內行,使得領導完全對于這種扯淡的事情沒有概念,他們只會覺得肯定是有什么算法創新。經過內部的分析,他們實際上是使用 Qwen 1.5 110B續訓而來,通過加層,擴增ffn維度,添加盤古pi論文的一些機制得來,湊夠了大概135B的參數。實際上,舊的135B有107層,而這個模型只有82層,各種配置也都不一樣。新的來路不明的135B訓練完很多參數的分布也和Qwen 110B幾乎一模一樣。連模型代碼的類名當時都是Qwen,甚至懶得改名。后續這個模型就是所謂的135B V2。而這個模型當時也提供給了很多下游,甚至包括外部客戶。

這件事對于我們這些認真誠實做事的同事們帶來了巨大的沖擊,內部很多人其實都知道這件事,甚至包括終端和華為云。我們都戲稱以后別叫盤古模型了,叫千古吧。當時團隊成員就想向bcg舉報了,畢竟這已經是重大的業務造假了。但是后面據說被領導攔了下來,因為更高級別的領導(比如姚老師,以及可能熊總和查老)其實后面也知道了,但是并不管,因為通過套殼拿出好的結果,對他們也是有利的。這件事使得當時團隊幾位最強的同事開始心灰意冷,離職跑路也逐漸成為掛在嘴邊的事。

此時,盤古似乎迎來了轉機。由于前面所述的這些盤古模型基本都是續訓和改造而來,當時諾亞完全沒有掌握從頭訓練的技術,何況還是在昇騰的NPU上進行訓練。在當時團隊的核心成員的極力爭取下,盤古開始了第三代模型的訓練,付出了巨大的努力后,在數據架構和訓練算法方面都與業界逐漸接軌,而這其中的艱辛和小模型實驗室的人一點關系都沒有。

一開始團隊成員毫無信心,只從一個13B的模型開始訓練,但是后面發現效果還不錯,于是這個模型后續再次進行了一次參數擴增,變成了第三代的38B,代號38B V3。想必很多產品線的兄弟都對這個模型很熟悉。當時這個模型的tokenizer是基于llama的詞表進行擴展的(也是業界常見的做法)。而當時王云鶴的實驗室做出來了另一個詞表(也就是后續pangu系列的詞表)。當時兩個詞表還被迫進行了一次賽馬,最終沒有明顯的好壞結論。于是,領導當即決定,應該統一詞表,使用王云鶴他們的。于是,在后續從頭訓練的135B V3(也就是對外的Pangu Ultra),便是采用了這個tokenizer。這也解釋了很多使用我們模型的兄弟的疑惑,為什么當時同為V3代的兩個不同檔位的模型,會使用不同的tokenizer。

我們打心眼里覺得,135B V3是我們四縱團隊當時的驕傲。這是第一個真正意義上的,華為全棧自研,正經從頭訓練的千億級別的模型,且效果與24年同期競品可比的。寫到這里我已經熱淚盈眶,太不容易了。當時為了穩定訓練,團隊做了大量實驗對比,并且多次在模型梯度出現異常的時候進行及時回退重啟。這個模型真正做到了后面技術報告所說的訓練全程沒有一個loss spike。我們克服了不知道多少困難,我們做到了,我們愿用生命和榮譽保證這個模型訓練的真實性。多少個凌晨,我們為了它的訓練而不眠。在被內部心聲罵的一文不值的時候,我們有多么不甘,有多少的委屈,我們挺住了。

我們這幫人是真的在為打磨國產算力底座燃燒自己的青春啊……客居他鄉,我們放棄了家庭,放棄了假期,放棄了健康,放棄了娛樂,拋頭顱灑熱血,其中的艱辛與困苦,寥寥數筆不足以概括其萬一。在各種動員大會上,當時口號中喊出的盤古必勝,華為必勝,我們心里是真的深深被感動。

然而,我們的所有辛苦的成果,經常被小模型實驗室輕飄飄的拿走了。數據,直接要走。代碼,直接要走,還要求我們配合適配到能一鍵運行。我們當時戲稱小模型實驗室為點鼠標實驗室。我們付出辛苦,他們取得榮耀。果然應了那句話,你在負重前行是因為有人替你歲月靜好。在這種情況下,越來越多的戰友再也堅持不下去了,選擇了離開??吹缴磉吥切﹥炐愕耐乱粋€個離職,我的內心又感嘆又難過。在這種作戰一樣的環境下,我們比起同事來說更像是戰友。他們在技術上也有無數值得我學習的地方,堪稱良師??吹剿麄內チ酥T如字節Seed,Deepseek,月之暗面,騰訊和快手等等很多出色的團隊,我打心眼里為他們高興和祝福,脫離了這個辛苦卻骯臟的地方。我至今還對一位離職同事的話記憶猶新,ta說:“來這里是我技術生涯中的恥辱,在這里再呆每一天都是浪費生命”。話雖難聽卻讓我無言以對。我擔心我自己技術方面的積累不足,以及沒法適應互聯網公司高淘汰的環境,讓我多次想離職的心始終沒有邁出這一步。

盤古除了dense模型,后續也啟動了moe的探索。一開始訓練的是一個224B的moe模型。而與之平行的,小模型實驗室也開啟了第二次主要的套殼行動(次要的插曲可能還包括一些別的模型,比如math模型),即這次流傳甚廣的pangu pro moe 72B。這個模型內部自稱是從小模型實驗室的7B擴增上來的(就算如此,這也與技術報告不符,何況是套殼qwen 2.5的14b續訓)。還記得他們訓了沒幾天,內部的評測就立刻追上了當時的38B V3。AI系統實驗室很多兄弟因為需要適配模型,都知道他們的套殼行動,只是迫于各種原因,無法伸張正義。實際上,對于后續訓了很久很久的這個模型,Honestagi能夠分析出這個量級的相似性我已經很詫異了,因為這個模型為了續訓洗參數,所付出的算力甚至早就足夠從頭訓一個同檔位的模型了。聽同事說他們為了洗掉千問的水印,采取了不少辦法,甚至包括故意訓了臟數據。這也為學術界研究模型血緣提供了一個前所未有的特殊模范吧。以后新的血緣方法提出可以拿出來溜溜。

24年底和25年初,在Deepseek v3和r1發布之后,由于其驚艷的技術水平,團隊受到了巨大的沖擊,也受到了更大的質疑。于是為了緊跟潮流,盤古模仿Deepseek的模型尺寸,開啟了718B moe的訓練。這個時候,小模型實驗室再次出手了。他們選擇了套殼Deepseekv3續訓。他們通過凍住Deepseek加載的參數,進行訓練。連任務加載ckpt的目錄都是deepseekv3,改都不改,何其囂張?與之相反,一些有真正技術信仰的同事,在從頭訓練另一個718B的moe。但其中出現了各種各樣的問題。但是很顯然,這個模型怎么可能比直接套殼的好呢?如果不是團隊leader堅持,早就被叫停了。

華為的流程管理之繁重,嚴重拖累了大模型的研發節奏,例如版本管理,模型血緣,各種流程化,各種可追溯。諷刺的是,小模型實驗室的模型似乎從來不受這些流程的約束,想套殼就套殼,想續訓就續訓,算力源源不斷的伸手拿走。這種強烈到近乎魔幻的對比,說明了當前流程管理的情況:只許州官放火,不許百姓點燈。何其可笑?何其可悲?何其可惡?何其可恥!

HonestAGI的事情出來后,內部讓大家不停的研討分析,如何公關和“回應”。誠然,這個原文的分析也許不夠有力,給了王云鶴與小模型實驗室他們狡辯和顛倒黑白的機會。為此,這兩天我內心感到作嘔,時時懷疑自己的人生意義以及蒼天無眼。我不奉陪了,我要離職了,同時我也在申請從盤古部分技術報告的作者名單中移除。曾經在這些技術報告上署名是我一生都無法抹除的污點。當時我沒想到,他們竟然猖狂到敢開源。我沒想到,他們敢如此愚弄世人,大肆宣發。當時,我也許是存了僥幸心理,沒有拒絕署名。我相信很多扎實做事的戰友,也只是被迫上了賊船,或者不知情。但這件事已經無法挽回,我希望我的余生能夠堅持扎實做真正有意義的事,為我當時的軟弱和不堅定贖罪。

深夜寫到這里,我已經淚流滿面,泣不成聲。還記得一些出色的同事離職時,我苦笑問他們要不要發個長長的心聲慣例帖,揭露一下現狀。對方說:不了,浪費時間,而且我也怕揭露出來你們過的更糟。我當時一下黯然神傷,因為曾經共同為了理想奮斗過的戰友已經徹底對華為徹底灰心了。當時大家調侃,我們用著當年共產黨的小米加步槍,組織卻有著堪比當年國民黨的作風。

曾幾何時,我為我們用著小米加步槍打敗洋槍洋炮而自豪。

現在,我累了,我想投降。

其實時至今日,我還是真心希望華為能認真吸取教訓,能做好盤古,把盤古做到世界一流,把昇騰變成英偉達的水平。內部的劣幣驅逐良幣,使得諾亞乃至華為在短時間內急劇流失了大量出色的大模型人才。相信他們也正在如Deepseek等各個團隊閃耀著,施展著他們的抱負才華,為中美在AI的激烈競賽中奉獻力量。我時常感嘆,華為不是沒有人才,而是根本不知道怎么留住人才。如果給這些人合適的環境,合適的資源,更少的枷鎖,更少的政治斗爭,盤古何愁不成?

最后:我以生命,人格和榮譽發誓,我寫的以上所有內容均為真實(至少在我有限的認知范圍內)。我沒有那么高的技術水平以及機會去做詳盡扎實的分析,也不敢直接用內部記錄舉證,怕因為信息安全抓到。但是我相信我很多曾經的戰友,會為我作證。在華為內部的兄弟,包括我們曾經服務過的產品線兄弟們,相信本文的無數細節能和你們的印象對照,印證我的說法。你們可能也曾經被蒙騙,但這些殘酷的真相不會被塵封。我們奮戰過的痕跡,也不應該被扭曲和埋葬。

寫了這么多,某些人肯定想把我找出來,抹殺掉。公司搞不好也想讓我噤聲乃至追責。如果真的這樣,我,乃至我的家人的人身乃至生命安全可能都會受到威脅。為了自我保護,我近期每天會跟大家報平安。

如果我消失了,就當是我為了真理和理想,為了華為乃至中國能夠更好地發展算力和AI而犧牲了吧,我愿埋葬于那片曾經奮斗過的地方。

諾亞,再見

2025年7月6日凌晨 寫于深圳

以下是部分網友對文章內容的評價,為了不必要的麻煩做了匿名處理。







聲明:為真實性,全文為復制對方的原文,原文中包括標題存在7處錯別字,系統提出需要糾正,但酒客為了還原原文真實狀態而選擇不糾正,只想把最真實的一面呈現給大家,不糾正會失去推薦度,可能很多人會看不到,在此說聲抱歉。



聲明:取材網絡,謹慎辨別

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
全球最美摩納哥王妃懷三胎,她入王室都是下嫁!

全球最美摩納哥王妃懷三胎,她入王室都是下嫁!

ChicMyGeek
2025-07-24 18:57:08
出場7分鐘!轟13分3板,球迷:2米20悍將能力不輸楊瀚森

出場7分鐘!轟13分3板,球迷:2米20悍將能力不輸楊瀚森

體育哲人
2025-07-24 21:47:10
不是不想生,是不能生!35歲馬曉梅被迫放棄生育,質疑她的人淚目

不是不想生,是不能生!35歲馬曉梅被迫放棄生育,質疑她的人淚目

一盅情懷
2025-07-24 11:41:50
停車場內比亞迪繞圈不止疑失控,成都警方:事情已處理;品牌方:正在核實

停車場內比亞迪繞圈不止疑失控,成都警方:事情已處理;品牌方:正在核實

大風新聞
2025-07-24 17:13:18
中國無可挑剔的5個景點,70歲之前一定要去一次!少一個都是遺憾

中國無可挑剔的5個景點,70歲之前一定要去一次!少一個都是遺憾

星說旅行時光
2025-07-24 11:05:00
抱歉!我只能這么說:中國礦業大學,大概率是跌停了!

抱歉!我只能這么說:中國礦業大學,大概率是跌停了!

勛哥教你填志愿
2025-07-24 12:04:42
“最牛星二代”廖凡,出道25年從不拼爹,妻子是周星馳的黃金搭檔

“最牛星二代”廖凡,出道25年從不拼爹,妻子是周星馳的黃金搭檔

溫讀史
2025-07-01 10:31:14
醫院骨科主任10年受賄1338萬元被公訴

醫院骨科主任10年受賄1338萬元被公訴

魯中晨報
2025-07-24 13:26:01
Goal:亞馬爾兩年從1米71長到1米81,21歲前可能還會發育長高

Goal:亞馬爾兩年從1米71長到1米81,21歲前可能還會發育長高

懂球帝
2025-07-24 00:45:28
印度空軍的“陣風”找殲10C報仇,四連墜!印度“陣風”神話破滅

印度空軍的“陣風”找殲10C報仇,四連墜!印度“陣風”神話破滅

阿芒娛樂說
2025-07-24 10:02:09
詹雯婷、陳建寧發聯合聲明,飛兒樂團6年官司終和解

詹雯婷、陳建寧發聯合聲明,飛兒樂團6年官司終和解

紅星新聞
2025-07-24 18:23:02
利物浦三叉戟VS阿森納三叉戟,誰更強?誰將成為新英超冠軍?

利物浦三叉戟VS阿森納三叉戟,誰更強?誰將成為新英超冠軍?

田先生籃球
2025-07-24 21:49:09
涉嫌嚴重違紀違法,江蘇一市兩人被查!

涉嫌嚴重違紀違法,江蘇一市兩人被查!

魯中晨報
2025-07-24 16:38:08
NBA新賽季實力榜公布 火箭第6/快船第7/勇士第9 湖人僅排名第11

NBA新賽季實力榜公布 火箭第6/快船第7/勇士第9 湖人僅排名第11

老王大話體育
2025-07-24 23:42:40
英超大結局?德轉預測簽伊薩克后的紅軍主力陣:索博&加克波替補

英超大結局?德轉預測簽伊薩克后的紅軍主力陣:索博&加克波替補

直播吧
2025-07-24 20:13:10
3.26億+2.89億+2.4億!NBA頂薪三巨頭遭圍剿,你們距離散伙不遠了

3.26億+2.89億+2.4億!NBA頂薪三巨頭遭圍剿,你們距離散伙不遠了

老梁體育漫談
2025-07-24 00:35:21
不查不知道,一查才發現!原來全紅嬋的復出,是國家隊下的一盤棋

不查不知道,一查才發現!原來全紅嬋的復出,是國家隊下的一盤棋

夢史
2025-07-24 08:49:22
云南人口拐點已現 旅居經濟成新增長極

云南人口拐點已現 旅居經濟成新增長極

西瓜要脆
2025-07-24 05:45:08
林建岳集團35億債務將到期,尋求援助半年未果,已抵押商場辦公樓

林建岳集團35億債務將到期,尋求援助半年未果,已抵押商場辦公樓

涵豆說娛
2025-07-24 14:14:58
委內瑞拉男籃主帥:中國男籃防守很強;杭州有很多美食

委內瑞拉男籃主帥:中國男籃防守很強;杭州有很多美食

懂球帝
2025-07-24 22:19:17
2025-07-25 00:36:49
清濱酒客 incentive-icons
清濱酒客
敘古今歷史,話世間百態
853文章數 735關注度
往期回顧 全部

科技要聞

京東美團“瘋搶”具身智能公司,要干什么

頭條要聞

媒體:泰柬邊境重燃戰火 在泰國產生了巨大的政治影響

頭條要聞

媒體:泰柬邊境重燃戰火 在泰國產生了巨大的政治影響

體育要聞

誰敢相信她45歲了?大女主從不受限

娛樂要聞

梓渝又翻車!正宮2號說他約P共同好友

財經要聞

牛市狂歡中,一大波減持公告來襲

汽車要聞

售10.98萬起 2026款吉利銀河E5煥新上市

態度原創

藝術
家居
親子
游戲
公開課

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

家居要聞

山水豪庭 自然靈動空間

親子要聞

暑假孩子抱著手機不撒手?醫生稱防控近視最重要的是戶外活動

殺戮空間3 M站開分69!輕松好玩但并未脫穎而出

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 柘荣县| 安国市| 雷山县| 枣庄市| 尖扎县| 大埔县| 临海市| 易门县| 吕梁市| 云和县| 金沙县| 仁怀市| 乌拉特后旗| 应城市| 琼结县| 武川县| 福贡县| 江西省| 香港 | 嵊州市| 探索| 合山市| 宣汉县| 靖远县| 泾阳县| 平塘县| 大渡口区| 宜都市| 金川县| 五原县| 宜春市| 南川市| 扎兰屯市| 岳阳县| 鄱阳县| 灵璧县| 萝北县| 泽州县| 岳阳县| 武隆县| 安吉县|