作者|冬梅
昨天,WizardLM 項目創建者徐燦在 X 平臺上發文表示,他和團隊離開微軟,加入了騰訊的 AI 開發組織——混元(Hunyuan)。
“我們將繼續我們的使命,推動 LLM 培訓技術的發展,并構建更好的 AI 模型。”
在過去幾個月中,混元發布了一系列 AI 模型,包括視頻生成器和 3D 物體生成器。
事實上,WizardLM 甚至也已發布一款混元模型:Hunyuan-TurboS 0416。在一篇 X 帖子中,自稱 WizardLM 團隊聯合創建者Qingfeng Sun表示,Hunyuan-TurboS 0416 的表現優于谷歌 Gemma 3 系列等“開放”AI 模型。
據知情人士向 AI 前線獨家透露,WizardLM 團隊有 6 名主力成員,大部分已經離開微軟。
有趣的是,AI 前線留意到,WizardLM 宣布離開的時間點比較微妙,因為正值微軟被曝出將在全球范圍內裁員 3%,也就是大約 6000 多人會受到影響,外界猜測或與 WizardLM 團隊離開與微軟的裁員有關。
但據知情人士透露,WizardLM 團隊核心人物 Can Xu 和 Qingfeng Sun 早已離開微軟,只是近日才將消息公布出來,他們的離開與微軟裁員無關。
知情人士還透露,團隊也會采用遠程辦公的方式協同工作,每個人獨立負責各自部分的研發。
WizardLM 團隊什么來頭?
WizardLM 團隊成立于 2023 年年初,專注于高級大語言模型的開發。
在 HuggingFace 上顯示,WizardLM 團隊目前共有 6 位主要成員,包括Qingfeng Sun、Can Xu、Ziyang Luo 等。
Qingfeng Sun 曾任微軟人工智能研究科學家, 2020 年畢業于北京大學,獲碩士學位。他與 Can Xu 等人共同創立了 WizardLM 項目,該項目貢獻了先進的 LLM WizardLM、WizardCoder 和 WizardMath,他還創建了被廣泛采用的方法 Evol-Instruct、RLEIF 和 Arena-Learning。
Can Xu 曾任微軟人工智能高級研究科學家,為微軟小冰、必應、WizardLM 和 Phi-3 等項目貢獻了核心技術。他畢業于四川大學計算機專業,獲學士學位;后又在北京大學計算機技術專業畢業獲碩士學位(導師:俞勁松)。他的研究興趣包括大型語言模型、對話系統和信息檢索。
Can Xu 領導了 WizardLM 系列模型的研發:WizardLM 1&2、WizardCoder、WizardMath,在 NeurIPS、ACL、ICLR、EMNLP、AAAI 等頂級國際會議上發表論文 40 多篇,在 Google Scholar 上被引用超過 3300 次。
2023 年 4 月,北京大學與微軟 WizardLM 研究團隊合作,提出了 Evol-Instruct,這是一種利用大語言模型生成大量不同復雜程度指令數據的新穎方法。在人工評估中,該團隊最終生成的 WizardLM 模型生成的指令被評為優于人工創建的指令數據集。
那當時參與這個項目的還有誰?還有姜大昕等人。
尤其值得一提的是姜大昕,他于 2007 年加入微軟亞洲研究院任首席研究員,后來又曾任微軟全球副總裁、微軟亞洲互聯網工程研究院(STCA)副院長和首席科學家。2023 年,他在上海創立了階躍星辰智能科技有限公司,任法定代表人、CEO。
基于 Evol-Instruct,2023 年 5 月 26 日,微軟和北京大學的研究團隊發布了 WizardLM 大語言模型,這個大語言模型能夠根據復雜指令生成文本。它使用了一個名為 Evol-Instruct 的算法來生成和改寫指令數據,從而提高了指令的復雜度和多樣性。當時 WizardLM 共有三個版本:7B、13B 和 30B。
WizardLM 的核心算法是指一種稱為 Evol-Instruct 的指令進化論。與手動創建、收集、篩選高質量指令數據的巨大耗費不同,Evol-Instruct 是一種使用大語言模型而非人類創建大量不同復雜度級別的指令數據的高效途徑。
Evol-Instruct 的指令進化論 Evol-Instruct 算法從一個簡單的初始指令開始, 然后隨機選擇深度進化或廣度進化,前者將簡單指令升級為更復雜的指令,而后者則在相關話題下創建新指令(以增加多樣性)。以上兩種進化操作是通過若干特定的 Prompt 提示大語言模型來實現。
研究人員采用指令過濾器來篩選出失敗的指令,這被稱為淘汰進化。論文中,給出了 4 個重要的實驗現象:
人類評估結果證明,由 Evol-Instruct 進化生成的機器指令質量整體優于人類指令(ShareGPT)。
高難度指令的處理能力:人類評估者認為此時 WizardLM 的響應比 ChatGPT 更受歡迎。
代碼生成與補全能力:在 HumanEval 評估中,WizardLM-30B 同時擊敗了 code-cushman-001 與目前最強代碼開源模型 StarCoder 。這證明了 Llama 系列預訓練模型的代碼能力并不差,在高效的對齊算法加持下,依然可以獲得優異的表現。
WizardLM-13B 同時在 AlpacaEval 與 Evol-Instruct 測試集的 GPT-4 評估中,獲得了高度一致的 ChatGPT 能力占比(前者為 87% ChatGPT,后者為 89% ChatGPT)。
當時 WizardLM-30B,在 Evol-Instruct 測試集上取得了 97.8% 的 ChatGPT 分數占比。
曾經 WizardLM 模型有多強呢?
在 2023 年 UC 伯克利主導的「LLM 排位賽」中,WizardLM 甚至“殺入”全球大語言模型榜單的全球前四,前三位分別是 GPT-4、Claude 和 ChatGPT,WizardLM 也是華人團隊開源模型第一名。
WizardLM 研究團隊的主要目標是增強 AI 模型理解和生成類似人類文本的能力,從而改進聊天機器人、翻譯服務和代碼生成工具等應用。
2024 年 4 月,WizardLM-2 系列模型問世,旨在在性能和效率方面與現有模型相媲美。 這些模型旨在處理復雜的任務,包括多語言翻譯、推理和基于代理的交互。
WizardLM-2 系列包含多個型號,主要是:
WizardLM-2 8x22B:專為處理高度復雜任務而設計的先進模型,據團隊稱,這款模型具有與領先的專有模型相媲美的競爭性能。
WizardLM-2 70B:專注于頂級推理能力,更適合用于需要深入理解和分析的任務場景中
WizardLM-2 7B:旨在以更快的處理時間提供高性能,適用于速度至關重要的應用。
這些模型使用 MT-Bench 和人類偏好評估等基準進行評估,其性能接近最先進的專有模型。
值得一提的是,這三款模型同樣都是開源的,WizardLM-2 8x22B 和 WizardLM-2 7B 遵循的許可證為 Apache2.0。WizardLM-2 70B 遵循的許可證為 Llama-2-Community。
盡管取得了成就,WizardLM 團隊仍面臨挑戰,尤其是在模型部署方面。
微軟在公開發布了 WizardLM-2 模型后一天,就撤回了該系列模型,微軟稱這些模型就因缺乏全面的“毒性測試”。“毒性測試”是確保 AI 輸出不會產生有害或偏見內容的標準程序。
WizardLM 團隊隨后在 X 上的一篇帖子中寫道,“我們不小心遺漏了模型發布流程中的一項必要環節——毒性測試。目前我們正在快速完成這項測試,并將盡快重新發布我們的模型。”
可此番刪除來得有點晚,已經有用戶迅速重新上傳了原版 WizardLM-2 模型以及經過微調的定制化版本。
與此同時,Hugging Face 公司 CEO Clément Delangue 則發表一篇文章表示,微軟此舉不僅徹底移除了其他 WizardLM 模型,還破壞了多個開源項目,損害到 Hugging Face 社區的利益。
Delangue 當時寫道,“WizardLM 模型的月均下載量超過十萬次。我們對由此帶來的不便深表歉意,且正在努力與作者團隊及微軟取得聯系,以期為社區成員找到好的解決辦法。”
對雙方意味著什么?
上個月,騰訊宣布對混元 AI 模型的研發架構進行重大重組,聚焦“算力、算法、數據”三大核心要素,并計劃進一步加大該領域的研發投入。此次調整旨在優化人工智能技術的研發效率,強化大模型領域的競爭力。
作為重組的關鍵舉措,騰訊新成立兩大技術部門:大型語言模型團隊和多模態模型團隊。前者專注于自然語言處理技術的突破,推動對話、文本生成等 AI 能力的提升;后者則致力于整合文本、圖像、視頻等多種數據類型,打造更智能的跨模態 AI 系統。
同時,騰訊加強了底層數據基礎設施的建設,專門設立大模型數據管理部門,以優化數據采集、清洗和標注流程,為大模型訓練提供高質量數據支持。
此外,公司還成立了機器學習平臺部門,目標是為 AI 模型的訓練、部署和運營提供一體化平臺,提升研發效率并降低技術落地門檻。
騰訊在 AI 領域的野心已經非常明顯。
此次收購與騰訊在 AI 領域的大力投資相契合,騰訊聲稱 AI 為其 2025 年第一季度 8% 的增長做出了貢獻。騰訊表示,計劃今年投入 900 億元人民幣(約合 124.9 億美元)用于資本支出,其中大部分將用于推動其 AI 業務的發展。
而 WizardLM 轉投騰訊之后,應該也會繼續延續之前的角色定位:開發及發布 AI 模型。
網友怎么看?
WizardLM 團隊宣布轉入騰訊混元事業部,團隊成員在社交媒體平臺上公開分享了這一消息,隨后引發了網友熱議。
在 X 上,多數網友對于 WizardLM 團隊的新歸屬表示祝賀,認為騰訊對于 WizardLM 團隊來說是比微軟更好的選擇,因為微軟在大模型研發上已經有些力不從心了。
有人肯定了 WizardLM 團隊取得的成就,認為小型 WizardLM 7B 是最好的模型之一。
“WizardLM 7B 是我最早嘗試的型號之一,可能是 GGML 時代的第一個。它永遠在我心中占據著特殊的位置,我希望他們能在新公司的庇護下繼續開發它。”
特別提示:這里的 GGML 指的是一個用于在本地設備(如 CPU 或低功耗硬件)上高效運行大型語言模型的量化文件格式和推理框架。
在 Reddit 上,有用戶認為 WizardLM 團隊的離開對于微軟來說是一大損失:
“我記得他們發布的某個版本沒有經過某種安全測試,微軟在經歷了 AI 失敗之后,他們非常重視這個問題。即使是這樣,我認為微軟失去一支可能在未來大放異彩的團隊是很可惜的。”
也有用戶認為,WizardLM 團隊從開源領域中消失是整個行業的遺憾:
“多么強大的團隊從開源領域中消失真是可惜,因為混云模型是閉源的。”
https://www.techinasia.com/news/tencent-restructures-ai-unit-adds-teams-foundational-models
https://techcrunch.com/2025/05/13/tencent-hires-wizardlm-team-a-microsoft-ai-group-with-an-odd-history/
https://huggingface.co/WizardLMTeam
https://www.microsoft.com/en-us/research/publication/wizardlm-empowering-large-language-models-to-follow-complex-instructions/?locale=zh-cn
https://tatsu-lab.github.io/alpaca_eval/
聲明:本文為 AI 前線整理,不代表平臺觀點,未經許可禁止轉載
AICon 2025 強勢來襲,5 月上海站、6 月北京站,雙城聯動,全覽 AI 技術前沿和行業落地。大會聚焦技術與應用深度融合,匯聚 AI Agent、多模態、場景應用、大模型架構創新、智能數據基建、AI 產品設計和出海策略等話題。即刻掃碼購票,一同探索 AI 應用邊界!!
今日薦文
你也「在看」嗎?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.