關注飛總聊IT,了解IT行業(yè)的方方面面。
今天看到一篇文章,非常的有意思,說的就是阿里的通義千問。
大模型領域,關于大模型到底是不是能推理,還是純粹的記住了答案然后背出來,一直都有一些不同的觀點。
通義千問這個大模型很有意思,之前有一些論文用強化學習通義千問的大模型,比如DeepSeek就干過。
一些研究人員發(fā)現(xiàn),在強化學習里面,對通義千問的大模型,哪怕給予非常弱,甚至是很隨機的獎勵,通義千問的數(shù)學推理能力都蹭蹭蹭的上漲。
這個研究,如果把大模型換成Llama,那么結果就不行了。
有些研究人員覺得,這是因為Llama這個基礎模型太拉胯了,強化學習也拯救不了。通義千問就不一樣了。
然而,最新的精心構建的冊數(shù)發(fā)現(xiàn),對于已經有的測試集,比如說MATH-500,通義千問可以非常輕松的把整個題一字不差的補全,只要開始給一點點題目。這個準確率超過了50%。
而Llama 3系列的模型準確率卻只有不到4%。
但是一旦把測試集換成了比通義千問模型發(fā)布更晚的測試集,通義千問補全題干的能力立刻下降到了約等于0%。這就和Llama沒什么區(qū)別了。
所以顯而易見,通義千問的訓練里面,數(shù)據(jù)污染,應該是跑不掉了。
文章作者還測試了各種隨機算術題。然后,通義千問的表現(xiàn)就很不一樣了。
正確的獎勵信號,的確可以提升模型的推理能力。而錯誤或者隨機的獎勵信號,訓練和Llama一樣,立刻垮掉。
所以其實并不存在著Llama的基礎模型太差,而通義千問的基礎模型比較好,所以哪怕只是隨機或者錯誤的獎勵信號,也能提高基礎模型的推理能力。
有的只是,模型的訓練數(shù)據(jù)不知道怎么就污染了模型,所以模型變成了針對特定測試集的背答案。
文章是:Reasoning or Memorization? Unreliable Results of Reinforcement Learning Due to Data Contamination。
具體文章地址在: https://arxiv.org/abs/2507.10532
我肯定不是大模型領域的專家,看起這方面的文章來,也覺得吃力。
但是我覺得,這很有意思。畢竟之前我寫過一篇文章:
文章里面講述了阿里巴巴的董事會主席蔡崇信在接受 挪威銀行投資管理公司的播客采訪的時候講的一段真實的經歷,具體如下:
今年初,DeepSeek發(fā)布。DeepSeek以其低成本,高性能的AI模型,讓阿里巴巴做通義千問的工程師們感受到了巨大壓力。
阿里工程師們看了論文以后表示,明明大家做同一件事情,怎么阿里巴巴居然落后了。
于是阿里巴巴的工程主管,立刻做了一個決定,要求取消春節(jié)假期,所有人都留在公司,睡在辦公室里。加快研發(fā)進度。
幾個星期以后,阿里巴巴發(fā)布了自己的通義千問新模型,競爭力不錯。
想象一下,如果你是通義千問團隊的一個研發(fā)牛馬,你事實上面臨著從最高層到各種研發(fā)主管的時時刻刻多大的壓力。
春節(jié)都不讓過,必須加班,睡在公司里。
在高壓環(huán)境下做研發(fā)大模型這種最尖端的科技,我想Llama 4的拉胯,已經說明了,這么做既不現(xiàn)實也不可持續(xù)。
所以,如果說通義千問模型的數(shù)據(jù)確實被污染了,到底是什么原因導致的呢?
我盲猜,阿里巴巴的領導管理層從最高層下來一路層層加碼給的壓力,需要為這種事情負責。
至于蔡崇信能夠公開自信的把這種春節(jié)讓員工加班,睡辦公室的經歷毫無顧忌的講出來,這本身就說明了,去這家公司做牛馬,真的是比做牛做馬還要做牛做馬,而公司領導不以為恥,還引以為榮。
真不知道這是一種什么樣的工作環(huán)境,什么樣的企業(yè)文化。
推薦飛總知識星球,在私域場合里暢所欲言,聊聊職場發(fā)展的事情,和飛總提問交流,這么低的價格不會一直保留,機會難得,一定不要錯過這個的機會。
.5
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.