日前,百度正式發布文心大模型4.5及文心大模型X1,在文心一言官網即可免費使用。
據百度相關負責人介紹,文心大模型X1為深度思考模型,具備“長思維鏈”,擅長中文知識問答、文學創作、邏輯推理等,而且增加了多模態能力和多工具調用,能理解和生成圖片,還能調用工具生成代碼、圖表等豐富內容。
這一一消息很讓人振奮。振奮的原因有二:
一是作為國內最早緊跟ChatGPT潮流率先發布通用語言大模型的廠商,百度此次雖然后知后覺,在國內已涌現出不少優秀深度推理大模型的情況下才推出自家的思考大模型,有點姍姍來遲的味道,但畢竟有勝于無,沒有錯失推理大模型這波潮流。
二是文心X1的出現,再度豐富了國產深度大模型市場。2023年,自OpenAI扔出o1,首次將推理大模型及長思維鏈的概念普及給普通民眾后,全球大模型市場聞風而動,涌現出不少同類產品。
遠的不說,僅說國內,自年后以來就陸續發布了包括科大訊飛星火X1和DeepSeek等在內的深度推理大模型,并憑借出色的能效比,引發全球矚目。文心X1的發布,無疑使得國產深度推理大模型陣營更加龐大。
于是對于文心X1的推出,網上一片歡騰。諸如性能可以“比肩DeepSeek”、“超越Open AI o1”,“百度厚積薄發,后來者居上”等呼聲震耳欲聾,好像文心X1一出,國產深度推理大模型從此雄起了,但事實果真如此?
作為國產大模型的忠實用戶,筆者在第一時間測試了文心X1的數學能力。
之所以沒有測試文心X1的其他能力,是因為其他能力太泛化了,沒有統一的評定標準。
舉個簡單的例子,所有大模型都可以輕松生成文本,但哪款生成的好,恐怕是一個人一個觀點,青菜蘿卜各有所好。有人喜歡《紅樓夢》,有人喜歡《西游記》,有人喜歡《笑傲江湖》,自然也有人喜歡《盜墓筆記》。
所以普通用戶評判一款大模型能力的最好,也是最直接、最有效的方法,就是讓它回答有固定答案的問題,比如解答數學題和代碼編寫。
推理大模型相比于傳統語言大模型的最大優點,是具備“長思維鏈”能力,能夠類人思考,這使得它在解答數學題和編寫代碼,有著通用大模型無可比擬的優勢。
也正因為此,OpenAI o1推出伊始至今,反復鼓吹的就是其數學能力,什么奧數試卷的解答正確率達到百分之幾,大學數學考卷成績超過多少學生等。
所以這里的評測,僅限于文心X1的數學。如果在推理大模型本該擅長的數學方面都表現欠佳,那么文心X1的綜合能力也就可想而知了。
此次測試試題來自《2024年普通高等學校招生全國統一考試(新高考I卷)》。試題不多,只選了三個。
這題分兩小問,正確答案分別為:(1)π/3;(2)2√2。文心X1解答正確。
該題正確答案是:(1)1/2;(2)x-2y=0或3x-2y-6=0,文心X1給出的答案的(1)正確,(2)錯誤。
該題的正確的答案是:(1)證明過程略;(2)√3。文心X1證明出了AD//平面PBC,卻在第二小題時栽了跟頭,給出了錯誤答案。
該題的正確答案是:(1)a=-2;(2)證明過程略;(3)b≥-2/3。文心X1答對了該題。但在解答過程中,表現出下列問題。
一是頁面長時間處于假死狀態,二十多分鐘無反應,多次重新進入文心X1,多次讓其重新解答,最終才給出了答案。
二是給出答案時間太長,且忽視了深度推理大模型共同奉行的邏輯推理及驗證過程應在思考環節完成,思考成熟后,再給出回復的基本規律,而是在思考完畢,在解答過程中,重新進入了思考、驗證過程,導致解題過程很長,無法完整截圖,且用時驚人,達到了一個半小時,極大影響了用戶的操作體驗,也耗盡了耐心。
而同樣是這道題,某國產深度推理大模型僅用幾分鐘就完成了,且答案正確,解題過程簡捷、明晰。
同時,對于上面文心X1答錯的兩道題(16、17題的后一小問),該推理大模型也給出自己的答案,正確率100%,說明文心X1在數學能力上的平庸表現,并不代表當前推理大模型共有水平,而是它自己的水平的確有限。
某國產深度推理大模型解答16題
某國產大模型解答17題
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.