網易首頁 > 網易號 > 正文申請入駐

一個資深用戶的真實體驗：文心X1挺讓人失望

2025-04-10 00:46:28　來源: 小王的愛好就是游戲

法國,普羅旺斯－阿爾卑斯－藍色海岸大區舉報

分享至

日前，百度正式發布文心大模型4.5及文心大模型X1，在文心一言官網即可免費使用。

據百度相關負責人介紹，文心大模型X1為深度思考模型，具備“長思維鏈”，擅長中文知識問答、文學創作、邏輯推理等，而且增加了多模態能力和多工具調用，能理解和生成圖片，還能調用工具生成代碼、圖表等豐富內容。

這一一消息很讓人振奮。振奮的原因有二：

一是作為國內最早緊跟ChatGPT潮流率先發布通用語言大模型的廠商，百度此次雖然后知后覺，在國內已涌現出不少優秀深度推理大模型的情況下才推出自家的思考大模型，有點姍姍來遲的味道，但畢竟有勝于無，沒有錯失推理大模型這波潮流。

二是文心X1的出現，再度豐富了國產深度大模型市場。2023年，自OpenAI扔出o1，首次將推理大模型及長思維鏈的概念普及給普通民眾后，全球大模型市場聞風而動，涌現出不少同類產品。

遠的不說，僅說國內，自年后以來就陸續發布了包括科大訊飛星火X1和DeepSeek等在內的深度推理大模型，并憑借出色的能效比，引發全球矚目。文心X1的發布，無疑使得國產深度推理大模型陣營更加龐大。

于是對于文心X1的推出，網上一片歡騰。諸如性能可以“比肩DeepSeek”、“超越Open AI o1”，“百度厚積薄發，后來者居上”等呼聲震耳欲聾，好像文心X1一出，國產深度推理大模型從此雄起了，但事實果真如此？

作為國產大模型的忠實用戶，筆者在第一時間測試了文心X1的數學能力。

之所以沒有測試文心X1的其他能力，是因為其他能力太泛化了，沒有統一的評定標準。

舉個簡單的例子，所有大模型都可以輕松生成文本，但哪款生成的好，恐怕是一個人一個觀點，青菜蘿卜各有所好。有人喜歡《紅樓夢》，有人喜歡《西游記》，有人喜歡《笑傲江湖》，自然也有人喜歡《盜墓筆記》。

所以普通用戶評判一款大模型能力的最好，也是最直接、最有效的方法，就是讓它回答有固定答案的問題，比如解答數學題和代碼編寫。

推理大模型相比于傳統語言大模型的最大優點，是具備“長思維鏈”能力，能夠類人思考，這使得它在解答數學題和編寫代碼，有著通用大模型無可比擬的優勢。

也正因為此，OpenAI o1推出伊始至今，反復鼓吹的就是其數學能力，什么奧數試卷的解答正確率達到百分之幾，大學數學考卷成績超過多少學生等。

所以這里的評測，僅限于文心X1的數學。如果在推理大模型本該擅長的數學方面都表現欠佳，那么文心X1的綜合能力也就可想而知了。

此次測試試題來自《2024年普通高等學校招生全國統一考試（新高考I卷）》。試題不多，只選了三個。

這題分兩小問，正確答案分別為：（1）π/3；（2）2√2。文心X1解答正確。

該題正確答案是：（1）1/2；（2）x-2y=0或3x-2y-6=0，文心X1給出的答案的（1）正確，（2）錯誤。

該題的正確的答案是：（1）證明過程略；（2）√3。文心X1證明出了AD//平面PBC，卻在第二小題時栽了跟頭，給出了錯誤答案。

該題的正確答案是：（1）a=-2；（2）證明過程略；（3）b≥-2/3。文心X1答對了該題。但在解答過程中，表現出下列問題。

一是頁面長時間處于假死狀態，二十多分鐘無反應，多次重新進入文心X1，多次讓其重新解答，最終才給出了答案。

二是給出答案時間太長，且忽視了深度推理大模型共同奉行的邏輯推理及驗證過程應在思考環節完成，思考成熟后，再給出回復的基本規律，而是在思考完畢，在解答過程中，重新進入了思考、驗證過程，導致解題過程很長，無法完整截圖，且用時驚人，達到了一個半小時，極大影響了用戶的操作體驗，也耗盡了耐心。

而同樣是這道題，某國產深度推理大模型僅用幾分鐘就完成了，且答案正確，解題過程簡捷、明晰。

同時，對于上面文心X1答錯的兩道題（16、17題的后一小問），該推理大模型也給出自己的答案，正確率100%，說明文心X1在數學能力上的平庸表現，并不代表當前推理大模型共有水平，而是它自己的水平的確有限。

某國產深度推理大模型解答16題

某國產大模型解答17題

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

遼寧女子講述撤離德黑蘭38小時：三天三夜沒吃沒睡，出境時看到五星紅旗身子都軟了

瀟湘晨報 2025-06-20 20:18:26
17212 跟貼 17212
趙一鳴零食廣東懷集店被哄搶！老板發文：千萬別來懷集投資

小人物看盡人間百態 2025-06-20 19:48:37
12320 跟貼 12320

牛彈琴：戰爭進入新的階段被打懵的伊朗逐漸穩住陣腳

大象新聞 2025-06-21 09:07:03
123 跟貼 123

鄰居裝空調隔壁老人不同意，將身體伸出窗外用長桿制止

眾橫四海 2025-06-21 09:43:16
2228 跟貼 2228
官方已介入調查！知名商超奧樂齊超市突然被曝，不少上海人常吃：震驚！早知不買了

環球網資訊 2025-06-21 08:03:18
0 跟貼 0

消息稱“字節跳動創始人張一鳴重回公司一線”，知情人士：往返北京和新加坡，每月參與復盤和討論會

魯中晨報 2025-06-20 15:41:09
337 跟貼 337

杭州一紅盤最高賣6萬/㎡，現在有房源低至2.56萬/㎡沒人要

錢江晚報 2025-06-20 16:37:33
722 跟貼 722
一口回鍋肉，臺灣男子因“婆婆的川味”灑淚！發帖不到24小時找到成都親人

紅星新聞 2025-06-20 19:25:42
417 跟貼 417

“蘇超梗王”常州主場未賽先熱，當地媒體：海內存知己，無謂幾比幾

澎湃新聞 2025-06-20 16:42:27
837 跟貼 837
男子買手機，用一陣就退，8年退了210起！最近這次，不靈了！

環球網資訊 2025-06-20 22:40:05
67 跟貼 67
爆料稱iPhone 18 Pro將迎屏幕變革，靈動島或成歷史

環球網資訊 2025-06-20 11:05:17
328 跟貼 328
太狼狽了！武漢大學淋了3小時大雨的畢業典禮被質問，沒有場館嗎

火山詩話 2025-06-21 06:19:54
39 跟貼 39
國產雙發直升機首次完成高原自轉著陸試飛

環球網資訊 2025-06-20 22:46:01
24 跟貼 24
《撈女游戲》制作人B站賬號被封，靠性別對立“撈”流量只會一塌到底

極目新聞 2025-06-20 10:26:59
364 跟貼 364
游客景區遇“單車刺客”！騎16分鐘花50元，起步價30元

大象新聞 2025-06-19 17:57:07
953 跟貼 953
讓“韋神”坐第一排認真聽講的34歲教授王虹，是什么來歷？

中國日報 2025-06-20 16:55:26
2 跟貼 2
“筆試倒數第二、面試第一應聘者入圍體檢”，湖北農科院回應

大象新聞 2025-06-21 07:19:11
108 跟貼 108
診所“50元輸液3天”活動引爭議，成都市監局通報：擅自發布醫療廣告，已立案調查

極目新聞 2025-06-21 13:36:13
0 跟貼 0
廣電總局聯合多家單位推出GPMI新型機頂盒，解決電視操作復雜

環球網資訊 2025-06-20 18:26:12
342 跟貼 342
“令人窒息”！人民日報評韋東奕食堂吃飯被排隊打卡：讓韋東奕們好好吃口飯安心做研究

每日經濟新聞 2025-06-20 18:06:40
2 跟貼 2
鴻蒙開發者軍團沖鋒：超3萬應用加速開發，生態規模戰進入關鍵期

第一財經資訊 2025-06-20 19:04:18
209 跟貼 209
泡泡瑪特已成立電影工作室將拍LABUBU動畫劇集與電影

閃電新聞 2025-06-20 16:51:23
617 跟貼 617
重點支出有力度前5個月財政支出超11萬億元

央視新聞客戶端 2025-06-20 16:51:04
66 跟貼 66
武漢站坐高鐵能帶寵物了

湖北發布 2025-06-21 10:24:54
88 跟貼 88
不尋常！大批美軍曬豪華大餐

環球時報國際 2025-06-20 19:03:30
0 跟貼 0
央視取消播出易建聯專訪，各方均未回應

大象新聞 2025-06-21 11:59:18
0 跟貼 0
確認了: 夫妻倆已被封禁！徹底涼涼

天津族 2025-06-21 13:36:36
0 跟貼 0
舔狗經濟，為何崩塌？

特例的貓 2025-06-21 13:37:46
0 跟貼 0
女子在動物園制止不文明行為反被群毆

新快報新聞 2025-06-21 13:33:17
0 跟貼 0

手機 / 數碼

房產 / 家居

一個資深用戶的真實體驗：文心X1挺讓人失望

Siri有救了？蘋果被曝正討論史上最大收購

牛彈琴：戰爭進入新的階段 被打懵的伊朗逐漸穩住陣腳

牛彈琴：戰爭進入新的階段 被打懵的伊朗逐漸穩住陣腳

周通：2年前想過退役，沒想到能踢世俱杯

70歲寇振海跳舞，網友：和依萍搶飯碗

租金大撤退！房東正在批量跑路！

扔掉"舊地圖”一汽-大眾大眾品牌要找"新大陸"

態度原創

故宮珍藏的墨跡《十七帖》，比拓本更精良，這才是地道的魏晉寫法

熱聞|清明假期將至，熱門目的地有哪些?

榮耀 MagicV5 首創全新 AI 交互方式，折疊屏實現自主多任務并行

取消一門學科”投票結果出人意料：化學排第3，英語僅排第2，第1名竟是……

牛彈琴：戰爭進入新的階段被打懵的伊朗逐漸穩住陣腳

牛彈琴：戰爭進入新的階段被打懵的伊朗逐漸穩住陣腳