日前,百度發布了思考大模型文心X1,說白了,就是當前很火的深度推理大模型,主打“長思維鏈”和超強邏輯能力。作為國產大模型的忠實用戶,筆者第一時間體驗了這款大模型。說實話,體驗完,整個人都不好了。
正像網友Plus在體驗完文心X1所說的:希望、失望!百度推理大模型沒來的時候我盼著它來,希望它來,現在它來了,我的期待與希望卻死了,剩下的只有失望。
網友“我的家在鐵嶺”也表示:以前覺得文心一言就夠平庸了,現在和文心X1一比,才知道它有多優秀!
那么,文心X1的問題在哪兒呢,惹得眾多網友不歡喜?就筆者連續幾天的試用來看,文心X1的不足之處主要體現在三個地方。
一是“調用工具”看上去很新穎,實際上很噱頭。
所謂調用工具,即指在文心X1中,大模型可以根據當前用戶輸入的內容,調用相關工具有針對性地處理。比如,如果用戶傳送的是圖片,文心X1會調用 圖片工具,來識別和理解圖片中內容。如果上傳的是文檔,文心X1會調用文檔問答來閱讀文檔,這一功能看上去很新穎,很實用,同時也是百度官方在發布會重點宣傳的功能之一。
百度在發布會上表示:文心大模型X1增加了多模態能力和多工具調用,能理解和生成圖片,還能調用工具生成代碼、圖表等豐富內容。
實際上工具調用在業已發布的國產深度大模型中早已存在,只是它們很低調,沒有將其作為一個亮點大肆宣傳而已。
比如圖片識別,在其它國產深度大模型中,只需用戶將圖片粘貼進對話框中,發送后大模型就會自動解讀、回復。而識別文檔和表格等,也只需將其作為附件上傳即可。
這當中所有的識別過程均由后臺完成,大模型完全不會打擾用戶,告訴用戶它調用了什么工具。
文心X1則不同,它將“調用工具”與文心X1分開了。用戶如果想用其解釋圖片、文檔等,必須手工啟用“聯網搜索”和“調用工具”功能,否則,默認情況下,它只支持文字輸入,連粘貼操作都不允許。
文心X1的這一設計,看上去是增加了新功,實際上只是將簡單的操作復雜化了。這就像我們到飯店吃飯,如果我們點一份紅燒肉,但廚師只端上一盤未加任何調料的生豬肉,然后告訴你,要是想吃傳統的紅燒肉,你必須開啟“做熟”、“加調料”功能,你不會不會覺得很奇葩?
文心X1需要用戶啟用才能調用其他工具的做法,與此類似。
二是假死情況太頻繁。
和傳統語言大模型相比,深度推理大模型最大的特點是具備“長思維鏈”,能夠類人思考,因此在邏輯推理方面有著巨大優勢,這一特點,在數學、代碼和醫學等領域表現得最明顯。也因此,使得深度推理大模型有了解答高等數學和編寫復雜代碼的能力,而且準確率相較傳統大模型也有了天翻地覆的進步。
正是基于此,許多非程序員用戶喜歡用它來解決數學問題。
但如果你用過文心X1,你會發現它在解答數學題時有個幾乎讓人崩潰的習慣,那就是假死,在思考時,頁面常常十幾分鐘甚至幾十分鐘沒響應,讓人弄不清它的大腦是仍在運轉還是已經腦溢血。
解決辦法有兩個,首先是等,當然前提是你的耐性足夠好,能夠等到花都謝了仍不厭煩;其次是退出官網,重新進入后再次輸入問題,雖然結果很可能是重蹈覆轍,再次重溫假死大戲,但萬一要是成了呢?
三是初中以上的數學題解答正確率不高。
這里說的初中以上的數學題,包括高中和大學數學題中難度水平一般和難度系數較大的題。文心X1解答這類題的正確率并不高,甚至有時會低得嚇人。和國產其它深度推理大模型相比,尚有不小距離。
在業已發布的國產深度推理大模型中,筆者曾試用過兩款,其數學解答正確率要遠高于文心X1。而要證明這一點,只需在高中試卷中隨便抽取幾道解答題,讓文心X1和其它幾款國產推理大模型做一下就知道了。
功能方面無新意,體驗方面時常假死,解題方面頻繁出錯,文心X1的令人失望,大約主要緣于這三點。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.