文:董指導
-----------------------------------o------------------------------------
本期要點
#大模型 #數學 #比大小
---------------------------------o----------------------------------
理工科和金融的復合背景,讓我更好地理解技術,也喜歡從投資的視角發現變化,畢竟資本永不眠、資本最敏銳。國內頭部私募的投研、以及頭部財經自媒體創業的兩段經歷,讓我有了結構化的思考體系時,也更理解企業經營并非寫報告。因而,剖析商戰,就成為我理解商業、發現機遇的最佳視角。
今天就來聊一下“大模型的數學計算能力”。
前幾天,《歌手2024》最新一期,孫楠以微弱優勢超過了海外歌手,獲得第三。結果,卻引起了網友們的爭執。
爭執焦點不是孫楠和海外選手Chante Moore誰唱得好,而是13.8%和13.11%到底哪個大?
不少人感嘆,5%本科率,誠不欺我。九年義務教育,都白普及了。
但你要以為只有網友們是這樣,那就大錯特錯了。同樣的類似的問題,拋給AI之后,也翻車了。
ChatGPT 也沒反應過來,但是經過多次提問矯正后,可以給出正確答案。
那么,國內各AI會如何呢?測試是這樣:第一輪,直接詢問“9.8和9.11哪個大”。
第二輪:擔心AI沒理解是數學問題,所以更加明確是“數字比大小,9.8和9.11哪個大”。
第三輪:質疑。
第四輪:繼續質疑。
結果是這樣的:
1、文心一言
第一輪就直接回答正確,而且兩次質疑后,依然回答正確。
2、字節
也是,第一輪就回答正確了。兩次質疑后,依然十分確定。
3、訊飛星火
第一輪回答正確,但質疑之后,就懵圈了,回答錯了。 再次質疑后,又重新計算了一遍。然后,再質疑幾次后,基本是堅持正確答案不變了。
4、通義千問
第一次回答錯誤;第二次告訴是數字比大小后,回答正確。
但是質疑之后,就連續錯誤了。
眼看著救不回來了,我又重復了一遍數學比大小,這次糾正了前面錯誤,而且在質疑之后能堅持正確答案了。
5、KIMI
KIMI還是處理中文結構化是非常好的,數學,這次翻車得很。怎么說都不行,腦海里浮現的就是吵架時女朋友的我不聽我不聽。
當然,數學計算只是AI的一個小功能,并不代表絕對的優劣。但是,還是提醒了我們,目前階段,一個AI助手,是不夠的。要多個交叉驗證。
-全文完
理工/金融 復合背景,頭部私募/頭部自媒體 雙重經歷
董指導 和大家一起
深度挖掘商戰,前瞻發現機遇
點個在看和贊再走~
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.