AI思考只是幻覺?
蘋果近日發布研究論文,指出當前大模型(如DeepSeek、o3-mini、Claude 3.7)并未真正“思考”,本質上只是復雜的“模式匹配”,所謂思考是種假象。
論文批評現有評估方式只關注結果正確與否,忽視了中間推理過程的質量,如邏輯一致性與是否繞彎等問題。
為更準確評估模型推理能力,蘋果設計了4類可控難度的謎題:漢諾塔、跳棋交換、過河問題和積木世界。
研究發現,模型在面對更難題目時,思考深度不增反降,即使Token充足也選擇“放棄思考”;當復雜度超過閾值,模型準確率崩盤至零。
網友對此褒貶不一,有人批評蘋果落后卻貶低他人,也有人認為這是對更合理推理評估標準的呼吁。
好吧,我來問問gpt試試
deepeek則是這么說
One More News
【美國航空還在用Windows 95】
美國聯邦航空管理局(FAA)近日宣布,將全面升級老舊的空中交通管制(ATC)系統,以應對日益繁忙的空中交通。
據NPR報道,目前許多塔臺仍使用軟盤、紙條和運行Windows 95的電腦。雖然這讓系統躲過了如CrowdStrike宕機事件的影響,但也暴露其嚴重老化。
FAA表示,目標是徹底淘汰這些過時技術。美國交通部稱,這是數十年來最重要的基礎設施項目之一。
不過升級并不簡單,部分關鍵系統因安全原因無法停機替換,新系統也必須具備強大的防黑能力,以防國家安全遭受威脅。
FAA計劃在未來四年內完成系統更換
【小米 SU7 Ultra 汽車將登陸游戲《GT 賽車 7》】
小米SU7 Ultra打破歐美日壟斷,成為28年來《GT賽車》首款入駐的中國車。
據說這次不是我們找上門,而是《GT賽車7》的山內一志主動邀請,他說自己被SU7 Ultra在紐北的表現驚艷到,原本不看好電動車能跑賽道,結果一試駕立馬改觀:“就是這車讓我真正認識到中國汽車的實力!”
他還說未來會考慮加入中國賽道
【全球首個滿級 QQ 誕生】
6月7日消息,騰訊公眾號發文宣布,全球首位 QQ 256 級用戶今日誕生,其升級成功解鎖了一個全新的 QQ 等級圖標“時光企鵝”(舊版本 QQ 顯示為 4 個皇冠)。
QQ 昵稱為 “ 愛芥末 ” 的用戶,成為了全球擁有“時光企鵝”等級圖標的第一人。騰訊 QQ 等級圖標中,四個星星可湊成一個月亮,四個月亮可湊成一個太陽,以此類推。
你幾級呢朋友?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.