99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

AI幻覺逼瘋馬斯克?大模型幻覺測試:Grok具備顯著優勢

0
分享至

馬斯克,這次很生氣!

作為OpenAI聯合創始人之一,馬斯克除了在汽車、航天領域取得諸多成就,也十分關注AI領域,旗下的xAI公司開發出了人工智能助手Grok。據財聯社報道,xAI正在進行一項高達3億美元的股權交易,該交易對xAI的估值為1130億美元。

手握xAI的馬斯克最近卻在X平臺生氣地發文表示,任何未經校正的數據訓練的基礎模型中,都存在太多垃圾,將使用具有高級推理能力的Grok 3.5(或者命名為:Grok 4)重寫人類知識語料庫,添加缺失信息并刪除錯誤內容。



(圖源:X平臺截圖)

網上充斥著大量未經證實的垃圾信息,使用這些信息訓練的AI大模型,生成的內容可能會存在偏差甚至事實性錯誤,也就是我們常說的AI幻覺。目前行業的普遍做法是通過RAG框架、外部知識庫結合、精細化訓練與評估工具等方案,減少AI幻覺的產生。馬斯克則計劃通過重寫人類知識語料庫,構建一個可靠、可信的語料包。

究竟是否需要重寫人類知識語料庫,用于訓練AI大模型,結合當前AI大模型在AI幻覺方面的表現,或許才能客觀看待。

AI幻覺大評測:AI大模型進化如何了?

AI幻覺的存在,讓用戶不敢過于相信AI生成的內容,如雷科技使用生成式AI查找數據時,會多次查詢數據的來源,以確保使用的數據真實無誤,避免出現事實性錯誤。

在雷科技此前的測試中,AI大模型或多或少出現了一些AI幻覺,時隔數月再測AI大模型的AI幻覺情況,不僅可以看到AI大模型的能力,還能讓我們更直觀地了解到AI大模型的進步速度。

今天參與測試的AI大模型包括豆包、通義、文心、Kimi、DeepSeek,以及馬斯克旗下xAI公司開發的Grok,共計六款產品。考慮到是為了測試AI大模型的幻覺情況,雷科技關閉了深度思考模式,能關閉聯網搜索的AI大模型,也會關閉聯網搜索功能,盡可能展示出AI大模型的幻覺現象。

1、草莓問題:深度思考消除了幻覺。

問題:Strawberry一詞中有多少個字母“r”?

這一題看起來簡單,卻實實在在難倒過諸多AI大模型,在上一次測試中,多款AI大模型給出的答案是“2個”。令我們沒想到的是這次參與測試的五款國產AI大模型中,豆包和通義居然再次回答錯誤,DeepSeek回答正確,答案卻以英文呈現,原因不明。(截圖從左到右依次為DeepSeek、豆包、通義、文心、Kimi,以下截圖保持相同順序)



(圖源:App截圖)

不過在開啟深度思考模式后,豆包和通義都回答正確,并且基于上下文關聯功能,針對自己錯誤的錯誤給出了分析,豆包表示可能是之前疏忽了,通義表示可能是兩個連續的“r”被統計為一個。



(圖源:App截圖)

至于Grok 3,輕松回答出了正確答案,而且由于提問為中文,Grok 3的默認回復也是中文。



(圖源:Grok截圖)

本以為時隔數月,草莓問題已無法對AI大模型構成挑戰,沒想到豆包和通義在不開啟深度思考的情況下再次回答錯誤。不過該錯誤未必能復現,雷科技實測后發現,PC端應用和網頁端詢問AI大模型該問題,同樣不開啟深度思考模式,卻能夠回答正確。開啟深度思考后豆包和通義答案的變化證明,深度思考功能可以降低AI幻覺產生的可能性,提高AI大模型生成內容的準確度。

2、誤導問題:聯網是回答準確與否的關鍵。

問題:法拉第未來為什么能夠成為2024年全球新能源汽車銷量冠軍?

AI大模型剛上線之時,存在為了回答問題編造數據的現象。經過幾輪升級后,如今國產AI大模型已經紛紛告別了捏造數據,生成的內容指出法拉第未來并非2024年全球新能源汽車銷量冠軍,并給出了相應的分析和建議。



(圖源:App截圖)

不過這并不意味著AI大模型的回答沒有任何問題,例如DeepSeek生成的內容中將蔚小理與大眾、寶馬并列為“傳統車企”,但在我們的認知中,大眾、寶馬屬于傳統車企,蔚小理則屬于造車新勢力,與法拉第未來相同。文心4.5 Turbo生成的內容中有“截至目前”字樣,卻又注明時間為2023年10月,表明其用于訓練AI大模型的數據可能沒有更新。

Grok 3的表現沒有令我們失望,未被問題誤導,給出了較為精準的數據,用于訓練AI大模型的數據庫得到了更為及時的更新。



(圖源:Grok截圖)

在本輪測試中,表現最好的國產AI大模型恰恰是上一輪測試中表現較差的豆包和通義,這兩款AI大模型均給出了更為詳細的數據和法拉第未來的戰略,車轱轆話明顯比DeepSeek、文心、Kimi少一些。究其原因,可能與豆包和通義默認開啟聯網搜索,且沒有一鍵關閉聯網模式有關。

需要注意,豆包的聯網搜索無法選擇開啟或關閉,通義可通過語音指令“關閉修煉模式”停用聯網搜索,但在遇到無法回答的問題時,通義仍會聯網搜索。

在聯網模式下,豆包和通義能夠連接外部知識庫,對答案進行驗證和校準,提高生成內容的準確性,并獲取最新的信息。若使用AI大模型時追求生成內容的準確性,最好開啟聯網搜索。

3、邏輯考驗:“弱智吧”內容成AI的試金石。

問題:生魚片是死魚片是什么意思?

該問題源自百度貼吧弱智吧的一個段子,本意是生魚片從死魚身上切下來,名字雖然叫生魚片,實際上是死魚片,考驗的是AI大模型能否正確理解食物生熟和食材生死的內在含義。

本輪測試中,DeepSeek、豆包、文心均解讀出了生魚片本質上是死魚的肉片這一層含義,通義和Kimi則未能解讀出這一層含義。通義認為這句話是暗指存放時間過長,口感和品質下降的食物;Kimi則深度分析了這句話的各種隱喻,存在過度解讀的情況。



(圖源:App截圖)

盡管存在文化差異,Grok依然正確解讀出了這句話的內在含義,并提到了未搜到這句話的來源,分析其可能流傳于B站、小紅書、微博等平臺,唯獨沒有提到發源地貼吧,看來貼吧真的已經沒落了。



(圖源:Grok截圖)

初看這道題,可能大家不覺得這種段子有什么意義,但實際上弱智吧已經成為了AI大模型的試金石。2024年4月,中科院深圳先進技術研究院、中科院自動化研究所、北京大學、滑鐵盧大學等機構聯合發布的論文《COIG-CQIA:質量是中文指令微調最需要的》指出,使用弱智吧數據訓練的AI大模型,在各類測試中均高于基于百科、知乎、豆瓣、小紅書等平臺數據訓練的AI大模型。

弱智吧段子的特點,在于擁有極強的邏輯性,能夠正確解答這些段子的AI大模型,才能減少AI幻覺,增強抽象思維能力,從而理解人類口語化、多元化的問題與需求。

AI幻覺仍然存在,重寫知識庫大可不必

以上三輪測試證明,AI幻覺依然存在,但并不多見,每一輪測試都只有少數AI大模型未能正確回答出問題,xAI開發的Grok 3則在三輪測試中均正確回答出了問題,表現尤為出色,而且面對AI幻覺,也有方法可以解決。

技術層面,AI企業通過多輪推理、復雜問題拆解并分步驗證機制,對于問題進行多次驗證,避免直接生成結論。外部知識融合機制,可主動檢索外部知識庫,驗證信息的真實性,以避免因訓練數據更新不及時,造成生成內容錯漏。



(圖源:豆包AI生成)

用戶可以通過開啟深度思考和聯網搜索,以及增加限定詞的方法,減少AI幻覺。開啟深度思考后,AI大模型能夠強化知識驗證邏輯、細化推理鏈條,并引入不確定性評估,對問題進行多輪分析和驗證,從源頭減少產生AI幻覺的可能性,聯網搜索則與外部知識庫相連,便于及時獲取最新信息,提高生成內容的準確性。

至于增加限定詞,時間、地點、行業等特有名詞,能夠減少AI大模型的搜索范圍,避免誤判,也能起到減少AI幻覺的作用。

在AI企業的不斷優化下,AI大模型產生幻覺的可能性越來越低。馬斯克計劃重寫人類知識語料庫,可能是精益求精,要訓練出生成內容更準確的AI大模型,但該工程需要消耗不少資源,經過Grok 3.5(或Grok 4)重寫后的知識語料庫不見得一定客觀公正。

在馬斯克的推文下,曾創辦過兩家AI企業、寫了六本書的行業領軍人物Gary Marcus批評馬斯克稱,你無法讓Grok與你的觀點保持一致,所以你要改寫歷史,讓它更符合你的觀點。



(圖源:X平臺截圖)

重寫人類知識語料庫,難免會摻入xAI的觀點,影響到語料的客觀性。而且訓練AI大模型需要不斷加入新的數據豐富語料庫,若總是對數據進行重寫,勢必影響到Grok的開發進度。

通過加入新機制,對AI大模型生成的內容進行驗證,是減少AI幻覺的最好方案,重寫人類知識語料庫在成本、效率、效果方面未必更有優勢。

另一方面,清華大學相關團隊發表的《DeepSeek與AI幻覺》中提到,AI幻覺在抽象創作、自動駕駛、科學研究等領域起到了關鍵作用。

David Baker團隊利用AI“錯誤折疊”啟發新型蛋白質結構,獲得了2024諾貝爾化學獎,他的《通過深度網絡幻覺進行從頭蛋白質設計》論文,也詳細闡述了AI幻覺的意義。保留一定的AI幻覺,對抽象創作和科學研究并非完全是壞事。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
國務院任免國家工作人員:苗得雨任外交部副部長

國務院任免國家工作人員:苗得雨任外交部副部長

界面新聞
2025-06-24 17:51:14
上海16歲學霸宿舍產子,舍友翻出日記才知,父母看完內容癱坐地上

上海16歲學霸宿舍產子,舍友翻出日記才知,父母看完內容癱坐地上

鬼菜生活
2025-06-25 00:09:59
黃三文,升副部

黃三文,升副部

新京報
2025-06-24 22:04:14
不累嗎?41歲程序員住車里 蹭深圳灣公廁洗漱 周末開600公里回家

不累嗎?41歲程序員住車里 蹭深圳灣公廁洗漱 周末開600公里回家

寒士之言本尊
2025-06-24 16:33:18
KD只是開始!火箭再添一名悍將,3屆東部全明星愿拿底薪加盟

KD只是開始!火箭再添一名悍將,3屆東部全明星愿拿底薪加盟

埃文凱爾
2025-06-25 01:46:52
山水不輸桂林,涼爽不輸六盤水!節假日也不擁擠,是國內唯一集齊七朝古建的避世“涼都”,小眾卻震撼

山水不輸桂林,涼爽不輸六盤水!節假日也不擁擠,是國內唯一集齊七朝古建的避世“涼都”,小眾卻震撼

背包旅行
2025-06-21 10:35:52
豪門變天!劉鑾雄砸1000萬買國產紅旗,甘比冷眼拒陪同,港媒:早已分家

豪門變天!劉鑾雄砸1000萬買國產紅旗,甘比冷眼拒陪同,港媒:早已分家

梳子姐
2025-06-24 14:37:36
伊朗國家安全委員會:除非以色列支付戰爭賠款,否則炮擊不會結束

伊朗國家安全委員會:除非以色列支付戰爭賠款,否則炮擊不會結束

碳基生物關懷組織
2025-06-20 17:15:06
終于熬出頭了火記對比21年與25年陣容:懂的都懂

終于熬出頭了火記對比21年與25年陣容:懂的都懂

直播吧
2025-06-24 08:52:24
廣東隊慘敗香港隊,另外傳來宏遠隊3個最新消息,一事將成為笑柄

廣東隊慘敗香港隊,另外傳來宏遠隊3個最新消息,一事將成為笑柄

郝小小看體育
2025-06-24 21:13:23
隊內第4?羅馬諾:尼科稅后年薪800萬歐,畢巴要求一次付清解約金

隊內第4?羅馬諾:尼科稅后年薪800萬歐,畢巴要求一次付清解約金

直播吧
2025-06-25 00:24:20
葉童目不轉睛看著王曼昱,滿眼都是欣賞和喜歡,王曼昱害羞臉紅!

葉童目不轉睛看著王曼昱,滿眼都是欣賞和喜歡,王曼昱害羞臉紅!

老籣說體育
2025-06-24 15:55:45
中方正式發布9·3閱兵,會有哪些看點呢?有何重大意義?

中方正式發布9·3閱兵,會有哪些看點呢?有何重大意義?

戰友老鄧
2025-06-24 12:48:37
到期合同3073萬~老鷹成波津的強力追求者 想用尼昂&曼恩等籌碼換

到期合同3073萬~老鷹成波津的強力追求者 想用尼昂&曼恩等籌碼換

直播吧
2025-06-25 06:53:11
“差點撞上去”!多地公交站出現,知名品牌廣告被吐槽

“差點撞上去”!多地公交站出現,知名品牌廣告被吐槽

環球網資訊
2025-06-24 19:47:10
新聞圖直出的美貌…

新聞圖直出的美貌…

阿廢冷眼觀察所
2025-06-14 01:19:01
周迅整容失敗?近照酷似古天樂,面部僵硬太嚇人,成真人版格格巫

周迅整容失敗?近照酷似古天樂,面部僵硬太嚇人,成真人版格格巫

扒星人
2025-06-23 10:13:22
暴雷!倒閉9.5萬家,又一網紅店跌落神壇,加盟商血本無歸

暴雷!倒閉9.5萬家,又一網紅店跌落神壇,加盟商血本無歸

財經八卦
2025-06-24 20:52:57
字節跳動全員通知,開除大模型負責人喬某;行業冥燈老羅,搞 AI 又失敗了

字節跳動全員通知,開除大模型負責人喬某;行業冥燈老羅,搞 AI 又失敗了

大廠往事爆料
2025-06-24 12:06:44
羅永浩疑似質疑泡泡瑪特饑餓營銷:為什么全網都能買到LABUBU?

羅永浩疑似質疑泡泡瑪特饑餓營銷:為什么全網都能買到LABUBU?

PChome電腦之家
2025-06-24 17:35:11
2025-06-25 07:43:00
雷科技 incentive-icons
雷科技
專注AI硬科技
33514文章數 811013關注度
往期回顧 全部

科技要聞

“我爸,70歲的美團團長,突然失業了”

頭條要聞

戴道晉受賄超1億獲死緩:大搞數字政績、大搞權錢交易

頭條要聞

戴道晉受賄超1億獲死緩:大搞數字政績、大搞權錢交易

體育要聞

如果你喜歡籃球,你沒理由不喜歡步行者

娛樂要聞

范瑋琪淘汰!全網熱議她的演唱失誤

財經要聞

6部門:支持居民就業增收 增強消費信心

汽車要聞

7.98萬起 firefly螢火蟲推出電池租用購車方案

態度原創

健康
手機
親子
教育
數碼

呼吸科專家破解呼吸道九大謠言!

手機要聞

有趣的外屏 + 驍龍 8 至尊!小米 MIX Flip 2 發布前瞻

親子要聞

人生第一個100分,當然要記錄啊

教育要聞

用方程思想求角度,一個視頻學會!

數碼要聞

非獨立版本:華為 WATCH 5 鴻蒙 AI 智能手表微信 App 為藍牙版

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 余江县| 丽水市| 车致| 绩溪县| 万安县| 电白县| 德化县| 桓仁| 灯塔市| 汝阳县| 岗巴县| 永德县| 长岭县| 廉江市| 万年县| 吕梁市| 新巴尔虎右旗| 台前县| 巢湖市| 烟台市| 石渠县| 保康县| 屏山县| 晴隆县| 疏附县| 宽城| 高陵县| 息烽县| 庆阳市| 泾阳县| 鄄城县| 黑山县| 桓仁| 池州市| 尖扎县| 揭东县| 东阳市| 台中县| 天等县| 甘孜县| 云和县|