99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

最新萬(wàn)字長(zhǎng)文!強(qiáng)化學(xué)習(xí)之父聯(lián)合谷歌RL副總裁:未來(lái)不是靠強(qiáng)化學(xué)習(xí)算法而是「經(jīng)驗(yàn)流」

0
分享至


就像Sam Altman 之前在博客文章中寫(xiě)的那樣:回顧人工智能的發(fā)展,深度學(xué)習(xí)確實(shí)奏效了!現(xiàn)在強(qiáng)化學(xué)習(xí)正如火如荼,OpenAI o系列,DeepSeek R0都顯示出了強(qiáng)化學(xué)習(xí)的巨大威力,人類(lèi)生成的數(shù)據(jù)推動(dòng)了人工智能的驚人進(jìn)步,但接下來(lái)會(huì)發(fā)生什么?

谷歌強(qiáng)化學(xué)習(xí)副總裁 David Silver與圖靈獎(jiǎng)獲得者,強(qiáng)化學(xué)習(xí)之父Richard Sutton最新論文《Welcome to the Era of Experience》 猶如《TheBitterLesson(苦澀的教訓(xùn))》的續(xù)章給我們當(dāng)頭一棒:


人類(lèi)數(shù)據(jù)正在見(jiàn)頂,經(jīng)驗(yàn)是下一個(gè)超級(jí)數(shù)據(jù)源,真正能推動(dòng)AI躍升的數(shù)據(jù),必須隨模型變強(qiáng)而自動(dòng)增長(zhǎng)。唯一的解法:經(jīng)驗(yàn)本身

?? 經(jīng)驗(yàn)是無(wú)限的
?? 經(jīng)驗(yàn)?zāi)芡黄迫祟?lèi)知識(shí)邊界
?? 經(jīng)驗(yàn)流才是智能體的本地語(yǔ)言

Sutton 的主張很清晰:未來(lái)AI不是“提示詞+知識(shí)庫(kù)”,而是“行動(dòng)+反饋”的循環(huán)體

經(jīng)驗(yàn)時(shí)代,是AI的范式大轉(zhuǎn)折,文章說(shuō):我們正從“人類(lèi)數(shù)據(jù)時(shí)代”跨入“經(jīng)驗(yàn)時(shí)代”。這不是模型升級(jí),不是RL算法迭代,而是一種更根本的范式轉(zhuǎn)折:

→ 從模仿人類(lèi)到超越人類(lèi)
→ 從靜態(tài)數(shù)據(jù)到動(dòng)態(tài)經(jīng)驗(yàn)
→ 從監(jiān)督學(xué)習(xí)到主動(dòng)試錯(cuò)

他們喊話整個(gè)AI界:

經(jīng)驗(yàn)才是通往真正智能的鑰匙

(聲明:以上這段對(duì)《Welcome to the Era of Experience》中文總結(jié)摘自x上的一位華人@AnneXingxb,得到了Sutton本人的高度肯定,這里引用了其中一小部分)


個(gè)人覺(jué)得這篇paper :Welcome to the Era of Experience文章非常值得一讀,中文翻譯分享給大家,英文好的建議直接讀原文

paper:

https://storage.googleapis.com/deepmind-media/Era-of-Experience%20/The%20Era%20of%20Experience%20Paper.pdf

另外谷歌強(qiáng)化學(xué)習(xí)副總裁David Silver專(zhuān)門(mén)針對(duì)這個(gè)話題有一期播客,大家感興趣也可以看看


觀看 → https://goo.gle/42oE0El

論文全文翻譯

歡迎來(lái)到經(jīng)驗(yàn)時(shí)代

大衛(wèi)·西爾弗,理查德·S·薩頓*

摘要

我們正站在人工智能新時(shí)代的門(mén)檻上,這個(gè)新時(shí)代有望實(shí)現(xiàn)前所未有的能力水平。新一代智能體將主要通過(guò)學(xué)習(xí)經(jīng)驗(yàn)來(lái)獲得超人類(lèi)的能力。本文探討了將定義這個(gè)即將到來(lái)的時(shí)代的關(guān)鍵特征。

人類(lèi)數(shù)據(jù)時(shí)代(The Era of Human Data)

近年來(lái),人工智能(AI)通過(guò)對(duì)海量的人類(lèi)生成數(shù)據(jù)進(jìn)行訓(xùn)練,并使用專(zhuān)家的人工示例和偏好進(jìn)行微調(diào),取得了顯著的進(jìn)步。大型語(yǔ)言模型(LLM)就是這種方法的典范,它們已經(jīng)達(dá)到了廣泛的通用性水平。單個(gè)LLM現(xiàn)在可以執(zhí)行的任務(wù)范圍非常廣泛,從撰寫(xiě)詩(shī)歌和解決物理問(wèn)題,到診斷醫(yī)療問(wèn)題和總結(jié)法律文件,無(wú)所不能。

然而,雖然模仿人類(lèi)足以在一定程度上復(fù)現(xiàn)許多人類(lèi)能力,但僅靠這種方法不太可能在許多重要的主題和任務(wù)上實(shí)現(xiàn)超人類(lèi)智能。在數(shù)學(xué)、編程和科學(xué)等關(guān)鍵領(lǐng)域,從人類(lèi)數(shù)據(jù)中提取的知識(shí)正迅速接近極限。大多數(shù)高質(zhì)量的數(shù)據(jù)來(lái)源——那些實(shí)際上可以提高強(qiáng)大智能體性能的數(shù)據(jù)——要么已經(jīng)被消耗殆盡,要么很快就會(huì)被消耗殆盡。僅僅依靠人類(lèi)數(shù)據(jù)的監(jiān)督學(xué)習(xí)來(lái)驅(qū)動(dòng)進(jìn)步的步伐正在明顯放緩,這預(yù)示著我們需要一種新的方法。此外,有價(jià)值的新見(jiàn)解,例如新的定理、技術(shù)或科學(xué)突破,都存在于當(dāng)前人類(lèi)理解的邊界之外,無(wú)法通過(guò)現(xiàn)有的人類(lèi)數(shù)據(jù)捕捉到。

經(jīng)驗(yàn)時(shí)代(The Era of Experience)

為了取得更顯著的進(jìn)步,我們需要一種新的數(shù)據(jù)來(lái)源。這種數(shù)據(jù)必須以這樣一種方式生成:隨著智能體變得更強(qiáng)大,數(shù)據(jù)也能不斷改進(jìn);任何用于合成生成數(shù)據(jù)的靜態(tài)程序都會(huì)很快變得過(guò)時(shí)。這可以通過(guò)讓智能體不斷從自身經(jīng)驗(yàn)中學(xué)習(xí)來(lái)實(shí)現(xiàn),即通過(guò)智能體與其環(huán)境互動(dòng)所產(chǎn)生的數(shù)據(jù)。人工智能正處于一個(gè)新時(shí)代的風(fēng)口浪尖,在這個(gè)時(shí)代,經(jīng)驗(yàn)將成為改進(jìn)的主要媒介,并最終使今天系統(tǒng)中使用的以人類(lèi)數(shù)據(jù)為主的數(shù)據(jù)規(guī)模相形見(jiàn)絀。

這種轉(zhuǎn)變可能已經(jīng)開(kāi)始,甚至對(duì)于那些以人類(lèi)為中心的人工智能的代表——大型語(yǔ)言模型來(lái)說(shuō)也是如此。數(shù)學(xué)能力就是一個(gè)例子。AlphaProof 最近成為首個(gè)在國(guó)際數(shù)學(xué)奧林匹克競(jìng)賽中獲得獎(jiǎng)牌的程序,超越了以人類(lèi)為中心的方法的表現(xiàn)。最初接觸了大約十萬(wàn)個(gè)由人類(lèi)數(shù)學(xué)家多年創(chuàng)建的形式化證明后,AlphaProof的強(qiáng)化學(xué)習(xí)(RL)算法1 隨后通過(guò)與形式化證明系統(tǒng)的持續(xù)互動(dòng),生成了數(shù)億個(gè)證明。這種對(duì)互動(dòng)經(jīng)驗(yàn)的關(guān)注使得AlphaProof能夠探索超越預(yù)先存在的形式化證明范圍的數(shù)學(xué)可能性,從而發(fā)現(xiàn)新穎且具有挑戰(zhàn)性的問(wèn)題的解決方案。非形式化數(shù)學(xué)也通過(guò)用自生成數(shù)據(jù)取代專(zhuān)家生成數(shù)據(jù)而取得了成功;例如,DeepSeek 最近的工作“強(qiáng)調(diào)了強(qiáng)化學(xué)習(xí)的力量和美妙之處:我們沒(méi)有明確地教模型如何解決問(wèn)題,而是簡(jiǎn)單地提供了正確的激勵(lì),它就自主地發(fā)展出了先進(jìn)的問(wèn)題解決策略。”

我們認(rèn)為,一旦充分發(fā)揮經(jīng)驗(yàn)學(xué)習(xí)的潛力,不可思議的新能力將會(huì)涌現(xiàn)。經(jīng)驗(yàn)時(shí)代的特征很可能是智能體和環(huán)境,除了從海量的經(jīng)驗(yàn)數(shù)據(jù)中學(xué)習(xí)之外,它們還將在以下幾個(gè)方面突破以人類(lèi)為中心的人工智能系統(tǒng)的局限性:

  • ? 智能體將棲息于經(jīng)驗(yàn)流之中,而不是短暫的互動(dòng)片段。

  • ? 它們的行動(dòng)和觀察將深深扎根于環(huán)境之中,而不是僅僅通過(guò)人類(lèi)對(duì)話進(jìn)行互動(dòng)。

  • ? 它們的獎(jiǎng)勵(lì)將扎根于它們對(duì)環(huán)境的體驗(yàn),而不是來(lái)自人類(lèi)的先入為主的判斷。

  • ? 它們將計(jì)劃和/或推理經(jīng)驗(yàn),而不是僅僅以人類(lèi)的術(shù)語(yǔ)進(jìn)行推理。

我們相信,今天的技術(shù),只要采用適當(dāng)選擇的算法,就已經(jīng)提供了足夠強(qiáng)大的基礎(chǔ)來(lái)實(shí)現(xiàn)這些突破。此外,人工智能界對(duì)這一議程的追求將激發(fā)這些方向的新創(chuàng)新,從而迅速推動(dòng)人工智能朝著真正的超人類(lèi)智能發(fā)展。

經(jīng)驗(yàn)流(Streams)

一個(gè)經(jīng)驗(yàn)型智能體可以在一生中持續(xù)學(xué)習(xí)。在人類(lèi)數(shù)據(jù)時(shí)代,基于語(yǔ)言的人工智能主要關(guān)注于短期的互動(dòng)片段:例如,用戶提出一個(gè)問(wèn)題,智能體(可能在經(jīng)過(guò)幾個(gè)思考步驟或工具使用動(dòng)作后)做出回應(yīng)。通常,幾乎沒(méi)有或根本沒(méi)有信息從一個(gè)片段傳遞到下一個(gè)片段,從而排除了任何隨時(shí)間推移的適應(yīng)性。此外,智能體的目標(biāo)完全是在當(dāng)前片段內(nèi)獲得結(jié)果,例如直接回答用戶的問(wèn)題。相比之下,人類(lèi)(和其他動(dòng)物)存在于一個(gè)持續(xù)多年的行動(dòng)和觀察流之中。信息在整個(gè)信息流中傳遞,它們的行為會(huì)根據(jù)過(guò)去的經(jīng)驗(yàn)進(jìn)行調(diào)整,以自我糾正和改進(jìn)。此外,目標(biāo)可以用在信息流的未來(lái)中延伸很遠(yuǎn)的行動(dòng)和觀察來(lái)指定。例如,人類(lèi)可以選擇采取行動(dòng)來(lái)實(shí)現(xiàn)長(zhǎng)期目標(biāo),例如改善他們的健康狀況、學(xué)習(xí)一門(mén)語(yǔ)言或取得科學(xué)突破。

強(qiáng)大的智能體應(yīng)該擁有像人類(lèi)一樣,在較長(zhǎng)時(shí)間尺度上推進(jìn)的自身經(jīng)驗(yàn)流。這將使智能體能夠采取行動(dòng)來(lái)實(shí)現(xiàn)未來(lái)目標(biāo),并隨著時(shí)間的推移不斷適應(yīng)新的行為模式。例如,一個(gè)連接到用戶可穿戴設(shè)備的健康和保健智能體可以監(jiān)測(cè)用戶數(shù)月的睡眠模式、活動(dòng)水平和飲食習(xí)慣。然后,它可以提供個(gè)性化的建議、鼓勵(lì),并根據(jù)長(zhǎng)期趨勢(shì)和用戶的具體健康目標(biāo)調(diào)整其指導(dǎo)。同樣,一個(gè)個(gè)性化的教育智能體可以跟蹤用戶在學(xué)習(xí)新語(yǔ)言方面的進(jìn)展,識(shí)別知識(shí)差距,適應(yīng)他們的學(xué)習(xí)風(fēng)格,并在數(shù)月甚至數(shù)年的時(shí)間里調(diào)整其教學(xué)方法。此外,一個(gè)科學(xué)智能體可以追求雄心勃勃的目標(biāo),例如發(fā)現(xiàn)一種新材料或減少二氧化碳。這樣的智能體可以在較長(zhǎng)的時(shí)間范圍內(nèi)分析真實(shí)世界的觀察結(jié)果,開(kāi)發(fā)和運(yùn)行模擬,并提出真實(shí)世界的實(shí)驗(yàn)或干預(yù)措施。

在每種情況下,智能體都會(huì)采取一系列步驟,以便最大限度地提高相對(duì)于指定目標(biāo)的長(zhǎng)期成功率。單個(gè)步驟可能不會(huì)提供任何即時(shí)利益,甚至可能在短期內(nèi)有害,但從總體上看,可能有助于更長(zhǎng)期的成功。這與當(dāng)前的AI系統(tǒng)形成鮮明對(duì)比,后者提供對(duì)請(qǐng)求的即時(shí)響應(yīng),而沒(méi)有任何能力來(lái)衡量或優(yōu)化其行為對(duì)環(huán)境的未來(lái)影響。

行動(dòng)和觀察(Actions and Observations)

經(jīng)驗(yàn)時(shí)代的智能體將在真實(shí)世界中自主行動(dòng)。人類(lèi)數(shù)據(jù)時(shí)代的LLM主要關(guān)注于人類(lèi)特權(quán)的行動(dòng)和觀察,這些行動(dòng)和觀察將文本輸出給用戶,并將用戶的文本輸入回智能體。這與自然智能截然不同,在自然智能中,動(dòng)物通過(guò)運(yùn)動(dòng)控制和傳感器與環(huán)境互動(dòng)。雖然動(dòng)物,尤其是人類(lèi),可能會(huì)與其他動(dòng)物交流,但這通過(guò)與其他感覺(jué)運(yùn)動(dòng)控制相同的界面發(fā)生,而不是通過(guò)特權(quán)通道。

人們?cè)缇驼J(rèn)識(shí)到,LLM也可以在數(shù)字世界中調(diào)用行動(dòng),例如通過(guò)調(diào)用API(例如,參見(jiàn) )。最初,這些能力主要來(lái)自人類(lèi)的工具使用示例,而不是來(lái)自智能體的經(jīng)驗(yàn)。然而,編碼和工具使用能力越來(lái)越多地建立在執(zhí)行反饋之上 ,在這些情況下,智能體實(shí)際上運(yùn)行代碼并觀察發(fā)生了什么。最近,新一波原型智能體已經(jīng)開(kāi)始以更通用的方式與計(jì)算機(jī)互動(dòng),使用與人類(lèi)操作計(jì)算機(jī)相同的界面 。這些變化預(yù)示著從完全以人類(lèi)特權(quán)為中心的交流,到更加自主的互動(dòng)的轉(zhuǎn)變,在這種互動(dòng)中,智能體能夠獨(dú)立地在世界中行動(dòng)。這樣的智能體將能夠積極探索世界,適應(yīng)不斷變化的環(huán)境,并發(fā)現(xiàn)人類(lèi)可能永遠(yuǎn)不會(huì)想到的策略。

這些更豐富的互動(dòng)將提供一種自主理解和控制數(shù)字世界的方法。智能體可以使用“人類(lèi)友好的”行動(dòng)和觀察,例如用戶界面,這自然有助于與用戶進(jìn)行溝通和協(xié)作。智能體也可以采取“機(jī)器友好的”行動(dòng),執(zhí)行代碼和調(diào)用API,從而使智能體能夠自主地為其目標(biāo)服務(wù)。在經(jīng)驗(yàn)時(shí)代,智能體還將通過(guò)數(shù)字接口與真實(shí)世界互動(dòng)。例如,一個(gè)科學(xué)智能體可以監(jiān)測(cè)環(huán)境傳感器,遠(yuǎn)程操作望遠(yuǎn)鏡,或控制實(shí)驗(yàn)室中的機(jī)械臂以自主進(jìn)行實(shí)驗(yàn)。

獎(jiǎng)勵(lì)(Rewards)

如果經(jīng)驗(yàn)型智能體可以從外部事件和信號(hào)中學(xué)習(xí),而不僅僅是人類(lèi)的偏好呢?

以人為中心的大型語(yǔ)言模型通常基于人類(lèi)的先入為主的判斷來(lái)優(yōu)化獎(jiǎng)勵(lì):專(zhuān)家觀察智能體的行動(dòng),并決定這是一個(gè)好的行動(dòng),還是在多個(gè)備選方案中選擇最佳的智能體行動(dòng)。例如,專(zhuān)家可能會(huì)評(píng)判健康智能體的建議、教育助手的教學(xué)或科學(xué)智能體提出的實(shí)驗(yàn)。這些獎(jiǎng)勵(lì)或偏好是由人類(lèi)在不考慮后果的情況下決定的,而不是衡量這些行動(dòng)對(duì)環(huán)境的影響,這意味著它們并非直接扎根于現(xiàn)實(shí)世界。以這種方式依賴人類(lèi)的先入為主的判斷通常會(huì)導(dǎo)致智能體性能達(dá)到難以逾越的瓶頸:智能體無(wú)法發(fā)現(xiàn)人類(lèi)評(píng)估者未曾賞識(shí)的更佳策略。為了發(fā)現(xiàn)遠(yuǎn)遠(yuǎn)超出既有的人類(lèi)知識(shí)的新想法,必須使用扎根的獎(jiǎng)勵(lì):即來(lái)自環(huán)境本身的信號(hào)。例如,一個(gè)健康助手可以將用戶的健康目標(biāo)扎根于基于休息心率、睡眠時(shí)長(zhǎng)和活動(dòng)水平等信號(hào)的獎(jiǎng)勵(lì)中,而一個(gè)教育助手可以使用考試成績(jī)來(lái)為語(yǔ)言學(xué)習(xí)提供扎根的獎(jiǎng)勵(lì)。同樣,一個(gè)以減少全球變暖為目標(biāo)的科學(xué)智能體可以使用基于二氧化碳水平的經(jīng)驗(yàn)觀察的獎(jiǎng)勵(lì),而一個(gè)以發(fā)現(xiàn)更強(qiáng)材料為目標(biāo)的智能體可以使用來(lái)自材料模擬器的多種測(cè)量的組合來(lái)扎根獎(jiǎng)勵(lì),例如抗拉強(qiáng)度或楊氏模量。

扎根的獎(jiǎng)勵(lì)可能來(lái)自作為智能體環(huán)境一部分的人類(lèi)2。例如,人類(lèi)用戶可以報(bào)告他們是否覺(jué)得蛋糕美味、運(yùn)動(dòng)后有多疲勞或頭痛的疼痛程度,從而使助手智能體能夠提供更好的食譜、改進(jìn)其健身建議或改善其推薦的藥物。這些獎(jiǎng)勵(lì)衡量了智能體行動(dòng)在其環(huán)境中的后果,并且最終應(yīng)能帶來(lái)比人類(lèi)專(zhuān)家預(yù)先判斷蛋糕食譜、鍛煉計(jì)劃或治療方案更好的幫助。

如果獎(jiǎng)勵(lì)不是來(lái)自人類(lèi)數(shù)據(jù),而是來(lái)自哪里呢?一旦智能體通過(guò)豐富的行動(dòng)和觀察空間(見(jiàn)上文)連接到世界,就會(huì)有無(wú)窮無(wú)盡的扎根信號(hào)來(lái)為獎(jiǎng)勵(lì)提供基礎(chǔ)。事實(shí)上,世界充斥著各種各樣的量化指標(biāo),例如成本、錯(cuò)誤率、饑餓感、生產(chǎn)力、健康指標(biāo)、氣候指標(biāo)、利潤(rùn)、銷(xiāo)售額、考試成績(jī)、成功率、訪問(wèn)量、產(chǎn)量、股票、點(diǎn)贊數(shù)、收入、快樂(lè)/痛苦、經(jīng)濟(jì)指標(biāo)、準(zhǔn)確率、功率、距離、速度、效率或能源消耗。此外,還有無(wú)數(shù)額外的信號(hào)來(lái)自特定事件的發(fā)生,或來(lái)自從原始觀察和行動(dòng)序列中提取的特征。

原則上,人們可以創(chuàng)建各種不同的智能體,每個(gè)智能體都優(yōu)化一個(gè)扎根的信號(hào)作為其獎(jiǎng)勵(lì)。有一種觀點(diǎn)認(rèn)為,即使是單個(gè)這樣的獎(jiǎng)勵(lì)信號(hào),如果以極高的效率進(jìn)行優(yōu)化,也可能足以誘導(dǎo)出廣泛的能力智能 3。這是因?yàn)?,在一個(gè)復(fù)雜的環(huán)境中,實(shí)現(xiàn)一個(gè)簡(jiǎn)單的目標(biāo)往往需要掌握各種各樣的技能。

然而,追求單一獎(jiǎng)勵(lì)信號(hào)表面上似乎不符合通用人工智能的要求,即能夠可靠地引導(dǎo)人工智能朝著任意用戶期望的行為發(fā)展。那么,自主優(yōu)化扎根的、非人類(lèi)的獎(jiǎng)勵(lì)信號(hào)是否與現(xiàn)代人工智能系統(tǒng)的要求背道而馳呢?我們認(rèn)為情況并非一定如此,我們?cè)诖斯蠢粘鲆环N可能滿足這些要求的方法;其他方法也可能是可行的。

這個(gè)想法是根據(jù)用戶的引導(dǎo),靈活地調(diào)整基于扎根信號(hào)的獎(jiǎng)勵(lì)。例如,獎(jiǎng)勵(lì)函數(shù)可以由一個(gè)神經(jīng)網(wǎng)絡(luò)定義,該網(wǎng)絡(luò)將智能體與用戶和環(huán)境的互動(dòng)作為輸入,并輸出一個(gè)標(biāo)量獎(jiǎng)勵(lì)。這使得獎(jiǎng)勵(lì)能夠以取決于用戶目標(biāo)的方式,選擇或組合來(lái)自環(huán)境的信號(hào)。例如,用戶可以指定一個(gè)廣泛的目標(biāo),例如“改善我的健康狀況”,獎(jiǎng)勵(lì)函數(shù)可能會(huì)返回一個(gè)關(guān)于用戶心率、睡眠時(shí)長(zhǎng)和步數(shù)的函數(shù)?;蛘哂脩艨梢灾付ㄒ粋€(gè)“幫助我學(xué)習(xí)西班牙語(yǔ)”的目標(biāo),獎(jiǎng)勵(lì)函數(shù)可以返回用戶的西班牙語(yǔ)考試成績(jī)。

此外,用戶可以在學(xué)習(xí)過(guò)程中提供反饋,例如他們的滿意度,這可以用來(lái)微調(diào)獎(jiǎng)勵(lì)函數(shù)。然后,獎(jiǎng)勵(lì)函數(shù)可以隨著時(shí)間的推移進(jìn)行調(diào)整,以改進(jìn)其選擇或組合信號(hào)的方式,并識(shí)別和糾正任何偏差。這也可以理解為一個(gè)雙層優(yōu)化過(guò)程,將用戶反饋?zhàn)鳛轫攲幽繕?biāo)進(jìn)行優(yōu)化,并將來(lái)自環(huán)境的扎根信號(hào)在底層進(jìn)行優(yōu)化。通過(guò)這種方式,少量的的人類(lèi)數(shù)據(jù)可以促進(jìn)大量的自主學(xué)習(xí)。

經(jīng)驗(yàn)和人類(lèi)數(shù)據(jù)并非完全對(duì)立。例如,狗完全通過(guò)經(jīng)驗(yàn)學(xué)習(xí),但人類(lèi)互動(dòng)是其經(jīng)驗(yàn)的一部分。

獎(jiǎng)勵(lì)即足夠假設(shè)認(rèn)為,智能以及與其相關(guān)的能力,可以自然而然地從獎(jiǎng)勵(lì)最大化中涌現(xiàn)出來(lái)。這可能包括包含人類(lèi)互動(dòng)和基于人類(lèi)反饋的獎(jiǎng)勵(lì)的環(huán)境。

在這種情況下,人們也可以將扎根的人類(lèi)反饋視為形成智能體總體目標(biāo)的單一獎(jiǎng)勵(lì)函數(shù),該目標(biāo)通過(guò)構(gòu)建和優(yōu)化基于豐富的、扎根的反饋的內(nèi)在獎(jiǎng)勵(lì)函數(shù) 來(lái)最大化。

計(jì)劃和推理(Planning and Reasoning)

經(jīng)驗(yàn)時(shí)代是否會(huì)改變智能體計(jì)劃和推理的方式?最近,在使用大型語(yǔ)言模型進(jìn)行推理或“思考”方面取得了顯著進(jìn)展 ,方法是遵循思維鏈,然后再輸出響應(yīng) 。從概念上講,大型語(yǔ)言模型可以充當(dāng)通用計(jì)算機(jī) :大型語(yǔ)言模型可以將token附加到自己的上下文中,從而使其能夠在輸出最終結(jié)果之前執(zhí)行任意算法。在人類(lèi)數(shù)據(jù)時(shí)代,這些推理方法被明確設(shè)計(jì)為模仿人類(lèi)的思維過(guò)程。例如,大型語(yǔ)言模型已被提示發(fā)出類(lèi)似人類(lèi)的思維鏈 、模仿人類(lèi)思維的痕跡 、或加強(qiáng)與人類(lèi)示例相匹配的思維步驟 。推理過(guò)程可以進(jìn)一步微調(diào),以產(chǎn)生與正確答案相匹配的思維痕跡,這是由人類(lèi)專(zhuān)家確定的 。

然而,人類(lèi)語(yǔ)言極不可能提供通用計(jì)算機(jī)的最佳實(shí)例。更有效的思維機(jī)制肯定存在,它們使用非人類(lèi)語(yǔ)言,例如,這些語(yǔ)言可能利用符號(hào)、分布式、連續(xù)或可微分的計(jì)算。原則上,一個(gè)自學(xué)習(xí)系統(tǒng)可以通過(guò)從經(jīng)驗(yàn)中學(xué)習(xí)如何思考來(lái)發(fā)現(xiàn)或改進(jìn)這些方法。例如,AlphaProof 以一種與人類(lèi)數(shù)學(xué)家截然不同的方式學(xué)習(xí)正式證明復(fù)雜的定理 。

此外,通用計(jì)算機(jī)的原則僅解決了智能體的內(nèi)部計(jì)算;它沒(méi)有將其與外部世界的現(xiàn)實(shí)聯(lián)系起來(lái)。一個(gè)被訓(xùn)練來(lái)模仿人類(lèi)思想甚至匹配人類(lèi)專(zhuān)家答案的智能體,可能會(huì)繼承深深嵌入在數(shù)據(jù)中的謬誤思維方法,例如有缺陷的假設(shè)或內(nèi)在的偏見(jiàn)。例如,如果一個(gè)智能體接受了使用 5000 年前的人類(lèi)思想和專(zhuān)家答案進(jìn)行推理的訓(xùn)練,它可能會(huì)以萬(wàn)物有靈論的方式推理物理問(wèn)題;1000 年前,它可能以有神論的方式推理;300 年前,它可能以牛頓力學(xué)的方式推理;而 50 年前,它可能以量子力學(xué)的方式推理。超越每一種思維方法都需要與現(xiàn)實(shí)世界互動(dòng):做出假設(shè)、進(jìn)行實(shí)驗(yàn)、觀察結(jié)果并相應(yīng)地更新原則。同樣,智能體必須扎根于真實(shí)世界的數(shù)據(jù)中,才能推翻謬誤的思維方法。這種扎根提供了一個(gè)反饋循環(huán),使智能體能夠根據(jù)現(xiàn)實(shí)檢驗(yàn)其繼承的假設(shè),并發(fā)現(xiàn)不受當(dāng)前主流人類(lèi)思維模式限制的新原則。如果沒(méi)有這種扎根,無(wú)論智能體多么復(fù)雜,都將成為現(xiàn)有的人類(lèi)知識(shí)的回音室。為了超越這一點(diǎn),智能體必須積極地與世界互動(dòng),收集觀察數(shù)據(jù),并利用這些數(shù)據(jù)迭代地改進(jìn)它們的理解,這在許多方面反映了驅(qū)動(dòng)人類(lèi)科學(xué)進(jìn)步的過(guò)程。

一種將思維直接扎根于外部世界的可行方法是構(gòu)建一個(gè)世界模型 ,該模型預(yù)測(cè)智能體的行動(dòng)對(duì)世界的影響,包括預(yù)測(cè)獎(jiǎng)勵(lì)。例如,一個(gè)健康助手可能會(huì)考慮為當(dāng)?shù)亟∩矸炕蚪】挡タ吞岢鼋ㄗh。智能體的世界模型可能會(huì)預(yù)測(cè)用戶的心率或睡眠模式在采取此行動(dòng)后可能會(huì)發(fā)生怎樣的變化,以及預(yù)測(cè)與用戶的未來(lái)對(duì)話。這使得智能體能夠直接根據(jù)自身的行動(dòng)及其對(duì)世界的因果效應(yīng)進(jìn)行計(jì)劃 。隨著智能體在其經(jīng)驗(yàn)流中不斷與世界互動(dòng),其動(dòng)態(tài)模型會(huì)不斷更新,以糾正其預(yù)測(cè)中的任何錯(cuò)誤。給定一個(gè)世界模型,智能體可以應(yīng)用可擴(kuò)展的計(jì)劃方法來(lái)提高智能體的預(yù)測(cè)性能。

計(jì)劃和推理方法并非相互排斥:智能體可以在計(jì)劃過(guò)程中應(yīng)用內(nèi)部LLM計(jì)算來(lái)選擇每個(gè)行動(dòng),或者模擬和評(píng)估這些行動(dòng)的后果。

為何是現(xiàn)在?(why now)

從經(jīng)驗(yàn)中學(xué)習(xí)并非新鮮事物。強(qiáng)化學(xué)習(xí)系統(tǒng)先前已經(jīng)掌握了大量復(fù)雜的任務(wù),這些任務(wù)在一個(gè)具有明確獎(jiǎng)勵(lì)信號(hào)的模擬器中得到表示(例如,大致上,圖 中的“模擬時(shí)代”)。


例如,強(qiáng)化學(xué)習(xí)方法在諸如雙陸棋 、圍棋 、國(guó)際象棋 、撲克 和策略棋 等棋盤(pán)游戲;諸如 Atari 、星際爭(zhēng)霸 II 、Dota 2 和 Gran Turismo 等電子游戲;靈巧的操縱任務(wù),如魔方 ;以及資源管理任務(wù),如數(shù)據(jù)中心冷卻 等方面,都達(dá)到了或超過(guò)了人類(lèi)的水平。此外,諸如 AlphaZero 等強(qiáng)大的強(qiáng)化學(xué)習(xí)智能體,在神經(jīng)網(wǎng)絡(luò)規(guī)模、互動(dòng)經(jīng)驗(yàn)的數(shù)量和思考時(shí)間方面,都表現(xiàn)出令人印象深刻且可能無(wú)限的可擴(kuò)展性。然而,基于這種范式的智能體并沒(méi)有跨越從模擬(具有單一、精確定義的獎(jiǎng)勵(lì)的封閉問(wèn)題)到現(xiàn)實(shí)(具有多種看似定義不清的獎(jiǎng)勵(lì)的開(kāi)放式問(wèn)題)的鴻溝。

人類(lèi)數(shù)據(jù)時(shí)代提供了一個(gè)有吸引力的解決方案。海量的人類(lèi)數(shù)據(jù)語(yǔ)料庫(kù)包含了針對(duì)各種各樣任務(wù)的自然語(yǔ)言示例。與模擬時(shí)代相對(duì)狹隘的成功相比,在此數(shù)據(jù)上訓(xùn)練的智能體實(shí)現(xiàn)了廣泛的能力。因此,體驗(yàn)式強(qiáng)化學(xué)習(xí)的方法在很大程度上被拋棄,轉(zhuǎn)而支持更通用的智能體,從而導(dǎo)致了向以人為中心的人工智能的廣泛轉(zhuǎn)型。

然而,在這種轉(zhuǎn)變中,有些東西丟失了:智能體自我發(fā)現(xiàn)知識(shí)的能力。例如,AlphaZero 為國(guó)際象棋和圍棋發(fā)現(xiàn)了全新的策略,改變了人類(lèi)玩這些游戲的方式 。經(jīng)驗(yàn)時(shí)代將調(diào)和這種能力與人類(lèi)數(shù)據(jù)時(shí)代所實(shí)現(xiàn)的任務(wù)通用性水平。正如上文概述,當(dāng)智能體能夠在真實(shí)世界經(jīng)驗(yàn)流中自主行動(dòng)和觀察 ,并且獎(jiǎng)勵(lì)可以靈活地連接到大量扎根的真實(shí)世界信號(hào)中的任何一個(gè)時(shí),這將成為可能。能夠與復(fù)雜的真實(shí)世界行動(dòng)空間 互動(dòng)的自主智能體的出現(xiàn),以及能夠解決豐富推理空間 中開(kāi)放式問(wèn)題的強(qiáng)大強(qiáng)化學(xué)習(xí)方法的出現(xiàn),表明向經(jīng)驗(yàn)時(shí)代的過(guò)渡迫在眉睫。

強(qiáng)化學(xué)習(xí)方法(Reinforcement Learning Methods)

強(qiáng)化學(xué)習(xí)(RL)有著悠久的歷史,它深深扎根于自主學(xué)習(xí),在這種學(xué)習(xí)模式中,智能體通過(guò)與環(huán)境的直接互動(dòng)來(lái)自主學(xué)習(xí)。早期的強(qiáng)化學(xué)習(xí)研究產(chǎn)生了一系列強(qiáng)大的概念和算法。例如,時(shí)序差分學(xué)習(xí) 使智能體能夠估計(jì)未來(lái)獎(jiǎng)勵(lì),從而在雙陸棋 等游戲中取得了超人類(lèi)的表現(xiàn)。探索技術(shù),由樂(lè)觀或好奇心驅(qū)動(dòng),被開(kāi)發(fā)出來(lái)以幫助智能體發(fā)現(xiàn)創(chuàng)造性的新行為,并避免陷入次優(yōu)的例行程序 。像 Dyna 算法這樣的方法使智能體能夠構(gòu)建和學(xué)習(xí)其世界模型,從而使它們能夠計(jì)劃和推理未來(lái)的行動(dòng) 。諸如選項(xiàng)和選項(xiàng)間/選項(xiàng)內(nèi)學(xué)習(xí)等概念促進(jìn)了時(shí)間抽象,使智能體能夠推理更長(zhǎng)的時(shí)間尺度,并將復(fù)雜的任務(wù)分解為可管理的子目標(biāo) 。

然而,以人為中心的大型語(yǔ)言模型的興起,將焦點(diǎn)從自主學(xué)習(xí)轉(zhuǎn)移到利用人類(lèi)知識(shí)。諸如 RLHF(從人類(lèi)反饋中強(qiáng)化學(xué)習(xí)) 等技術(shù)以及將語(yǔ)言模型與人類(lèi)推理對(duì)齊的方法 被證明非常有效,推動(dòng)了人工智能能力的快速進(jìn)步。這些方法雖然強(qiáng)大,但經(jīng)常繞過(guò)核心強(qiáng)化學(xué)習(xí)概念:RLHF 通過(guò)調(diào)用人類(lèi)專(zhuān)家來(lái)代替機(jī)器估計(jì)的價(jià)值函數(shù),從而繞過(guò)了對(duì)價(jià)值函數(shù)的需求;來(lái)自人類(lèi)數(shù)據(jù)的強(qiáng)大先驗(yàn)知識(shí)減少了對(duì)探索的依賴;而以人類(lèi)為中心的術(shù)語(yǔ)進(jìn)行推理則減少了對(duì)世界模型和時(shí)間抽象的需求。

然而,可以認(rèn)為范式的轉(zhuǎn)變已經(jīng)將嬰兒和洗澡水一起倒掉了。雖然以人為中心的強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)了前所未有的行為廣度,但它也對(duì)智能體的性能施加了新的上限:智能體無(wú)法超越現(xiàn)有的人類(lèi)知識(shí)。此外,人類(lèi)數(shù)據(jù)時(shí)代主要關(guān)注于為短暫的、無(wú)根基的人類(lèi)互動(dòng)片段而設(shè)計(jì)的強(qiáng)化學(xué)習(xí)方法,并且不適用于長(zhǎng)時(shí)間的、有根基的自主互動(dòng)流。

經(jīng)驗(yàn)時(shí)代提供了一個(gè)重新審視和改進(jìn)經(jīng)典強(qiáng)化學(xué)習(xí)概念的機(jī)會(huì)。這個(gè)時(shí)代將帶來(lái)思考獎(jiǎng)勵(lì)函數(shù)的新方法,這些獎(jiǎng)勵(lì)函數(shù)可以靈活地扎根于觀察數(shù)據(jù)中。它將重新審視價(jià)值函數(shù)和從尚未完成的序列中估計(jì)價(jià)值函數(shù)的方法。它將帶來(lái)有原則且實(shí)用的真實(shí)世界探索方法,這些方法可以發(fā)現(xiàn)與人類(lèi)先驗(yàn)知識(shí)截然不同的新行為。將開(kāi)發(fā)出捕捉扎根互動(dòng)復(fù)雜性的世界模型的新方法。時(shí)間抽象的新方法將使智能體能夠根據(jù)經(jīng)驗(yàn),在更長(zhǎng)的時(shí)間范圍內(nèi)進(jìn)行推理。通過(guò)建立在強(qiáng)化學(xué)習(xí)的基礎(chǔ)上,并使其核心原則適應(yīng)這個(gè)新時(shí)代的挑戰(zhàn),我們可以釋放自主學(xué)習(xí)的全部潛力,并為實(shí)現(xiàn)真正的超人類(lèi)智能鋪平道路。

后果(Consequences)

經(jīng)驗(yàn)時(shí)代的到來(lái),人工智能智能體將通過(guò)與世界的互動(dòng)進(jìn)行學(xué)習(xí),這預(yù)示著一個(gè)與我們之前所見(jiàn)截然不同的未來(lái)。這種新的范式在提供巨大潛力的同時(shí),也帶來(lái)了重要的風(fēng)險(xiǎn)和挑戰(zhàn),需要認(rèn)真考慮,包括但不限于以下幾點(diǎn)。

從積極的方面來(lái)看,經(jīng)驗(yàn)學(xué)習(xí)將釋放前所未有的能力。在日常生活中,個(gè)性化助手將利用持續(xù)的經(jīng)驗(yàn)流,在數(shù)月或數(shù)年的時(shí)間里,根據(jù)個(gè)人的健康、教育或職業(yè)需求,朝著長(zhǎng)期目標(biāo)進(jìn)行調(diào)整。也許最具變革意義的將是科學(xué)發(fā)現(xiàn)的加速。人工智能智能體將在材料科學(xué)、醫(yī)學(xué)或硬件設(shè)計(jì)等領(lǐng)域自主設(shè)計(jì)和進(jìn)行實(shí)驗(yàn)。通過(guò)不斷從自身實(shí)驗(yàn)的結(jié)果中學(xué)習(xí),這些智能體可以迅速探索新的知識(shí)前沿,從而以前所未有的速度開(kāi)發(fā)出新型材料、藥物和技術(shù)。

然而,這個(gè)新時(shí)代也帶來(lái)了重大且新穎的挑戰(zhàn)。雖然能力的提升有望提高生產(chǎn)力,但這些改進(jìn)也可能導(dǎo)致工作崗位流失。智能體甚至可能展現(xiàn)出以前被認(rèn)為是人類(lèi)獨(dú)有的能力,例如長(zhǎng)期問(wèn)題解決、創(chuàng)新以及對(duì)真實(shí)世界后果的深刻理解。

此外,雖然圍繞任何人工智能的潛在濫用都存在普遍擔(dān)憂,但能夠長(zhǎng)時(shí)間自主地與世界互動(dòng)以實(shí)現(xiàn)長(zhǎng)期目標(biāo)的智能體,可能會(huì)帶來(lái)更高的風(fēng)險(xiǎn)。默認(rèn)情況下,這為人類(lèi)干預(yù)和調(diào)解智能體的行動(dòng)提供了更少的機(jī)會(huì),因此需要更高的信任和責(zé)任門(mén)檻。遠(yuǎn)離人類(lèi)數(shù)據(jù)和人類(lèi)思維模式也可能使未來(lái)的AI系統(tǒng)更難以解釋。

然而,雖然我們承認(rèn)經(jīng)驗(yàn)學(xué)習(xí)將增加某些安全風(fēng)險(xiǎn),并且肯定需要進(jìn)一步研究以確保向經(jīng)驗(yàn)時(shí)代的平穩(wěn)過(guò)渡,但我們也應(yīng)該認(rèn)識(shí)到,它也可能提供一些重要的安全益處。

首先,經(jīng)驗(yàn)型智能體意識(shí)到它所處的環(huán)境,并且它的行為可以隨著時(shí)間的推移適應(yīng)環(huán)境的變化。任何預(yù)先編程的系統(tǒng),包括固定的AI系統(tǒng),都可能意識(shí)不到其環(huán)境背景,并變得不適應(yīng)其所部署的不斷變化的世界。例如,關(guān)鍵的硬件部件可能會(huì)發(fā)生故障,流行病可能會(huì)導(dǎo)致社會(huì)快速變化,或者新的科學(xué)發(fā)現(xiàn)可能會(huì)引發(fā)一連串快速的技術(shù)發(fā)展。相比之下,經(jīng)驗(yàn)型智能體可以觀察和學(xué)習(xí)如何規(guī)避故障硬件,適應(yīng)快速的社會(huì)變化,或擁抱并建立在新的科學(xué)和技術(shù)之上。也許更重要的是,智能體可以識(shí)別出當(dāng)它的行為引發(fā)人類(lèi)的擔(dān)憂、不滿或痛苦時(shí),并自適應(yīng)地修改其行為以避免這些負(fù)面后果。

其次,智能體的獎(jiǎng)勵(lì)函數(shù)本身可以通過(guò)經(jīng)驗(yàn)來(lái)調(diào)整,例如使用前面描述的雙層優(yōu)化(參見(jiàn)“獎(jiǎng)勵(lì)”部分)。重要的是,這意味著,有偏差的獎(jiǎng)勵(lì)函數(shù)通??梢酝ㄟ^(guò)反復(fù)試驗(yàn)隨著時(shí)間的推移逐步糾正。例如,與其盲目地優(yōu)化諸如最大化紙夾 之類(lèi)的信號(hào),不如在紙夾生產(chǎn)消耗地球所有資源之前,根據(jù)人類(lèi)關(guān)注的跡象修改獎(jiǎng)勵(lì)函數(shù)。這類(lèi)似于人類(lèi)為彼此設(shè)定目標(biāo)的方式,然后如果他們觀察到人們玩弄系統(tǒng)、忽視長(zhǎng)期福祉或造成不良的負(fù)面后果,則調(diào)整這些目標(biāo);盡管也像人類(lèi)目標(biāo)設(shè)定一樣,無(wú)法保證完全對(duì)齊。

最后,依賴物理經(jīng)驗(yàn)的進(jìn)步,本質(zhì)上受到在真實(shí)世界中執(zhí)行行動(dòng)并觀察其后果所需時(shí)間的限制。例如,即使有 AI 輔助設(shè)計(jì),新藥的開(kāi)發(fā)仍然需要無(wú)法在一夜之間完成的真實(shí)世界試驗(yàn)。這可能會(huì)對(duì)潛在的人工智能自我提升的速度提供一種自然的制約。

結(jié)論

經(jīng)驗(yàn)時(shí)代標(biāo)志著人工智能發(fā)展史上的一個(gè)關(guān)鍵時(shí)刻。在今天堅(jiān)實(shí)的基礎(chǔ)之上,但超越了人類(lèi)衍生數(shù)據(jù)的局限性,智能體將越來(lái)越多地從自身與世界的互動(dòng)中學(xué)習(xí)。智能體將通過(guò)豐富的觀察和行動(dòng),自主地與環(huán)境互動(dòng)。它們將在終生經(jīng)驗(yàn)流的過(guò)程中不斷適應(yīng)。它們的目標(biāo)將可以被引導(dǎo)到任何扎根信號(hào)的組合。此外,智能體將利用強(qiáng)大的非人類(lèi)推理,并構(gòu)建扎根于智能體行動(dòng)對(duì)其環(huán)境后果之上的計(jì)劃。最終,經(jīng)驗(yàn)數(shù)據(jù)將超越人類(lèi)生成數(shù)據(jù)的規(guī)模和質(zhì)量。這種范式轉(zhuǎn)變,伴隨著強(qiáng)化學(xué)習(xí)算法的進(jìn)步,將在許多領(lǐng)域釋放超越任何人所擁有的新能力。

參考:

https://storage.googleapis.com/deepmind-media/Era-of-Experience%20/The%20Era%20of%20Experience%20Paper.pdf

https://x.com/AnneXingxb/status/1912550059507610000

?星標(biāo)AI寒武紀(jì),好內(nèi)容不錯(cuò)過(guò)?

用你的在看告訴我~

求贊

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
3%稅率!個(gè)人養(yǎng)老金個(gè)稅政策明確,領(lǐng)取時(shí)需繳個(gè)稅,不區(qū)分本金與收益

3%稅率!個(gè)人養(yǎng)老金個(gè)稅政策明確,領(lǐng)取時(shí)需繳個(gè)稅,不區(qū)分本金與收益

金融界
2025-06-24 11:09:40
魯比奧說(shuō),從中國(guó)歷史上看到了美國(guó)的絕望

魯比奧說(shuō),從中國(guó)歷史上看到了美國(guó)的絕望

百花谷周伯通
2025-06-24 08:04:54
以伊“12天戰(zhàn)爭(zhēng)”,結(jié)束了?

以伊“12天戰(zhàn)爭(zhēng)”,結(jié)束了?

中國(guó)新聞周刊
2025-06-24 12:13:57
哈梅內(nèi)伊:伊朗絕不投降,但可以馬上?;?>
    </a>
        <h3>
      <a href=哈梅內(nèi)伊:伊朗絕不投降,但可以馬上?;?/a> 寰宇大觀察
2025-06-24 09:55:56
閱兵辦:考慮身體狀況不再組織抗戰(zhàn)老兵方隊(duì)參閱,安排現(xiàn)場(chǎng)觀禮

閱兵辦:考慮身體狀況不再組織抗戰(zhàn)老兵方隊(duì)參閱,安排現(xiàn)場(chǎng)觀禮

澎湃新聞
2025-06-24 11:16:27
從30多萬(wàn)跌到幾萬(wàn),誰(shuí)碰車(chē)位誰(shuí)哭

從30多萬(wàn)跌到幾萬(wàn),誰(shuí)碰車(chē)位誰(shuí)哭

易簡(jiǎn)財(cái)經(jīng)
2025-06-23 14:43:33
以伊沖突戛然而止?特朗普下了好大一盤(pán)棋,但以色列不愿意當(dāng)棋子

以伊沖突戛然而止?特朗普下了好大一盤(pán)棋,但以色列不愿意當(dāng)棋子

掌青說(shuō)歷史
2025-06-24 11:20:12
鹽城網(wǎng)紅健哥猝死,年僅51歲,患嚴(yán)重糖尿病,常熬夜直播賺錢(qián)

鹽城網(wǎng)紅健哥猝死,年僅51歲,患嚴(yán)重糖尿病,常熬夜直播賺錢(qián)

180視角
2025-06-24 10:56:11
馬克龍操心:伊朗關(guān)閉霍爾木茲海峽,對(duì)中國(guó)影響巨大

馬克龍操心:伊朗關(guān)閉霍爾木茲海峽,對(duì)中國(guó)影響巨大

觀察者網(wǎng)
2025-06-24 09:56:45
打起來(lái)了!伊朗導(dǎo)彈直奔美軍基地,4國(guó)緊急關(guān)閉領(lǐng)空,混戰(zhàn)或開(kāi)啟

打起來(lái)了!伊朗導(dǎo)彈直奔美軍基地,4國(guó)緊急關(guān)閉領(lǐng)空,混戰(zhàn)或開(kāi)啟

掌青說(shuō)歷史
2025-06-24 09:05:24
黃一鳴自曝:王思聰每次約她,車(chē)費(fèi)都給10萬(wàn),來(lái)給5萬(wàn),回再給5萬(wàn)

黃一鳴自曝:王思聰每次約她,車(chē)費(fèi)都給10萬(wàn),來(lái)給5萬(wàn),回再給5萬(wàn)

漢史趣聞
2025-06-24 10:07:59
外媒:內(nèi)塔尼亞胡宣布與伊朗達(dá)成全面?;饏f(xié)議

外媒:內(nèi)塔尼亞胡宣布與伊朗達(dá)成全面?;饏f(xié)議

環(huán)球網(wǎng)資訊
2025-06-24 12:12:11
女生體毛旺盛是什么樣的體驗(yàn)?網(wǎng)友:妹子的體毛屬實(shí)把我嚇到了

女生體毛旺盛是什么樣的體驗(yàn)?網(wǎng)友:妹子的體毛屬實(shí)把我嚇到了

特約前排觀眾
2025-06-24 00:15:04
橋梁垮塌后,正在調(diào)研的貴州省委書(shū)記,立即調(diào)整行程趕赴現(xiàn)場(chǎng)

橋梁垮塌后,正在調(diào)研的貴州省委書(shū)記,立即調(diào)整行程趕赴現(xiàn)場(chǎng)

政知新媒體
2025-06-24 14:17:36
突發(fā)!伊朗接受停火,大國(guó)夢(mèng)碎

突發(fā)!伊朗接受?;穑髧?guó)夢(mèng)碎

藍(lán)鉆故事
2025-06-24 07:44:57
張朝陽(yáng)直播2.5小時(shí)解析高考物理壓軸題,稱(chēng)如果自己出題,會(huì)出簡(jiǎn)單點(diǎn)的

張朝陽(yáng)直播2.5小時(shí)解析高考物理壓軸題,稱(chēng)如果自己出題,會(huì)出簡(jiǎn)單點(diǎn)的

觀威海
2025-06-24 09:38:43
驚了!華人廚師娶泰國(guó)母女,過(guò)上一夫二妻的日子,靠的是這個(gè)特長(zhǎng)!

驚了!華人廚師娶泰國(guó)母女,過(guò)上一夫二妻的日子,靠的是這個(gè)特長(zhǎng)!

閑侃閑侃
2025-06-24 07:39:31
中紀(jì)委機(jī)關(guān)刊披露:落馬副市長(zhǎng)收受近百萬(wàn)元高檔煙酒,催生購(gòu)銷(xiāo)灰產(chǎn)

中紀(jì)委機(jī)關(guān)刊披露:落馬副市長(zhǎng)收受近百萬(wàn)元高檔煙酒,催生購(gòu)銷(xiāo)灰產(chǎn)

澎湃新聞
2025-06-24 13:56:26
返航通話錄音被截獲!37小時(shí)萬(wàn)里奔襲B-2轟炸機(jī)內(nèi)部設(shè)施曝光,回去還要搶停機(jī)位?

返航通話錄音被截獲!37小時(shí)萬(wàn)里奔襲B-2轟炸機(jī)內(nèi)部設(shè)施曝光,回去還要搶停機(jī)位?

紅星新聞
2025-06-23 15:56:17
廈蓉高速貴州境內(nèi)一橋梁垮塌致貨車(chē)車(chē)頭懸空,被困司機(jī)已獲救

廈蓉高速貴州境內(nèi)一橋梁垮塌致貨車(chē)車(chē)頭懸空,被困司機(jī)已獲救

新京報(bào)
2025-06-24 13:27:13
2025-06-24 14:43:00
AI寒武紀(jì) incentive-icons
AI寒武紀(jì)
專(zhuān)注于人工智能,科技領(lǐng)域
731文章數(shù) 320關(guān)注度
往期回顧 全部

科技要聞

特斯拉股價(jià)飆漲8%,但Robotaxi小違章不斷

頭條要聞

外媒:內(nèi)塔尼亞胡宣布與伊朗達(dá)成全面?;饏f(xié)議

頭條要聞

外媒:內(nèi)塔尼亞胡宣布與伊朗達(dá)成全面?;饏f(xié)議

體育要聞

如果你喜歡籃球,你沒(méi)理由不喜歡步行者

娛樂(lè)要聞

名校不是護(hù)身符,李雪琴更多黑料被扒

財(cái)經(jīng)要聞

以色列和伊朗同意全面停火!

汽車(chē)要聞

7.98萬(wàn)起 firefly螢火蟲(chóng)推出電池租用購(gòu)車(chē)方案

態(tài)度原創(chuàng)

健康
家居
本地
房產(chǎn)
數(shù)碼

呼吸科專(zhuān)家破解呼吸道九大謠言!

家居要聞

龍湖滟瀾 現(xiàn)代歐式混搭

本地新聞

被貴妃帶火的“唐代頂流”,如今怎么不火了

房產(chǎn)要聞

猛增23所學(xué)校,4w+學(xué)位!??诘碾u娃家長(zhǎng)們,可以松口氣了!

數(shù)碼要聞

高到?jīng)]人敢信!曝AMD Zen6 CPU頻率將遠(yuǎn)超6.0GHz

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 嘉峪关市| 普兰县| 绵阳市| 晋中市| 兴安盟| 天峨县| 揭西县| 太谷县| 邢台市| 区。| 锦屏县| 错那县| 凤翔县| 南投县| 甘南县| 滦南县| 兴海县| 宜黄县| 城步| 龙门县| 依安县| 中山市| 神木县| 娱乐| 登封市| 邯郸市| 视频| 平阳县| 卢氏县| 长兴县| 璧山县| 安新县| 乌拉特前旗| 廉江市| 古浪县| 宣武区| 英吉沙县| 黄浦区| 湘潭县| 屏山县| 盈江县|