99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

小米MiMo模型:如何從預(yù)訓(xùn)練到后訓(xùn)練全面激發(fā)大語言模型推理潛力

0
分享至

2025年5月,小米LLM核心團(tuán)隊(duì)發(fā)布了一項(xiàng)突破性研究,展示了他們?nèi)碌拇笳Z言模型MiMo-7B如何在數(shù)學(xué)和編程推理任務(wù)上取得卓越成績。這項(xiàng)研究發(fā)表于arXiv(arXiv:2505.07608v1),論文鏈接為https://github.com/xiaomimimo/MiMo。

想象一下,如果你正在嘗試教一個(gè)聰明的學(xué)生解決復(fù)雜的數(shù)學(xué)問題或編寫高效的計(jì)算機(jī)程序。你會怎么做?你可能會從基礎(chǔ)知識開始,然后逐步引導(dǎo)他們掌握更復(fù)雜的思維方式,最后通過反復(fù)練習(xí)和反饋來強(qiáng)化他們的能力。小米的研究團(tuán)隊(duì)正是采用了類似的方法來打造他們的MiMo-7B大語言模型,使它在復(fù)雜推理任務(wù)上表現(xiàn)出色。

一、為何MiMo-7B值得關(guān)注?

在人工智能領(lǐng)域,我們經(jīng)常看到像OpenAI、DeepSeek和Anthropic這樣的公司推出強(qiáng)大的推理型大語言模型,它們能夠解決復(fù)雜的數(shù)學(xué)問題和生成高質(zhì)量的代碼。然而,這些模型通常體積龐大,參數(shù)量動輒達(dá)到320億甚至更多。想象一下,這就像需要一臺超級計(jì)算機(jī)才能運(yùn)行的龐大軟件。

而小米的研究人員提出了一個(gè)有趣的問題:我們能否創(chuàng)造一個(gè)體積小得多但推理能力同樣出色的模型?他們的答案是肯定的。MiMo-7B只有70億參數(shù)(相比之下,其他頂級推理模型可能是它的四倍大小),卻在多項(xiàng)推理任務(wù)上超越了那些更大的模型,包括OpenAI的o1-mini。

這就像是在賽車世界中,一輛精心調(diào)校的緊湊型跑車擊敗了大排量的超級跑車。小米團(tuán)隊(duì)通過精心設(shè)計(jì)模型的"成長過程",實(shí)現(xiàn)了這一目標(biāo) - 從模型的"童年"(預(yù)訓(xùn)練階段)到"青少年期"(后訓(xùn)練階段)都進(jìn)行了全面優(yōu)化。

二、預(yù)訓(xùn)練:培養(yǎng)模型的基礎(chǔ)思維能力

想象一下你正在教一個(gè)孩子閱讀和理解世界。你會給他們提供各種各樣的書籍、故事和知識,幫助他們建立廣泛的知識基礎(chǔ)。小米團(tuán)隊(duì)在模型預(yù)訓(xùn)練階段就是這樣做的,但他們采取了一些特別的方法。

更好的學(xué)習(xí)材料

首先,研究團(tuán)隊(duì)優(yōu)化了數(shù)據(jù)預(yù)處理流程。就像為孩子挑選高質(zhì)量的教材一樣,他們改進(jìn)了文本提取工具,特別注重保留網(wǎng)頁中的數(shù)學(xué)公式和代碼片段。傳統(tǒng)的網(wǎng)頁抓取工具通常會丟失這些重要的推理信息,就像從教科書中撕掉了所有的方程式和例題一樣。

研究人員還開發(fā)了一個(gè)能在一天內(nèi)完成的全局?jǐn)?shù)據(jù)去重系統(tǒng),這就像快速篩選掉重復(fù)的學(xué)習(xí)材料,確保模型接觸到的每一段內(nèi)容都帶來新的學(xué)習(xí)價(jià)值。

多維度數(shù)據(jù)篩選

接下來,團(tuán)隊(duì)使用了多維度的數(shù)據(jù)篩選方法。想象一下,你不僅要考慮教材的主題是否合適,還要評估它的難度、連貫性和知識密度。傳統(tǒng)的基于規(guī)則的過濾器可能會錯(cuò)誤地過濾掉包含大量數(shù)學(xué)和代碼內(nèi)容的高質(zhì)量網(wǎng)頁,就像誤把高級教材當(dāng)作難以理解的內(nèi)容而丟棄。

為解決這個(gè)問題,研究人員微調(diào)了小型語言模型作為數(shù)據(jù)質(zhì)量評估器,對內(nèi)容進(jìn)行領(lǐng)域分類和多維度質(zhì)量評估,確保模型能接觸到豐富的推理模式。

人工合成的推理數(shù)據(jù)

研究團(tuán)隊(duì)還利用先進(jìn)的推理模型生成多樣化的合成推理數(shù)據(jù)。這就像請經(jīng)驗(yàn)豐富的老師為學(xué)生創(chuàng)建定制習(xí)題集。他們選擇標(biāo)記為具有高推理深度的STEM內(nèi)容,并提示模型基于這些材料進(jìn)行深入思考和分析。同時(shí),他們收集數(shù)學(xué)和代碼問題,讓推理模型來解決它們,并將解答過程納入訓(xùn)練數(shù)據(jù)。

有趣的是,研究發(fā)現(xiàn),與普通數(shù)據(jù)不同,合成推理數(shù)據(jù)可以被訓(xùn)練極高的輪次而不會出現(xiàn)過擬合風(fēng)險(xiǎn) - 就像解決復(fù)雜問題的思路永遠(yuǎn)不會過時(shí)一樣。

三階段數(shù)據(jù)混合策略

最后,研究團(tuán)隊(duì)采用了三階段數(shù)據(jù)混合策略來優(yōu)化預(yù)訓(xùn)練數(shù)據(jù)分布:

在第一階段,他們納入了除推理任務(wù)合成響應(yīng)外的所有數(shù)據(jù)源。他們減少了過度代表的內(nèi)容(如廣告、新聞、招聘信息)的比例,并增加了來自專業(yè)領(lǐng)域的高價(jià)值數(shù)據(jù)的比例。這就像為學(xué)生提供廣泛但精心篩選的基礎(chǔ)知識。

在第二階段,他們顯著增加了數(shù)學(xué)和代碼相關(guān)數(shù)據(jù)的比例,使其占混合數(shù)據(jù)的約70%。這就像讓學(xué)生開始專注于數(shù)學(xué)和編程的訓(xùn)練,但不放棄其他基礎(chǔ)知識的學(xué)習(xí)。

在第三階段,為了提升解決復(fù)雜任務(wù)的能力,他們進(jìn)一步納入了約10%的數(shù)學(xué)、代碼和創(chuàng)意寫作查詢的合成響應(yīng)。同時(shí),他們將上下文長度從8,192個(gè)詞元擴(kuò)展到32,768個(gè)詞元,這就像訓(xùn)練學(xué)生處理更長、更復(fù)雜的問題。

通過這個(gè)過程,研究團(tuán)隊(duì)構(gòu)建了一個(gè)包含約25萬億詞元的大規(guī)模高質(zhì)量預(yù)訓(xùn)練數(shù)據(jù)集。這相當(dāng)于讓模型閱讀了數(shù)以億計(jì)的書籍和文檔,吸收了海量的知識和推理模式。

模型架構(gòu)與超參數(shù)

MiMo-7B遵循通用的僅解碼器Transformer架構(gòu),包括分組查詢注意力(GQA)、預(yù)RMS歸一化、SwiGLU激活和旋轉(zhuǎn)位置嵌入(RoPE)。

為了解決推理模型在長序列自回歸生成過程中的推理速度瓶頸,研究團(tuán)隊(duì)引入了多詞元預(yù)測(MTP)作為額外的訓(xùn)練目標(biāo)。這就像訓(xùn)練一個(gè)學(xué)生不僅能一步步解題,還能預(yù)見幾步后的解題路徑,從而加速整個(gè)解題過程。

在預(yù)訓(xùn)練階段,他們僅使用單個(gè)MTP層,因?yàn)槌醪窖芯勘砻鞫鄠€(gè)MTP層不會帶來進(jìn)一步的改進(jìn)。然而,在推理階段,他們發(fā)現(xiàn)多個(gè)并行MTP層通過推測解碼能顯著加速推理。

這種設(shè)計(jì)使MiMo-7B能夠在AIME24基準(zhǔn)測試上實(shí)現(xiàn)約90%的第一MTP層接受率,即使是第三MTP層也能保持75%以上的接受率。這種高接受率使模型能夠提供增強(qiáng)的解碼速度,特別是在需要極長輸出的推理場景中。

三、后訓(xùn)練:從潛力到卓越表現(xiàn)

預(yù)訓(xùn)練階段打下了堅(jiān)實(shí)的基礎(chǔ),就像為一個(gè)天才學(xué)生提供了廣泛而深入的知識。但要使這位學(xué)生成為特定領(lǐng)域的專家,還需要更有針對性的訓(xùn)練。這就是后訓(xùn)練階段的作用。

監(jiān)督微調(diào)

研究團(tuán)隊(duì)首先對MiMo-7B-Base模型進(jìn)行了監(jiān)督微調(diào)(SFT)。他們使用了約50萬個(gè)樣本的SFT數(shù)據(jù)集,這些數(shù)據(jù)是開源和專有蒸餾數(shù)據(jù)的組合。為確保最佳質(zhì)量和多樣性,他們實(shí)施了三階段預(yù)處理流程:

首先,他們消除了與評估基準(zhǔn)有16-gram重疊的所有訓(xùn)練查詢,防止數(shù)據(jù)泄漏。其次,他們排除了帶有混合語言或不完整響應(yīng)的樣本。最后,他們將每個(gè)查詢的響應(yīng)數(shù)量上限設(shè)為八個(gè),在保持多樣性和防止冗余之間取得平衡。

強(qiáng)化學(xué)習(xí)數(shù)據(jù)策略

研究團(tuán)隊(duì)使用了兩類可驗(yàn)證問題 - 數(shù)學(xué)和代碼 - 來構(gòu)建強(qiáng)化學(xué)習(xí)訓(xùn)練數(shù)據(jù)。他們的初步研究表明,高質(zhì)量的問題集在穩(wěn)定RL訓(xùn)練過程和進(jìn)一步增強(qiáng)語言模型推理能力方面起著關(guān)鍵作用。

對于數(shù)學(xué)問題,他們從各種來源收集數(shù)據(jù),包括開源數(shù)據(jù)集和專有收集的競賽級收藏。為降低獎(jiǎng)勵(lì)黑客(reward hacking)風(fēng)險(xiǎn),他們使用LLM過濾基于證明的問題和多選題。與最近的方法不同,他們保留了原始問題而非修改問題以確保整數(shù)答案,以最小化獎(jiǎng)勵(lì)黑客風(fēng)險(xiǎn)。

他們還使用基于模型的難度評估來進(jìn)一步提高數(shù)據(jù)集質(zhì)量。初始階段,他們過濾掉無法被先進(jìn)推理模型解決的問題,識別那些過于困難或包含錯(cuò)誤答案的問題。對于剩余問題,他們讓MiMo-7B的SFT版本進(jìn)行16次嘗試,淘汰通過率超過90%的簡單問題。這個(gè)過程移除了原始問題集中約50%的簡單問題。

對于代碼問題,他們精心策劃了一個(gè)包含開源數(shù)據(jù)集和新收集問題集的高質(zhì)量訓(xùn)練集。他們移除了沒有測試用例的問題。對于有黃金解決方案的問題,他們排除了黃金解決方案未能通過所有測試用例的問題。對于沒有黃金解決方案的問題,他們丟棄了在先進(jìn)推理模型16次嘗試中沒有測試用例可以被解決的問題。

在獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)上,他們僅使用基于規(guī)則的準(zhǔn)確性獎(jiǎng)勵(lì)。對于數(shù)學(xué)數(shù)據(jù),他們使用基于規(guī)則的Math-Verify庫評估響應(yīng)的正確性。對于代碼問題,他們實(shí)現(xiàn)了一個(gè)基于測試難度的獎(jiǎng)勵(lì)機(jī)制,如后續(xù)章節(jié)所詳細(xì)描述的。

強(qiáng)化學(xué)習(xí)算法改進(jìn)

研究團(tuán)隊(duì)采用了修改版的組相對策略優(yōu)化(GRPO)算法,并融入了研究社區(qū)最近提出的改進(jìn):

移除KL損失:簡單地刪除KL損失可以有效釋放策略模型的全部潛力,而不會影響訓(xùn)練穩(wěn)定性。

動態(tài)采樣:在RL滾出階段,他們過度采樣并過濾掉通過率等于1和0的提示,在保持一致批量大小的同時(shí)保留所有具有有效梯度的提示。這種策略會自動校準(zhǔn)整個(gè)策略訓(xùn)練過程中的問題難度。

更高上限裁剪:他們增加了方程中的上限裁剪邊界ε_high,同時(shí)保持固定的下限裁剪邊界ε_low。這可以緩解熵收斂問題并促進(jìn)策略探索新解決方案。

針對代碼任務(wù)的測試難度驅(qū)動獎(jiǎng)勵(lì)

對于算法代碼生成任務(wù),現(xiàn)有的RL工作通常采用基于規(guī)則的獎(jiǎng)勵(lì)策略,只有當(dāng)生成的代碼通過給定問題的所有測試用例時(shí)才給予獎(jiǎng)勵(lì)。然而,對于困難的算法問題,模型可能永遠(yuǎn)不會收到任何獎(jiǎng)勵(lì),阻止它從這些具有挑戰(zhàn)性的案例中學(xué)習(xí),并降低動態(tài)采樣的訓(xùn)練效率。

為解決這個(gè)限制,研究團(tuán)隊(duì)提出了一種新的獎(jiǎng)勵(lì)機(jī)制:測試難度驅(qū)動獎(jiǎng)勵(lì)。這個(gè)設(shè)計(jì)受到國際信息學(xué)奧林匹克(IOI)評分規(guī)則的啟發(fā)。在IOI比賽中,每個(gè)完整問題被分為多個(gè)子任務(wù),參與者將獲得他們成功完成的每個(gè)子任務(wù)的分?jǐn)?shù)。每個(gè)子任務(wù)都有不同難度的測試。

研究團(tuán)隊(duì)提出了一種基于難度對測試用例進(jìn)行分組的技術(shù)。他們利用多個(gè)模型對每個(gè)問題進(jìn)行多次嘗試,并計(jì)算每個(gè)測試用例在所有模型生成解決方案中的通過率。然后,他們根據(jù)通過率將測試用例聚類為不同的難度級別,通過率越低表示難度越高。

基于這些難度級別,他們設(shè)計(jì)了兩種獎(jiǎng)勵(lì)方案:嚴(yán)格方案和軟方案。在嚴(yán)格獎(jiǎng)勵(lì)方案下,解決方案僅在通過該組中的所有測試以及所有低難度組中的測試時(shí)才能獲得相應(yīng)難度級別的獎(jiǎng)勵(lì)。相比之下,軟獎(jiǎng)勵(lì)方案將每個(gè)組的總分平均分配給其測試。最終獎(jiǎng)勵(lì)是所有通過測試的分?jǐn)?shù)總和。

簡單數(shù)據(jù)過濾和重采樣策略

在RL訓(xùn)練過程中,隨著策略改進(jìn),越來越多的問題達(dá)到完美的通過率1。在動態(tài)采樣機(jī)制下,這些問題隨后從策略更新的批次中過濾掉。這種過濾導(dǎo)致采樣效率急劇下降,因?yàn)樾枰嗟臐L出來構(gòu)建固定大小的批次。

為了在不冒策略崩潰風(fēng)險(xiǎn)的情況下提高采樣效率,研究團(tuán)隊(duì)開發(fā)了一種簡單數(shù)據(jù)重采樣策略。在訓(xùn)練過程中,他們維護(hù)一個(gè)簡單數(shù)據(jù)池,存儲具有完美通過率的問題。在執(zhí)行滾出時(shí),有一定概率(在他們的實(shí)驗(yàn)中為10%)從這個(gè)簡單數(shù)據(jù)池中采樣數(shù)據(jù)。

RL基礎(chǔ)設(shè)施優(yōu)化

研究團(tuán)隊(duì)開發(fā)了無縫滾出引擎并增強(qiáng)了vLLM的魯棒性,以實(shí)現(xiàn)高效的基于動態(tài)采樣的RL訓(xùn)練。無縫滾出引擎通過高效的任務(wù)調(diào)度優(yōu)化GPU利用率,減少連續(xù)操作過程中的空閑時(shí)間。

該引擎包括以下組件:連續(xù)滾出、異步獎(jiǎng)勵(lì)計(jì)算和早期終止。它在訓(xùn)練速度上實(shí)現(xiàn)了2.29倍的提升,在驗(yàn)證速度上實(shí)現(xiàn)了1.96倍的提升。

四、模型性能表現(xiàn):小個(gè)子的大能量

所有的努力最終帶來了什么成果?MiMo-7B系列模型在各種基準(zhǔn)測試上都展現(xiàn)出了卓越的表現(xiàn)。

預(yù)訓(xùn)練模型的推理潛力

研究人員采用了pass@k指標(biāo)來評估不同模型的推理能力邊界。這個(gè)指標(biāo)衡量的是,如果允許模型嘗試k次解決一個(gè)問題,只要其中任何一次解答正確,就視為成功解決問題。

結(jié)果顯示,MiMo-7B-Base在所有基準(zhǔn)測試和評估的k值上都比同類規(guī)模的開源模型(包括Llama-3.1-8B、Gemma-2-9B和Qwen2.5-7B)取得了明顯更高的pass@k分?jǐn)?shù)。甚至與更大的32B基線模型相比,MiMo-7B-Base也表現(xiàn)出色。

特別值得注意的是,隨著k值的增加,MiMo-7B-Base與其他基線模型之間的性能差距穩(wěn)步擴(kuò)大,尤其是在LiveCodeBench上。這些結(jié)果證明了MiMo-7B-Base具有卓越的推理潛力,為RL訓(xùn)練奠定了堅(jiān)實(shí)的基礎(chǔ)。

后訓(xùn)練模型的綜合表現(xiàn)

在后訓(xùn)練階段,研究團(tuán)隊(duì)評估了兩個(gè)版本的模型:

MiMo-7B-RL-Zero:直接從MiMo-7B-Base進(jìn)行RL訓(xùn)練得到
MiMo-7B-RL:從MiMo-7B-SFT版本進(jìn)行RL訓(xùn)練得到

結(jié)果顯示,從基礎(chǔ)模型進(jìn)行RL訓(xùn)練的版本展現(xiàn)出更強(qiáng)的增長趨勢,例如在AIME 2024上從32.9%提高到56.4%。然而,從SFT模型進(jìn)行RL訓(xùn)練的版本達(dá)到了更高的性能上限,在所有評估的基準(zhǔn)測試中都取得了最佳結(jié)果。

與其他代表性模型(包括GPT-4o-0513、Claude-Sonnet-3.5-1022、OpenAI-o1-mini、QwQ-32B-Preview、DeepSeek-R1-Distill-Qwen-14B和DeepSeek-R1-Distill-Qwen-7B)相比:

在數(shù)學(xué)推理方面,MiMo-7B-RL在同等參數(shù)規(guī)模的模型中實(shí)現(xiàn)了頂級性能,在AIME 2024上僅略低于DeepSeek-R1-Distill-Qwen-14B。

在算法代碼生成任務(wù)上,MiMo-7B-RL展示了極其出色的結(jié)果。在LiveCodeBench v5上,它顯著優(yōu)于OpenAI o1-mini,而在最新的LiveCodeBench v6上,該模型實(shí)現(xiàn)了49.3%的得分,超過QwQ-32B-Preview約10個(gè)百分點(diǎn),展示了其穩(wěn)健持久的能力。

值得注意的是,MiMo-7B-RL還保持了強(qiáng)大的通用性能,超過了QwQ-32B-Preview和DeepSeek-R1-Distill-Qwen-7B,盡管RL訓(xùn)練僅包含數(shù)學(xué)和代碼問題。

五、研究洞見與挑戰(zhàn)

研究團(tuán)隊(duì)還分享了一些有趣的觀察和挑戰(zhàn):

格式對齊的作用

在從MiMo-7B-Base開始的初始RL訓(xùn)練步驟中,他們觀察到模型主要學(xué)習(xí)適應(yīng)答案提取函數(shù),例如數(shù)學(xué)問題的"\boxed{}"格式。因此,他們探索了一種"輕量級"SFT來幫助基礎(chǔ)模型與預(yù)期的答案格式對齊。

然而,結(jié)果顯示,經(jīng)過這種輕量級SFT的MiMo-7B-RL-LiteSFT模型在推理潛力和最終性能方面都表現(xiàn)不佳。雖然MiMo-7B-RL-LiteSFT一開始的性能高于MiMo-7B-RL-Zero,但在僅僅500步后就落后于基礎(chǔ)模型的發(fā)展軌跡。此外,與經(jīng)過"更重"SFT的MiMo-7B-RL相比,MiMo-7B-RL-LiteSFT展示了類似的增長趨勢,但由于起點(diǎn)較低而導(dǎo)致最終結(jié)果明顯較差。

不同領(lǐng)域之間的干擾

在從MiMo-7B-Base進(jìn)行RL訓(xùn)練的后期階段,維持?jǐn)?shù)學(xué)和編碼任務(wù)之間的性能平衡變得具有挑戰(zhàn)性。在訓(xùn)練步驟2000到2500之間,模型在代碼問題上表現(xiàn)持續(xù)改進(jìn),而在數(shù)學(xué)推理任務(wù)上的表現(xiàn)則波動并下降。

相比之下,對冷啟動SFT模型的RL訓(xùn)練在兩個(gè)領(lǐng)域都顯示出一致的改進(jìn)。對模型輸出的分析揭示,基礎(chǔ)模型憑借其強(qiáng)大的探索能力,傾向于黑入數(shù)學(xué)問題的獎(jiǎng)勵(lì)。然而,對于代碼問題,基于測試用例的驗(yàn)證器使獎(jiǎng)勵(lì)利用變得困難得多。這凸顯了高質(zhì)量數(shù)學(xué)問題集對確保穩(wěn)健RL訓(xùn)練的關(guān)鍵需求。

語言混合問題

像DeepSeek-R1-Zero一樣,研究團(tuán)隊(duì)在對MiMo-7B-Base進(jìn)行RL訓(xùn)練時(shí)也觀察到語言混合問題。為緩解這個(gè)問題,他們在獎(jiǎng)勵(lì)函數(shù)中引入了語言混合懲罰。

然而,他們發(fā)現(xiàn)設(shè)計(jì)這樣的懲罰函數(shù)具有挑戰(zhàn)性。雖然在英語響應(yīng)中檢測中文字符相對簡單,但反過來就困難得多,因?yàn)閿?shù)學(xué)方程式和代碼本身就包含英文單詞。結(jié)果,懲罰不僅未能完全解決語言混合問題,還引入了獎(jiǎng)勵(lì)黑客的風(fēng)險(xiǎn),例如無論問題語言如何,總是生成英語響應(yīng)。

六、結(jié)語:為推理模型開辟新路徑

小米團(tuán)隊(duì)的MiMo-7B系列模型展示了如何通過優(yōu)化預(yù)訓(xùn)練和后訓(xùn)練過程來釋放大語言模型的推理潛力。這項(xiàng)研究的意義在于,它證明了相對較小的模型(70億參數(shù))也能在復(fù)雜推理任務(wù)上表現(xiàn)出色,甚至超越參數(shù)量是它四倍的模型。

MiMo-7B-Base表現(xiàn)出的卓越推理潛力,以及MiMo-7B-RL在數(shù)學(xué)和代碼任務(wù)上的優(yōu)異表現(xiàn),為構(gòu)建更強(qiáng)大、更高效的推理模型開辟了新的道路。

讓我們把這個(gè)故事拉回到現(xiàn)實(shí)世界的意義:在人工智能迅速發(fā)展的今天,計(jì)算資源的效率變得越來越重要。小米的這項(xiàng)研究表明,通過細(xì)致的數(shù)據(jù)處理、創(chuàng)新的訓(xùn)練方法和精心設(shè)計(jì)的模型架構(gòu),我們可以創(chuàng)造出既強(qiáng)大又高效的AI系統(tǒng),這將使先進(jìn)AI技術(shù)更容易被廣泛應(yīng)用,從而在更多領(lǐng)域發(fā)揮積極作用。

最終,MiMo-7B不僅是一個(gè)技術(shù)成就,也是朝著更可持續(xù)、更普及的AI未來邁出的重要一步。對于開發(fā)者、研究人員和AI愛好者來說,這項(xiàng)研究提供了寶貴的見解,啟發(fā)我們思考如何構(gòu)建下一代更聰明、更高效的AI系統(tǒng)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
國家出手!“扁擔(dān)女孩”賬號被警方處罰,行政拘留10天,原因曝光

國家出手!“扁擔(dān)女孩”賬號被警方處罰,行政拘留10天,原因曝光

胡一舸北游
2025-06-20 16:45:49
戴笠曾坦言:我這輩子最佩服2人,最害怕1人!這3人分別是誰?

戴笠曾坦言:我這輩子最佩服2人,最害怕1人!這3人分別是誰?

轉(zhuǎn)身微笑梅
2025-06-17 20:59:00
死個(gè)人都死不起!一女婿稱岳父去世,煙酒支出3萬,累計(jì)近10萬…

死個(gè)人都死不起!一女婿稱岳父去世,煙酒支出3萬,累計(jì)近10萬…

火山詩話
2025-06-20 19:54:32
留學(xué)生在朋友圈曬回國機(jī)票,遭人暗中取消。律師:涉嫌違法,向ICE舉報(bào)將嫌犯遣返

留學(xué)生在朋友圈曬回國機(jī)票,遭人暗中取消。律師:涉嫌違法,向ICE舉報(bào)將嫌犯遣返

大洛杉磯LA
2025-06-21 05:59:59
浙江隊(duì)太小氣!與兩位功勛主帥不歡而散,離隊(duì)聲明還不忘挖苦一番

浙江隊(duì)太小氣!與兩位功勛主帥不歡而散,離隊(duì)聲明還不忘挖苦一番

弄月公子
2025-06-20 07:24:05
租金大撤退!房東正在批量跑路!

租金大撤退!房東正在批量跑路!

米筐投資
2025-06-21 07:09:26
63歲阿姨說:和再婚老伴同居后才懂得,男人老了還要找老伴的原因

63歲阿姨說:和再婚老伴同居后才懂得,男人老了還要找老伴的原因

烙任情感
2025-06-20 12:38:59
特朗普:將與哈佛大學(xué)達(dá)成“令人難以置信的、歷史性的”協(xié)議

特朗普:將與哈佛大學(xué)達(dá)成“令人難以置信的、歷史性的”協(xié)議

澎湃新聞
2025-06-21 10:32:27
如果步行者奪冠,那將是34年來東部首次連續(xù)兩年不同球隊(duì)奪冠

如果步行者奪冠,那將是34年來東部首次連續(xù)兩年不同球隊(duì)奪冠

雷速體育
2025-06-21 12:01:29
網(wǎng)傳鳳姐可能要被遣返?這名網(wǎng)紅鼻祖曾持特殊簽證留美,未獲綠卡

網(wǎng)傳鳳姐可能要被遣返?這名網(wǎng)紅鼻祖曾持特殊簽證留美,未獲綠卡

火山詩話
2025-06-21 06:42:47
伊朗總統(tǒng)稱以色列須無條件停止侵略

伊朗總統(tǒng)稱以色列須無條件停止侵略

界面新聞
2025-06-20 16:51:11
75歲老太擺攤賣菜被罰1萬,她交錢果斷離去,次日城管接到100個(gè)電話

75歲老太擺攤賣菜被罰1萬,她交錢果斷離去,次日城管接到100個(gè)電話

嘮叨情感屋
2025-06-17 10:56:01
真實(shí)的趙麗穎沒有網(wǎng)上說的這么漂亮,臉上就有溝溝坎坎,肌肉松垮

真實(shí)的趙麗穎沒有網(wǎng)上說的這么漂亮,臉上就有溝溝坎坎,肌肉松垮

鄉(xiāng)野小珥
2025-06-08 17:14:24
《人民日報(bào)》發(fā)文批盲盒:用精心設(shè)計(jì)的商業(yè)陷阱“套牢”孩子們

《人民日報(bào)》發(fā)文批盲盒:用精心設(shè)計(jì)的商業(yè)陷阱“套牢”孩子們

大象新聞
2025-06-20 08:09:31
女孩子打扮的清清爽爽不一樣很有女人味

女孩子打扮的清清爽爽不一樣很有女人味

美女穿搭分享
2025-06-21 12:16:41
美記:現(xiàn)在雷霆壓力很大,要么奪冠要么成為史上最慘烈翻車現(xiàn)場之一

美記:現(xiàn)在雷霆壓力很大,要么奪冠要么成為史上最慘烈翻車現(xiàn)場之一

雷速體育
2025-06-20 18:10:24
反擊不隔夜!英戰(zhàn)艦過航臺海當(dāng)天,中國發(fā)聲支持阿根廷對馬島主權(quán)

反擊不隔夜!英戰(zhàn)艦過航臺海當(dāng)天,中國發(fā)聲支持阿根廷對馬島主權(quán)

南宗歷史
2025-06-21 13:14:11
70歲王錫南,被查

70歲王錫南,被查

新京報(bào)政事兒
2025-06-21 12:17:46
周家斌,妄議黨中央大政方針、結(jié)交政治騙子、搞權(quán)色交易

周家斌,妄議黨中央大政方針、結(jié)交政治騙子、搞權(quán)色交易

政知新媒體
2025-06-20 19:25:24
陰法唐將軍逝世,享年103歲

陰法唐將軍逝世,享年103歲

魯中晨報(bào)
2025-06-20 17:45:09
2025-06-21 16:07:00
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
5416文章數(shù) 527關(guān)注度
往期回顧 全部

科技要聞

Siri有救了?蘋果被曝正討論史上最大收購

頭條要聞

貴州一落馬女干部被通報(bào)搞權(quán)色交易、公器私用

頭條要聞

貴州一落馬女干部被通報(bào)搞權(quán)色交易、公器私用

體育要聞

文班品嘗水席 "很享受在中國的時(shí)光"

娛樂要聞

70歲寇振海跳舞,網(wǎng)友:和依萍搶飯碗

財(cái)經(jīng)要聞

租金大撤退!房東正在批量跑路!

汽車要聞

扔掉"舊地圖”一汽-大眾大眾品牌要找"新大陸"

態(tài)度原創(chuàng)

健康
數(shù)碼
親子
房產(chǎn)
手機(jī)

呼吸科專家破解呼吸道九大謠言!

數(shù)碼要聞

初探蘋果 macOS 26游戲表現(xiàn):M1 Max跑《黑神話:悟空》超 60 FPS

親子要聞

踩氣球贏獎(jiǎng)勵(lì)挑戰(zhàn)!

房產(chǎn)要聞

坑慘2000多人!恒大財(cái)富海南高管被曝非吸12.6億元!

手機(jī)要聞

榮耀 AI 折疊屏實(shí)現(xiàn)自主多任務(wù)并行,Magic V5 首發(fā)搭載

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 鹿邑县| 图木舒克市| 宁城县| 惠水县| 安庆市| 吉林省| 色达县| 南投市| 闽清县| 临沂市| 祁门县| 三门县| 七台河市| 塔河县| 乡宁县| 镇宁| 石景山区| 大埔区| 麻栗坡县| 黑水县| 北海市| 绥化市| 平乡县| 健康| 绥江县| 井研县| 崇仁县| 满洲里市| 拜城县| 灵山县| 赞皇县| 色达县| 巴林右旗| 华宁县| 阳信县| 清苑县| 安化县| 朔州市| 名山县| 武邑县| 徐闻县|