99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

全球閑置算力訓個模型,性能媲美R1,老黃天塌了!Karpathy曾投資

0
分享至

  • 白交 克雷西 發自 凹非寺
    量子位 | 公眾號 QbitAI

一夜之間,老黃天塌了(doge)。

全球首個分布式RL訓練模型INTELLECT-2發布,它僅通過整合全球閑置或分散的計算資源,就完成了模型的強化學習訓練,訓練成本大大降低。

其模型性能與DeepSeek-R1媲美!



一旦范式成立,這也就意味RL訓練擺脫了對集中式算力的依賴,世界上任何一個人都可以參與到模型訓練當中,大公司壟斷算力時代可能就此終結。

Just like this~算力來算力來,算力從四面八方來。



此模型版本有19個人/機構提供了力資源支持(源自模型回答,還包括它自己)



除了貢獻算力,還有不少大佬愿意投錢,包括不限于Karpathy大神、FlashAttention作者Tri Dao大神、HuggingFace聯創兼CEO Clem Delangue等等。

據團隊成員介紹,他們從編寫模型強化學習框架prime-rl,到今天發布大概只用了兩個月時間

  • 目前基礎設施已到位,并且經過驗證,超過那些先進實驗室只是時間問題。

(比如OpenAI?)



有人已經開始斷言:未來的頂級開源模型將以分布式方式進行訓練。



INTELLECT-2搶先測

目前INTELLECT-2支持網頁端體驗,只需簡單注冊就可以使用。與其他通用助手頁面類似差不多,不過輸入僅支持文本。



那咱們先來一些基礎問題:INTELLECT-2最大的特點是什么?

在推理思考了幾秒鐘之后,它給出了答案,首先強調了這是首個去中心化RL訓練的超大規模模型,其次還有強化學習訓練、參數規模與性能的平衡、數據隱私安全與社區驅動等特點。



回答基本OK,那直接來上點難度:

一個外星人來到地球后,第一天有相等的可能選擇以下四件事中的一件完成:
1,自我毀滅;
2,分裂成兩個外星人;
3,分裂成三個外星人;
4,什么都不做。

此后每天,每個外星人均會做一次選擇,且彼此之間相互獨立,求地球上最終沒有外星人的概率

在思考了一會兒之后,回答是醬嬸。





雖然格式有點亂,但是最后回答正確,而且是解析解。(o゜▽゜)o☆[BINGO!]。

如果昨天是明天就好了,那么今天就是周五了。 問:句子中的今天可能是星期幾?



可以看到基本能力有,但現在還不是特別穩定。像當你開始新對話時,會碰到以下這種情況。



已經有熱心網友已經制作成了GGUF格式上傳到HF。



分布式強化學習訓練

INTELLECT-2是一個分布式的大模型訓練框架,采用了全球分布式異步強化學習的范式。

通俗講,INTELLECT-2就如同一個超大型的眾包項目,任何擁有閑置算力資源的人都可以參與其中。

“異步”則是指不同階段可以獨立、并行地進行,因此不同性能的設備可以同時參與,而不會相互影響。

具體來說,系統會利用全球貢獻者提供的異構算力在本地生成推理數據;這些數據經過驗證后匯集到中心,用于更新模型策略;更新后的策略再分發到每個節點,開始新一輪迭代。



在這套流程當中,一共涉及了四大關鍵組件——

  • 核心RL框架PRIME-RL,實現推理數據生成與模型訓練的解耦和異步進行;
  • 參數分發網絡SHARDCAST,負責將更新后的模型參數高效分發給全球各地的推理節點;
  • 推理驗證協議TOPLOC,驗證每個推理節點提交數據的可信性;
  • Protocol Testnet,為不同學習任務構建獨立算力資源池,實現算力貢獻和使用的去中心化管理。

INTELLECT團隊已將這四大組件全部開源。

★核心RL框架PRIME-RL

PRIME-RL的核心,是支持推理數據生成與模型訓練的解耦與異步執行。

這種方式允許分散的推理節點按照自己的進度生成數據,無需彼此協調和等待。

為了進一步提升性能和減小顯存占用,PRIME-RL采用支持bfloat16精度的vLLM(vector LLM)作為推理運行時。

另外還集成了FSDP(Fully Sharded Data Parallel)技術對模型進行切片。

FSDP將模型的參數和梯度按層切分到不同的GPU上,每個GPU只負責一部分的計算和存儲。

★參數分發網絡SHARDCAST

SHARDCAST是一個基于HTTP的參數分發網絡,負責將更新后的模型權重廣播給全球范圍內的推理節點。

在分布式強化學習中,由于文件體積極大,而網絡帶寬資源良莠不齊,模型權重的分發通常是一個難點。

為了解決這個問題,SHARDCAST引入了分片傳輸、多級緩存、智能調度等一系列優化技術。

分片傳輸指的是將模型權重文件切分成多個小的分片,然后并行傳輸。這種做法不僅能充分利用網絡帶寬,降低傳輸延遲,還能提高傳輸的魯棒性,不會因為個別分片傳輸失敗而造成整體重傳。

多級緩存是一種類似于CDN的傳輸模式,具體來說,SHARDCAST在推理節點和中心節點之間引入了一層中繼服務器作為緩存。每當中心節點產生新的模型權重,它首先將權重文件推送到這些中繼服務器。

這樣一來,推理節點就可以就近從中繼服務器拉取權重文件,而不是直接從中心節點獲取,可以有效緩解中心節點的網絡I/O壓力。



另外,與普通的被動響應式傳輸不同,SHARDCAST的中繼服務器會主動跟蹤每個推理節點的權重版本,當發現版本落后時,會主動將增量權重推送給節點,確保了權重更新的實時性。

同時,SHARDCAST還會根據網絡拓撲和帶寬狀況,動態調整傳輸策略和路由,選擇最優的分發路徑。

★推理驗證協議TOPLOC

TOPLOC全稱Tierion backed Proof-of-Locality Protocol,是INTELLECT-2中負責驗證推理節點生成數據可信性的關鍵組件。

其目的是確保每個推理節點提交的數據可信,避免惡意節點通過提交虛假數據來破壞模型訓練。

TOPLOC通過密碼學證明和可驗證計算等技術實現,可以概括為Proof生成和Proof檢查兩個主要步驟。

Proof生成是指當一個推理節點完成一組推理任務后,不僅要將生成的軌跡數據提交給中心節點,還要附帶提交一個密碼學proof。

這個proof證明了所提交的數據確實是由特定版本的模型、特定的輸入、特定的隨機數種子生成的,其生成基于安全哈希算法,確保了proof與推理過程綁定。

中心節點在收到推理數據和proof后,會定期抽查部分數據的可信性。驗證節點首先會重放推理節點的模型prefill,然后將計算得到的中間狀態與proof進行比對。

為了降低開銷,推理節點只需提交關鍵的中間狀態,而非完整的計算過程;驗證節點也只需重放部分關鍵路徑,而不是全盤重做。



★Protocol Testnet

Protocol Testnet是INTELLECT-2的底層基礎設施,為全球范圍內的計算資源管理和任務調度提供了統一的接口和規范。

它將不同類別的人工智能訓練任務組織成獨立的計算域,每個計算域都有自己的資源池,由去中心化的“賬本系統”來管理節點的身份、貢獻和信譽值。

每個計算域對應了一種特定的訓練任務,如語言模型預訓練、多模態對齊、強化學習等。

針對一個特定的訓練任務,開發者會在Testnet上注冊一個新的計算域,計算域定義了任務的相關屬性和協議規范。

全球范圍內的算力提供者可以將自己的計算設備注冊到Testnet的資源池中。每個節點在加入時,,都需要在去中心化“賬本”上生成一個唯一的密碼學身份,用于后續的貢獻度記錄和信譽管理。

當一個計算域有新的訓練任務需要執行時,Testnet的任務調度服務會根據各節點的算力特征和網絡狀況,將任務分發到合適的節點上。節點按照任務要求,執行計算并生成結果。

節點生成的計算結果需要經過驗證,以確保其可信性,對于通過驗證的結果,節點的貢獻度會被記錄在去中心化賬本上,作為后續獎勵分配的依據。

服務支持:在整個任務執行過程中,Testnet還提供了節點發現、健康監控、日志管理等一系列配套服務,以協助節點的管理和問題診斷,保障分布式網絡的穩定運行。



★更多訓練細節

另外在訓練過程中,INTELLECT2還采用了兩步異步強化學習的模式,也就是權重的廣播與正在進行的推理和訓練完全重疊,從而消除了通信瓶頸。



以及雙面GRPO剪輯,通過使用雙面標記概率比剪輯來緩解梯度尖峰,從而使訓練更加穩定。



數據方面,INTELLECT2采用了來自NuminaMath-1.5、Deepscaler和 SYNTHETIC-1的28.5萬個可驗證任務(數學和編碼),并結合離線和在線過濾來選擇具有挑戰性的任務,顯著提高了模型學習效率。

★QwQ-32B數學和代碼性能提升

INTELLECT-2的實驗主要包括兩個部分——TARGET-SHORT和TARGET-LONG,分別對應短目標長度和長目標長度的訓練設置。

  • TARGET-SHORT:隨著訓練的進行,任務獎勵(表示數學和編程能力)顯著提高,長度懲罰有所下降;
  • TARGET-LONG:任務獎勵同樣大幅提升,長度懲罰也呈下降趨勢,但在實驗的有限時間內尚未完全收斂,模型還未完全學會嚴格遵守思考預算。



與基線模型QwQ-32B(INTELLECT-2是由QwQ-32B經強化訓練而成)相比,INTELLECT-2在數學和編程基準測試(如AIME、LiveCodeBench)上的表現有所提升,但在IFEval上略有下降,可能是因為訓練只專注于數學和編程任務。



在計算資源利用方面,INTELLECT-2通過異步強化學習成功實現了通信和計算的重疊。在兩個實驗設置中,SHARDCAST廣播平均耗時14分鐘,實現了約590Mb/s的帶寬吞吐量。

團隊曾獲Karpathy投資

INTELLEC-2背后的團隊,名叫Prime Intellect,位于美國舊金山。

創始人兼CEO是Vincent Weisser,來自德國(實際上團隊中很多人都有德國背景),之前參與過大量的創業項目,Prime Intellect是他最新的創業成果。



聯創兼CTO Johannes Hagemann,德國Hasso Plattner研究所碩士,本科畢業于多特蒙德工業大學。

CEO Weisser擔任核心成員的創業項目VitaDAO,Hagemann曾出任策略顧問。



創始工程師Jannik Straube,慕尼黑工業大學碩士,之前曾在IBM工作。



在INTELLEC-2之前,Prime Intellect團隊也發布過一系列分布式訓練的模型成果:

  • INTELLECT-1,第一個在分散式基礎設施上訓練的10B參數模型;
  • METAGENE-1,用于早期流行病檢測和全球健康應用的生物模型;
  • INTELLECT-MATH,使用RL訓練的數學推理模型。

另外,基于分布式強化學習,團隊還推出了從DeepSeek-R1 生成最大的合成推理數據集GENESYS + SYNTHETIC-1。

今年2月,Prime Intellect團隊獲得了1500萬美元(約1.08億人民幣)的新投資,用來構建點對點AI協議。

這筆投資由創始人基金領銜,投資者中還包括大神Karpathy、Hugging Face聯創兼CEO Clem Delangue、FlashAttention作者Tri Dao、Stability AI前CEO Emad Mostaque等AI界名人。

加上之前已有的資金,Prime Intellect團隊獲得的總資金超過了2000萬美元。



在接下來的計劃當中,Prime Intellect將進行提高推理-訓練計算的比例,為模型提供推理鏈中的內置工具(網絡搜索、Python 解釋器等),以及融合獨立訓練的RL模型等一系列工作。

宏觀方面,團隊也將擴大計算市場,擴展去中心化訓練,并與開源和去中心化人工智能領域的其他領先項目開展合作。


[1]https://www.primeintellect.ai/blog/intellect-2-release
[2]https://www.primeintellect.ai/blog/fundraise
[3]https://x.com/PrimeIntellect/status/1921730059620196772
[4]https://news.ycombinator.com/item?id=43958898

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
免票!福利!畢節4個景區最新優惠→

免票!福利!畢節4個景區最新優惠→

易瞰
2025-04-30 10:33:53
考研暫停!多院校公布停招!

考研暫停!多院校公布停招!

MBA中國網
2025-05-12 18:00:25
張蘭霸氣出擊!律師曝光4月份汪小菲聊天記錄,S家要崩盤了

張蘭霸氣出擊!律師曝光4月份汪小菲聊天記錄,S家要崩盤了

一盅情懷
2025-05-12 09:34:58
滄州15歲張海龍被害案:他力氣太大了,但媽媽一來,他就不再掙扎

滄州15歲張海龍被害案:他力氣太大了,但媽媽一來,他就不再掙扎

阿鳧愛吐槽
2025-04-29 09:59:26
面對新式紅衛兵,一個歷史老師的無奈:誰之罪?

面對新式紅衛兵,一個歷史老師的無奈:誰之罪?

霹靂炮
2025-04-23 23:16:50
“家中有兩喜,不是好兆頭”,一個家庭,突然來這兩件喜事,不好

“家中有兩喜,不是好兆頭”,一個家庭,突然來這兩件喜事,不好

詩詞中國
2025-03-20 12:19:00
最新!上海兩區發布人事任免消息

最新!上海兩區發布人事任免消息

魯中晨報
2025-05-13 22:20:03
被針對?全紅嬋再次落敗陳芋汐,背后原因浮出水面,直面自身缺陷

被針對?全紅嬋再次落敗陳芋汐,背后原因浮出水面,直面自身缺陷

體壇亦說
2025-05-12 21:56:22
有些女人真傻,一旦夫妻感情不和,晚上就不愿意讓老公碰

有些女人真傻,一旦夫妻感情不和,晚上就不愿意讓老公碰

加油丁小文
2025-05-13 06:22:46
有種倔強叫“我是媽生臉”!明明出道前后判若兩人,以為觀眾瞎?

有種倔強叫“我是媽生臉”!明明出道前后判若兩人,以為觀眾瞎?

顧聲的和平集市
2025-05-11 13:14:25
人活多久,看喝酒就知道?壽命短的人,喝酒一般有這4個特征

人活多久,看喝酒就知道?壽命短的人,喝酒一般有這4個特征

河山銳新聞
2025-04-09 08:43:06
外賣小哥目睹偷情現場,順手幫忙被三姐一眼看中,逃離后就往家約

外賣小哥目睹偷情現場,順手幫忙被三姐一眼看中,逃離后就往家約

吾觀専欗
2025-05-12 21:46:39
中俄連談3小時,普京對華作出保證?

中俄連談3小時,普京對華作出保證?

龍視國際
2025-05-12 21:38:12
一枚硬幣影響億萬美元!獨行俠拋硬幣勝公牛 最終拿狀元簽!

一枚硬幣影響億萬美元!獨行俠拋硬幣勝公牛 最終拿狀元簽!

直播吧
2025-05-13 08:46:26
印巴沖突后,伊朗或成第二個“巴鐵”?殲 - 10C 引爆中東新格局

印巴沖突后,伊朗或成第二個“巴鐵”?殲 - 10C 引爆中東新格局

林子說事
2025-05-14 01:03:41
孩子12歲前,最渴望聽到媽媽說的5句話,你說過幾句

孩子12歲前,最渴望聽到媽媽說的5句話,你說過幾句

蓁蓁心理撫養
2025-05-12 18:00:09
馬英九:若大陸統一臺灣的手段不和平,過程不民主,臺灣人不接受

馬英九:若大陸統一臺灣的手段不和平,過程不民主,臺灣人不接受

紅色鑒史官
2025-04-11 20:15:02
輸球后耍性子拒絕握手,許利民的攤手怒視,保住了北京最后的體面

輸球后耍性子拒絕握手,許利民的攤手怒視,保住了北京最后的體面

后仰大風車
2025-05-13 08:15:08
李在明妻子雨中撐傘美出圈!皮膚白到發光,網友:金建希輸慘了

李在明妻子雨中撐傘美出圈!皮膚白到發光,網友:金建希輸慘了

迪迪的娛樂故事
2025-04-18 07:16:56
雪碧悄悄換配方了?售后人員回應

雪碧悄悄換配方了?售后人員回應

大象新聞
2025-05-12 23:18:10
2025-05-14 02:43:00
量子位 incentive-icons
量子位
追蹤人工智能動態
10470文章數 176139關注度
往期回顧 全部

科技要聞

京東外賣首戰業績如何?創新業務狂攬57億

頭條要聞

退車車主懟小米解決方案:20000的積分 好比歡樂豆

頭條要聞

退車車主懟小米解決方案:20000的積分 好比歡樂豆

體育要聞

離開曼聯,他在馬拉多納的城市成為明星

娛樂要聞

張柏芝母親節上熱搜!3個兒子引熱議

財經要聞

老股民被收割670萬 殺豬盤牽出20億大案

汽車要聞

或2027年發布 全新寶馬1系假想圖曝光

態度原創

藝術
時尚
房產
游戲
本地

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

松弛感穿搭太適合夏天了,減齡又好看

房產要聞

58 萬人等哭了!老黃埔高端商圈為何難產20年?!

《百日戰紀》日本首發實體銷量破 2 萬 / 《劍星》PC 版發售日曝光

本地新聞

春色滿城關不住|溪水浣青苔 鐘乳洞藏多少光陰

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 高雄市| 巍山| 巴中市| 苏尼特左旗| 四子王旗| 任丘市| 西吉县| 仪征市| 灵宝市| 金堂县| 八宿县| 永胜县| 永川市| 安平县| 汾西县| 油尖旺区| 体育| 贡觉县| 河源市| 潮安县| 周口市| 高密市| 衢州市| 南开区| 拉萨市| 龙川县| 抚顺市| 绥德县| 建始县| 稷山县| 沙雅县| 安国市| 那曲县| 鄂伦春自治旗| 唐山市| 沂南县| 望都县| 淮滨县| 陵川县| 邓州市| 察雅县|