99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

下載量不足1000次,印度首個著名開源大模型翻車

0
分享至

印度最大的AI公司估值10億美元的Sarvam,開源了,基于Mistral的混合模型Sarvam-M-24B,支持印地語、孟加拉語等10種印度語言,也是印度首個著名開源模型。

卻遭到了Menlo Ventures投資人、著名AI評論人Deedy Das的嚴重吐槽,兩天時間下載量只有23次(至今只有700多)。而之前兩個韓國大學生開發的語音克隆模型,上個月下載量就達到了20萬次。

這條吐槽推文瀏覽量破260萬,引起了不小爭論。


其實這位老哥預測挺準的,4月29日他就吐槽過印度大模型,認為,印度自行研發AI大模型沒有太大的價值,除非它在某些領域能夠明確達到世界級水平。與軟件驅動的服務(如Swiggy、Flipkart)或社交平臺(如微信、小紅書)不同,一個面向封閉市場大模型并沒有什么內在優勢。


還特意說了國內外爆火的DeepSeek,其火的原因不是因為它來自中國,而是能夠以很低成本提供接近前沿模型的性能,并且可能在中文方面表現更佳。


對于這個事情,印度網友表示,重要的問題是——有什么用呢?你知道,在印度,幾乎所有有意義的交流都是用英語進行的。那么,當Gemini已經在10種不同的印度語言中表現出色時,擁有一個印度本地語言模型的意義何在呢?


在大多數情況下,印度人更擅長成為成熟產品的優秀員工或管理者,而非出色的創業者。即便這個Sarvam AI 的模型也是建立在 法國的Mistral的基礎之上。

無意冒犯,有誰能說出一個國際知名的印度產品嗎?


印度在看待AI的方式上存在誤區。別再重復造輪子,也別試圖和中國競爭了!

我們不需要更多基礎模型,除非該模型是為解決特定行業問題而定制的。全球大型語言模型在通用領域表現出色,應該基于它們來開發AI應用程序。

估值10億美元的 Sarvam 兩天內僅獲得23 次下載。而Sofi 一款幾天前在印度面向小部分用戶推出的早期測試階段購物智能體,已經實現了超過 60% 的用戶參與度。

這種與西方和中國競爭的心態必須停止。只有不再想著競爭,才能真正實現創新。


我真的很欣賞 Sarvam 正在做的工作。沒錯,這是一個 240 億參數的模型,而且它確實不完美。

但我們必須明白,技術發展需要分階段進行 —— 快速試錯、小步失敗、從中學習,然后才能大獲成功!

我看過很多不同的觀點,但別忘了他們剛拿到融資啊。讓他們先進入狀態,之后自然會推出更有價值的成果。


他們嘗試做的事情值得稱贊。并非每一次發布都能成功。

至少他們正在印度創建一個生態系統,并培養相關人才。


這就像我們在奧運會上看到的故事一樣。我們不夠自信去在絕對水平上競爭,而是滿足于僅僅參與。印度似乎只是想保持漂浮狀態,而不是努力去游泳,這實在是令人遺憾。


根據Sarvam.ai官網消息顯示,Sarvam-M在多個基準測試中表現出色,特別是在印度語言任務、編程和數學推理方面。例如,在印度語言基準測試中,Sarvam-M的平均提升達到了20%,在數學基準測試中提升了21.6%,在編程基準測試中提升了17.6%。

Sarvam-M在多語言任務中也展現了強大的能力,例如,在羅馬化印度語言的GSM-8K基準測試中,性能提升了86%。


Sarvam-M的開發過程分為三個主要步驟:監督式微調(SFT)、帶有可驗證獎勵的強化學習(RLVR),以及推理優化。在監督式微調階段,Sarvam AI的目標是通過高質量的提示和完成來提升模型在印度語言、編程和數學等領域的表現,同時確保模型輸出符合印度文化價值觀。并從Hugging Face的微調數據集中收集了超過1150萬個提示,經過去重和過濾后,最終篩選出約370萬個高質量、多樣化的提示。

這些提示被分為16個大類,并通過聚類和語義去重等技術優化分布。為了生成高質量的提示完成,Sarvam AI開發了一種自定義評分模型,結合生成式評分和真實值評分,顯著提高了生成內容的質量。

此外,通過檢測和調整模型輸出中的政治偏見,并重新生成具有文化相關性的回答,Sarvam AI確保模型的輸出更加中立且貼近印度文化背景。


在訓練模式上,Sarvam AI采用“非思考模式”和“思考模式”進行訓練。在思考模式下,模型會在生成最終回答之前用英語生成推理標記。通過兩階段訓練,模型在印度語言任務上的表現得到了顯著提升。

在強化學習階段,強化學習是提升模型在特定任務上表現的重要手段。Sarvam AI通過精心設計的任務課程和獎勵機制,顯著提升了模型在數學、編程和語言任務上的表現。

設計了一套涵蓋數學、編程、指令遵循和翻譯等多個領域的任務課程。通過分階段訓練,模型在不同任務上的表現得到了平衡發展。在強化學習中,Sarvam AI采用了部分獎勵機制,特別是在編程任務中,通過測試用例的通過率來計算獎勵。

此外,通過調整提示的采樣策略,確保模型在訓練過程中能夠接觸到適當難度的任務。在算法優化方面,Sarvam AI選擇了GRPO算法,相比傳統的PPO算法,GRPO無需訓練單獨的價值函數,顯著降低了內存開銷。


在推理優化階段,推理優化是確保模型在實際部署中高效運行的關鍵環節。Sarvam AI通過后訓練量化和前瞻解碼等技術,顯著提升了模型的推理效率。通過將模型從bfloat16量化為fp8格式,Sarvam AI在保持模型精度的同時,大幅降低了模型的存儲和計算需求。實驗表明,精心設計的校準數據集對量化效果至關重要。

在H100 GPU上,Sarvam AI通過調整數據類型、模型并行度、并發量和前瞻解碼等參數,找到了成本效益最高的部署配置。優化后的模型在推理速度和成本控制方面表現出色。

下面是Sarvam-M開源地址,有興趣的小伙伴可以試試

開源地址:https://huggingface.co/sarvamai/sarvam-m

本文素材來源網絡、Sarvam-M,如有侵權請聯系刪除

報告下載

大 佬觀點分享

關于RPA、AI、企業數字化轉型

(點擊文字即可閱讀)

| |

| | |


| | |

| | |

| |

行業知識交流分享,結識擴展人脈圈層

公眾號后臺回復【RPA】或者【流程挖掘】

可受邀加入相關的交流群

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
奈雪被曝“喝出整只青蛙”,當事人:監管部門已介入

奈雪被曝“喝出整只青蛙”,當事人:監管部門已介入

大象新聞
2025-06-23 14:58:04
看到伊朗發威,特朗普意識到什么,衛星圖顯示,美軍艦連夜撤了?

看到伊朗發威,特朗普意識到什么,衛星圖顯示,美軍艦連夜撤了?

空天力量
2025-06-22 20:10:25
美媒:衛星照片顯示,美國空襲伊朗福爾多核設施留下至少6個巨大彈坑

美媒:衛星照片顯示,美國空襲伊朗福爾多核設施留下至少6個巨大彈坑

環球網資訊
2025-06-23 06:59:17
國運來了!中國德州發現全球首個超富鐵礦!專家:世界罕見

國運來了!中國德州發現全球首個超富鐵礦!專家:世界罕見

南宗歷史
2025-06-23 12:32:08
首戰中國隊!韓國隊東亞杯名單:20位本土聯賽球員+3位J聯賽球員

首戰中國隊!韓國隊東亞杯名單:20位本土聯賽球員+3位J聯賽球員

直播吧
2025-06-23 13:53:34
伊朗新一輪對以色列空襲持續40分鐘

伊朗新一輪對以色列空襲持續40分鐘

財聯社
2025-06-23 16:22:20
釋新聞|伊朗核設施在美軍空襲中受損情況如何?

釋新聞|伊朗核設施在美軍空襲中受損情況如何?

澎湃新聞
2025-06-23 09:48:28
歷史首人,亞歷山大成首位單賽季拿到MVP、西決MVP和FMVP球員

歷史首人,亞歷山大成首位單賽季拿到MVP、西決MVP和FMVP球員

懂球帝
2025-06-23 11:12:21
伊朗守國神器上場,特朗普連夜發了3條推文,美國最難的時候到了

伊朗守國神器上場,特朗普連夜發了3條推文,美國最難的時候到了

博覽歷史
2025-06-23 14:14:14
那爾那茜造假實錘!108萬片酬蒸發!不過這通報很多人可能沒看懂

那爾那茜造假實錘!108萬片酬蒸發!不過這通報很多人可能沒看懂

派大星紀錄片
2025-06-23 15:35:00
美國轟炸伊朗核設施背后:B-2為何能連飛44小時不燒發動機?

美國轟炸伊朗核設施背后:B-2為何能連飛44小時不燒發動機?

徐德文科學頻道
2025-06-23 12:47:48
不跪了,哈梅內伊亮終極王炸,大不了同歸于盡,號召8000萬人血戰

不跪了,哈梅內伊亮終極王炸,大不了同歸于盡,號召8000萬人血戰

大白話瞰世界
2025-06-23 13:26:40
霍啟仁低調完婚,網友扒出南風背景:不簡單

霍啟仁低調完婚,網友扒出南風背景:不簡單

丫頭舫
2025-06-22 15:52:02
休斯敦雷霆夕陽紅隊網友P圖 三少+海王+杰夫-格林齊聚火箭

休斯敦雷霆夕陽紅隊網友P圖 三少+海王+杰夫-格林齊聚火箭

直播吧
2025-06-23 15:18:41
全國理發店陷入倒閉潮,不是沒生意,是你把顧客“勸退”了!

全國理發店陷入倒閉潮,不是沒生意,是你把顧客“勸退”了!

李博世財經
2025-06-23 11:13:16
男子刷20萬后,不滿女主播只陪他3天,怒而將他們開房照片曝光

男子刷20萬后,不滿女主播只陪他3天,怒而將他們開房照片曝光

漢史趣聞
2025-06-23 10:26:20
剛剛,阿里發布全員通知,大調整

剛剛,阿里發布全員通知,大調整

大廠往事爆料
2025-06-23 14:02:23
越南副總理會見中企高管:歡迎參與南北高鐵項目,技術轉讓條款需納入合同

越南副總理會見中企高管:歡迎參與南北高鐵項目,技術轉讓條款需納入合同

小星球探索
2025-06-23 08:27:21
明日花綺羅凌晨發聲!揭與「周鶴年性交易」真相

明日花綺羅凌晨發聲!揭與「周鶴年性交易」真相

ETtoday星光云
2025-06-23 11:16:02
男子車內熱死后續!內臟“蒸熟”,曾有2次自救機會,家屬曝更多

男子車內熱死后續!內臟“蒸熟”,曾有2次自救機會,家屬曝更多

奇思妙想草葉君
2025-06-22 22:38:43
2025-06-23 17:11:00
RPA中國 incentive-icons
RPA中國
RPA行業生態平臺
2695文章數 1247關注度
往期回顧 全部

科技要聞

售出千萬臺!他卻說"只想做下一代AI終端"

頭條要聞

奔襲萬里的美B-2轟炸機內部披露 返航通話錄音被截獲

頭條要聞

奔襲萬里的美B-2轟炸機內部披露 返航通話錄音被截獲

體育要聞

比起雷霆三少,他才是真正隊魂

娛樂要聞

魏大勛和秦嵐沒分手!

財經要聞

關稅重磅!美國宣布,今起加征

汽車要聞

單電機200kW 奔馳純電長軸距CLA申報信息曝光

態度原創

房產
健康
藝術
教育
公開課

房產要聞

3天,75億!海南賣地殺瘋了!

呼吸科專家破解呼吸道九大謠言!

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

教育要聞

上海2025年本科錄取分數線公布!402分!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 龙海市| 库尔勒市| 沁源县| 安多县| 碌曲县| 耿马| 恩施市| 增城市| 延安市| 松阳县| 青神县| 玉树县| 育儿| 铁岭市| 柘荣县| 黄大仙区| 孙吴县| 图们市| 巨鹿县| 青岛市| 潢川县| 新余市| 渝北区| 阳春市| 花垣县| 巨野县| 林甸县| 黔西| 德钦县| 阿坝县| 阳江市| 龙泉市| 成安县| 库尔勒市| 阳东县| 开鲁县| 延川县| 德州市| 唐山市| 马龙县| 亳州市|