網易首頁 > 網易號 > 正文申請入駐

下載量不足1000次，印度首個著名開源大模型翻車

2025-05-27 17:37:08　來源: RPA中國

北京舉報

分享至

印度最大的AI公司估值10億美元的Sarvam，開源了，基于Mistral的混合模型Sarvam-M-24B，支持印地語、孟加拉語等10種印度語言，也是印度首個著名開源模型。

卻遭到了Menlo Ventures投資人、著名AI評論人Deedy Das的嚴重吐槽，兩天時間下載量只有23次（至今只有700多）。而之前兩個韓國大學生開發的語音克隆模型，上個月下載量就達到了20萬次。

這條吐槽推文瀏覽量破260萬，引起了不小爭論。

其實這位老哥預測挺準的，4月29日他就吐槽過印度大模型，認為，印度自行研發AI大模型沒有太大的價值，除非它在某些領域能夠明確達到世界級水平。與軟件驅動的服務（如Swiggy、Flipkart）或社交平臺（如微信、小紅書）不同，一個面向封閉市場大模型并沒有什么內在優勢。

還特意說了國內外爆火的DeepSeek，其火的原因不是因為它來自中國，而是能夠以很低成本提供接近前沿模型的性能，并且可能在中文方面表現更佳。

對于這個事情，印度網友表示，重要的問題是——有什么用呢？你知道，在印度，幾乎所有有意義的交流都是用英語進行的。那么，當Gemini已經在10種不同的印度語言中表現出色時，擁有一個印度本地語言模型的意義何在呢？

在大多數情況下，印度人更擅長成為成熟產品的優秀員工或管理者，而非出色的創業者。即便這個Sarvam AI 的模型也是建立在法國的Mistral的基礎之上。

無意冒犯，有誰能說出一個國際知名的印度產品嗎？

印度在看待AI的方式上存在誤區。別再重復造輪子，也別試圖和中國競爭了！

我們不需要更多基礎模型，除非該模型是為解決特定行業問題而定制的。全球大型語言模型在通用領域表現出色，應該基于它們來開發AI應用程序。

估值10億美元的 Sarvam 兩天內僅獲得23 次下載。而Sofi 一款幾天前在印度面向小部分用戶推出的早期測試階段購物智能體，已經實現了超過 60% 的用戶參與度。

這種與西方和中國競爭的心態必須停止。只有不再想著競爭，才能真正實現創新。

我真的很欣賞 Sarvam 正在做的工作。沒錯，這是一個 240 億參數的模型，而且它確實不完美。

但我們必須明白，技術發展需要分階段進行 —— 快速試錯、小步失敗、從中學習，然后才能大獲成功！

我看過很多不同的觀點，但別忘了他們剛拿到融資啊。讓他們先進入狀態，之后自然會推出更有價值的成果。

他們嘗試做的事情值得稱贊。并非每一次發布都能成功。

至少他們正在印度創建一個生態系統，并培養相關人才。

這就像我們在奧運會上看到的故事一樣。我們不夠自信去在絕對水平上競爭，而是滿足于僅僅參與。印度似乎只是想保持漂浮狀態，而不是努力去游泳，這實在是令人遺憾。

根據Sarvam.ai官網消息顯示，Sarvam-M在多個基準測試中表現出色，特別是在印度語言任務、編程和數學推理方面。例如，在印度語言基準測試中，Sarvam-M的平均提升達到了20%，在數學基準測試中提升了21.6%，在編程基準測試中提升了17.6%。

Sarvam-M在多語言任務中也展現了強大的能力，例如，在羅馬化印度語言的GSM-8K基準測試中，性能提升了86%。

Sarvam-M的開發過程分為三個主要步驟：監督式微調（SFT）、帶有可驗證獎勵的強化學習（RLVR），以及推理優化。在監督式微調階段，Sarvam AI的目標是通過高質量的提示和完成來提升模型在印度語言、編程和數學等領域的表現，同時確保模型輸出符合印度文化價值觀。并從Hugging Face的微調數據集中收集了超過1150萬個提示，經過去重和過濾后，最終篩選出約370萬個高質量、多樣化的提示。

這些提示被分為16個大類，并通過聚類和語義去重等技術優化分布。為了生成高質量的提示完成，Sarvam AI開發了一種自定義評分模型，結合生成式評分和真實值評分，顯著提高了生成內容的質量。

此外，通過檢測和調整模型輸出中的政治偏見，并重新生成具有文化相關性的回答，Sarvam AI確保模型的輸出更加中立且貼近印度文化背景。

在訓練模式上，Sarvam AI采用“非思考模式”和“思考模式”進行訓練。在思考模式下，模型會在生成最終回答之前用英語生成推理標記。通過兩階段訓練，模型在印度語言任務上的表現得到了顯著提升。

在強化學習階段，強化學習是提升模型在特定任務上表現的重要手段。Sarvam AI通過精心設計的任務課程和獎勵機制，顯著提升了模型在數學、編程和語言任務上的表現。

設計了一套涵蓋數學、編程、指令遵循和翻譯等多個領域的任務課程。通過分階段訓練，模型在不同任務上的表現得到了平衡發展。在強化學習中，Sarvam AI采用了部分獎勵機制，特別是在編程任務中，通過測試用例的通過率來計算獎勵。

此外，通過調整提示的采樣策略，確保模型在訓練過程中能夠接觸到適當難度的任務。在算法優化方面，Sarvam AI選擇了GRPO算法，相比傳統的PPO算法，GRPO無需訓練單獨的價值函數，顯著降低了內存開銷。

在推理優化階段，推理優化是確保模型在實際部署中高效運行的關鍵環節。Sarvam AI通過后訓練量化和前瞻解碼等技術，顯著提升了模型的推理效率。通過將模型從bfloat16量化為fp8格式，Sarvam AI在保持模型精度的同時，大幅降低了模型的存儲和計算需求。實驗表明，精心設計的校準數據集對量化效果至關重要。

在H100 GPU上，Sarvam AI通過調整數據類型、模型并行度、并發量和前瞻解碼等參數，找到了成本效益最高的部署配置。優化后的模型在推理速度和成本控制方面表現出色。

下面是Sarvam-M開源地址，有興趣的小伙伴可以試試

開源地址：https://huggingface.co/sarvamai/sarvam-m

本文素材來源網絡、Sarvam-M，如有侵權請聯系刪除

報告下載

大佬觀點分享

關于RPA、AI、企業數字化轉型

(點擊文字即可閱讀)

| |

| | |

| |

行業知識交流分享，結識擴展人脈圈層

公眾號后臺回復【RPA】或者【流程挖掘】

可受邀加入相關的交流群

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.