阿里新一代的大模型 Qwen 3 今早發布,新旗艦 Qwen3-235B-A22B 的評測成績,和 DeepSeek R1、Grok-3、Gemini-2.5-Pro 不相上下。這一代全系列模型都支持混合推理,對 Agent 的支持也上了新臺階。
隨著 Qwen 2.5 和 3 的發布,全球的開源模型生態也呈現了一種新形態:以 DeepSeek+Qwen 的中國開源組合,取代了過去 Llama 為主,Mistral 為輔的開源生態。Qwen 系列的衍生模型目前已經是 HuggingFace 上最受歡迎的開源模型,衍生模型的數量也超過了 Llama 系列。而 DeepSeek 對于開源模型生態的沖擊和貢獻,也有目共睹。
與大模型六小龍相比,主打開源的 Qwen 和 DeepSeek 無疑在國際市場贏得了更多開發者和創業者的關注,來自開源社區的代碼貢獻、更多優秀微調版本的出現,也在以另外一種方式推動模型能力的進步。
可以說,開源,正在成為中國大模型公司進入全球市場的最佳路徑。
而對阿里云來說,Qwen+阿里云的配合,「模型-云-行業應用」的打法,走出了國內 MaaS 模式的新方向,也在很大程度上降低了國內 AI 創業者的起步難度。讓 AI 創業本身,不再受困于成本、生態鏈的整合等。
Qwen 3 發布后,幾乎全參數、全模態的開源布局,會給 AI 創業帶來哪些新機會?我們采訪了四位來自不同行業的 AI 創業者,從文本到圖像、從 ToC 到 ToB,試圖還原 2025 年 AI 創業者對大模型落地的真實思考和實踐。
Founder Park 正在搭建開發者社群,邀請積極嘗試、測試新模型、新技術的開發者、創業者們加入,請掃碼詳細填寫你的產品/項目信息,通過審核后工作人員會拉你入群~
進群之后,你有機會得到:
高濃度的主流模型(如 DeepSeek 等)開發交流;
資源對接,與 API、云廠商、模型廠商直接交流反饋的機會;
好用、有趣的產品/案例,Founder Park 會主動做宣傳。
01
混合推理、Agent 友好,
大模型的新方向
Qwen 3 這次的發布,簡單來說,兩個方面的更新值得關注。
混合推理:Qwen3 是國內首個混合推理模型,本次引入了「思考模式/非思考模式」的無縫切換,用戶可以手動控制思考環節的 token 消費,類似 Gemini-2.5-Flash 和 Claude-Sonnet-3.7 的模式,這應該也是今后大模型的標配能力了。
更強的 Agent 能力:優化模型的 Agent 和 代碼能力,同時也加強了對 MCP 的支持。過往很多調用 MCP 工具失敗的場景,換成 Qwen3 之后成功率就提高了很多。
官方的博客介紹中明確表示「我們正從專注于訓練模型的時代過渡到以訓練 Agent 為中心的時代」。
這可能也代表著今天的大模型的一個新方向——從單純的模型強化學習,到讓大模型更擅長使用工具。
而對于 AI 創業者來說,似乎也更堅定了 Agent 這個方向,可以先做,等模型的能力上來。
02
中國模型公司入場全球競爭,
開源正成為「最優解」
DeepSeek R1 之后,全球大模型的競爭進入了一個新的局面。
一方面是硅谷,OpenAI、Anthropic 和 Google 繼續在提高閉源模型的上限能力,Deep Research、混合推理模型、Agent 等接連推出,xAI 的 Grok 3 憑借超大參數和不俗的能力,以及免費的策略,也分到了一些市場。而在 DeepSeek R1 發布后進入備戰狀態的 Meta,緊急上線的 Llama 4 卻不盡如人意,隱約有被 DeepSeek 和 Qwen 取代的趨勢。歐洲的大模型代表 Mistral,最近的動作也少了很多。
而國內,曾經的大模型六小虎,各自的發展也有所不同。零一萬物擁抱 DeepSeek,百川開始在醫院試點醫療大模型,智譜在準備上市,MiniMax、Kimi 和階躍都還在陸續發布新模型,持續跟進 DeepSeek 和 OpenAI 的產品節奏。
能在國際上引發熱議的中國大模型,就只有兩個開源模型系列——DeepSeek 和 Qwen。
或許我們應該正視現實:在地緣政治、技術封鎖、芯片禁令等多重壓力下,國內大模型創業公司如果想要在全球范圍內獲得開發者、企業和資本市場的認可,開源幾乎是唯一能快速建立信任和影響力的路徑。
閉源 API 或純國內市場打法,天然受限于「國別信任壁壘」和算力資源瓶頸,難以形成全球生態和技術共識,尤其是當下國內不少模型還在追趕頂尖模型,想引起開發者的關注和討論,想建立自己的開發者生態,對于閉源模型來說,實在太難了。
開源,已經是當下中國大模型公司在全球市場「破局」的最優解了。
為什么是開源,除了免費可用之外,開源在生態、技術和商業層面都有深遠的杠桿效應,這在大模型行業尤為明顯。
繞開信任壁壘:開源讓模型的權重、代碼和訓練細節全部公開透明。開發者和企業可以選擇自托管,自己掌控數據和模型,也可以自由審查模型的每一個環節,甚至根據自身需求靈活定制。這種開放極大降低了「你是誰」的敏感度,大家不再糾結于開發者的身份,而是把注意力放在「你能做什么」上。信任從身份轉向能力,合作的門檻被大幅拉低。企業可在私有環境里運行模型,數據安全可控,不僅是政府與金融場景,很多垂直領域的場景也有很強的需求。
吸引全球開發者:開源這種帶有理想主義的敘事,天然具備社區屬性。全球的開發者可以無門檻參與,貢獻代碼、優化算法、分享應用案例。這樣的社區驅動力能迅速積累生態勢能,推動創新的擴散,帶來持續的技術突破。
對抗算力和數據壁壘:雖然算力和數據資源分布不均,但開源社區通過共建、協作,部分彌補了這些劣勢。全球開發者共享算力、數據和經驗,降低了單點資源不足帶來的瓶頸。模型在社區的推動下不斷進化,生命力更強,適應性更好,成長速度也更快。
商業模式靈活:開源不僅僅是免費,更多的是靈活。企業可以圍繞服務支持、定制開發、云托管、行業解決方案等多元路徑探索商業化。這樣一來,對單一市場或特定政策環境的依賴被削弱,企業能在不同市場、不同場景下找到自己的生存和增長空間。
如果沒有開源,幾乎沒有任何國內大模型創業公司能在國際市場贏得開發者、企業和生態的信任。地緣政治、技術封鎖、API 訪問限制、數據合規等多重障礙面前,閉源模式天然被排除在全球主流創新網絡之外。只有開源,把模型權重、代碼、訓練細節全部開放,才能真正繞開「國別信任壁壘」。
沒有開源,連「入場券」都拿不到,更別談參與全球競爭。
雖然 DeepSeek 和 Qwen 兩者的開源策略完全不同,但在 Llama 掉隊、Mistral 無力的當下,可以說,Qwen 和 DeepSeek 共同奠定了開源生態的「雙子星」格局。只是前者更偏重產業落地與社區生態,后者側重技術的突破與研究。
但開源,并不是大模型創業的「唯一解」,只是「最優解」。
國內大模型創業公司如果手握豐富的垂直場景資源、獨特的數據閉環,或者在某些行業擁有不可替代的落地能力,完全可以選擇「行業專用模型+閉環應用」這條路。比如,聚焦醫療、金融、政務等高壁壘領域,通過深度定制和本地化服務打造專屬護城河。這種模式雖然難以像開源那樣形成全球擴散效應,但在國內市場依然有很強的競爭力和生存空間。
03
Qwen+阿里云:
真正的模型即服務(MaaS)
就在前不久,Qwen 衍生模型包攬了 HuggingFace 開源大模型榜單前十,衍生模型總數量突破 10 萬,已經超越了 Llama 家族的生態規模。
Qwen 3 這次發布的版本,Dense 模型從 0.6B 到 32B,端側到云端場景都覆蓋。可以很明顯看到,Qwen 系列的開源模型已經全參數、全模態覆蓋了當下大模型的各種場景,應該是目前模態覆蓋最廣的開源模型。
全參數覆蓋:
Qwen 3:稠密模型的 0.6B、1.7B、4B、8B、14B、32B,MoE 版本的 30B 和 235B 版本。
Qwen 2.5:Qwen2.5-Coder、Qwen2.5-Math、支持 1M 上下文的 Qwen2.5-7B-Instruct-1M 和 Qwen2.5-14B-Instruct-1M。
全模態覆蓋:
文本模型 Qwen 2.5、Qwen 3
視覺理解模型 Qwen2.5-VL
視覺推理模型 QVQ
推理模型 QwQ
端到端全模態模型 Qwen2.5-Omini
為什么會選擇這樣的開源策略?DeepSeek 靠 V3 和 R1 就可以打天下,而 Qwen 卻要發這么多的模型?
除了雙方的技術聚焦點不同之外,更多可能是商業模式的不同。
以技術破局占據開發者心智的 DeepSeek,商業模式更偏「技術平臺+服務」,用極致性價比和開放性,獲得全球開發者的關注,圍繞模型提供 API 服務、定制化服務等,并且是以遠低于行業平均水平的價格來開放 API 服務。
要知道,國內大模型 API 的價格戰,就是 DeepSeek 發起的。
但因為 DeepSeek 自研的高效訓練方法和算力資源優化,大幅降低了模型訓練和推理的硬件成本,即使是以這樣的價格提供服務,DeepSeek 的 token 生意,仍然是盈利的。這也可以從他們最近上線的「錯峰優惠活動」也可見一斑。
但 Qwen,以及阿里巴巴的戰略完全不同。
Qwen 的開源,是生態驅動為主,首先是讓自己的模型成為行業標準,吸引開發者和企業在阿里云上部署、微調和集成。Qwen 的開源帶動了阿里云的算力、存儲、數據服務等一整套商業閉環。對阿里來說,模型開源是「引流」,云服務和行業解決方案才是「變現」。這和微軟開源 。NET、推動 Azure 的邏輯非常類似。
「開源+社區」的模式極大降低了 AI 創新的門檻,讓企業和開發者可以靈活定制和二次開發,形成了強大的生態網絡。
更重要的是,阿里云有龐大的產業客戶和應用場景,Qwen 的開源讓這些客戶可以低門檻地用上最先進的大模型,然后在阿里云上做定制和集成,形成「模型-云-行業應用」的飛輪效應。Qwen 的開源是「以開放換生態,以生態促商業」,最終反哺到阿里云平臺的各類商業落地場景中。
最近,阿里云百煉平臺又上線了 MCP 服務,從預置的 MCP 服務到用戶自定義的 MCP 服務,用戶可以很方便將 MCP 接入 Agent 應用和 Workflow 應用中。本次發布的 Qwen 3,也強化了對 Agent 和 MCP 的支持能力。
這,才是真正的 MaaS。(Model as a Service,模型即服務)
04
Qwen 3 之后,
AI 創業的變與不變
DeepSeek R1 及 Qwen 2.5 全系列模型發布之后,可以明顯感知到的一個變化是,雖然開源模型和閉源模型的差距仍然存在,甚至在 2025 年,這個差距并沒有很快縮小,但對很多 AI 創業者來說,開源模型的能力已經足夠用來進行創業的 PMF 嘗試了。
爆火的 Manus,團隊在采訪中表示目前的模型搭配是 Claude+Qwen 2.5 的搭配,旗艦閉源模型+低成本的開源模型,也正成為很多創業者在今年的大模型落地方案,成本、能力、需求實現更可控。
在 Qwen 3 發布后,我們找了四位不同行業的 AI 創業者,就開源閉源如何選擇、模型的微調、模型能力瓶頸,以及大模型創業的坑進行了簡單的采訪,希望能為今天的 AI 創業者提供一些有價值的參考。
四位創業者是:
一嘯:Podwise.ai 聯合創始人
左右:心言集團 開源布道師
孫子鈞:芋泥約稿 創始人
葉堅白:Memobase 聯合創始人
一嘯:我們主要有兩部分模型,核心選擇策略是在成本和效果之間尋求平衡。我們不會選用最頂級、效果最好但價格昂貴的旗艦模型,因為對于 C 端用戶服務來說,成本太高。
其次,上下文窗口大小對我們至關重要。Podwise 處理的內容(播客)通常非常長,幾個小時甚至十幾個小時的音頻都有。因此,我們需要模型能處理非常大的輸入。這也是我們偏愛 Gemini 系列的一個重要原因,它提供百萬甚至兩百萬 token 的上下文窗口。
音頻處理模型(語音轉文字):我們使用的是 OpenAI 開源的 Whisper 模型。對它的源代碼進行了定制化修改和優化,以更好地適應我們的業務場景。部署方面,選擇將修改后的模型部署在提供 GPU 算力的云服務上(海外這類服務很多)。這種云服務通常按秒計費,彈性調度方便,成本效益高,我們用多少就付多少錢。
文本處理模型(大語言模型LLM):這部分我們完全采用調用 API 的方式,不做額外的部署或微調工作。
Google Gemini: 使用較多,尤其是處理主要分析任務。
OpenAI : 也有混合使用,處理部分任務。
DeepSeek: 用于一個特定、對實時性要求不高的后臺離線任務。
我們混合使用多家服務商的 API,主要包括:
沒有考慮過自己部署文本開源模型。主要是精力原因。對于我們這樣的小團隊(兩三個人)來說,再去折騰部署、優化開源文本模型,投入太大。
另外,雖然沒有詳細評測,但我們也不確定自己部署開源模型(加上租用 GPU 云的成本)是否真的比現在使用 Gemini Flash 這類已經把價格打得很低的 API 更便宜。音頻模型我們自己搞,是因為 API 成本太高(自己做能降到 1/10),但文本模型 API 的成本目前感覺還可以接受,沒有到「痛」的程度。
左右:從我們目前的業務角度看,絕大部分(可能 90% 以上)需要使用我們自己微調(fine-tuned)的模型,因此主要是本地化部署后供線上使用。同時,對于某些特定任務,比如數據構造、數據蒸餾,或者需要利用特定大模型(如 GPT、豆包、Qwen)的能力時,我們會直接調用它們的 API。
本地部署的主要是基于 Qwen 的微調模型,根據不同的業務入口,我們會使用不同量級的模型。常用的是 7B、32B 和 72B 這幾個版本。此外,我們還有一些具身智能的業務,考慮到用戶隱私和多模態處理需求,會采用更小量級的多模態模型,比如 0.5B、1.5B 等。7B 模型主要用在對并發要求非常高,但對模型本身能力要求沒那么極致的業務場景。選用 7B 的原因有三:一是推理速度快;二是部署成本相對較低;三是在兼顧性能和速度方面,它比較適合我們的某些特定任務。
至于為什么選 Qwen 模型,主要有以下幾點考慮:
生態系統成熟度與穩定性:Qwen 的生態相對完善和穩定,包括推理框架(如 vLLM, SGLang 等很早就適配)、微調工具鏈以及其他配套設施。相比之下,有些模型(比如 DeepSeek 的早期大參數版本)生態成熟和穩定使用可能需要更長時間。
技術能力與業務契合度:我們做的是情感陪伴、泛心理相關的業務,主要面向國內用戶。
首先排除了 Llama,雖然它生態好,但在中文能力,尤其是泛心理、情感陪伴這些垂直領域的能力上可能不足。
Qwen 對中文支持較好,并且在其預訓練數據中也包含了一些泛心理、情感陪伴相關的內容。基于這樣的模型進行微調,更容易貼合我們的業務需求。
模型系列完整性:我們的業務涉及從 0.5B 到 72B 的多種尺寸。目前來看,只有千問提供了這樣完整的尺寸系列。如果不同尺寸用不同模型(比如 7B 用 Llama,72B 用 Qwen),會增加微調成本,需要在不同模型之間反復測試數據和超參數等。全系列使用 Qwen 系列,模型同宗同源,試錯成本相對較低。
開源的持續性與可信賴度:我們之前用過零一萬物的模型,但后來他們在開源方面的策略調整了,這對我們來說比較被動。阿里(Qwen)在開源上的舉措讓我們覺得比較可靠,相信他們會持續投入開源,這對我們長期依賴其模型進行開發是重要的保障。
孫子鈞:我們平臺涉及文字、圖片和視頻模型,其中文字和視頻模型使用得更多。
對于文字模型,我們采用的是一個混合調度系統。當用戶請求進來后,我們會通過一個內部的「判別模型」(非語言模型)來分析用戶的問題、用戶狀態(如是否付費會員)、對話長度等因素。根據判別結果,系統會將請求轉發給最合適的后端模型。我們后端接入了多種模型,包括云端 API(如 Gemini、DeepSeek 等)以及我們自己部署的本地小模型。
我們的策略也會區分用戶:比如,付費用戶聊得越久,我們可能傾向于使用上下文能力更強的(通常是云端)模型;而對于免費用戶,如果聊得太長,我們可能會「降級」使用性能稍差或成本更低的模型,或者通過這種方式引導用戶付費。這些判斷都整合在那個中間的轉發策略里。
至于本地部署的模型,我們沒有特別固定的選擇偏好。核心方法是基于用戶反饋的 AB 測試。我們后臺有一個系統,可以追蹤不同模型生成內容的「贊」和「踩」比例。比如,上線一個新模型(或新版本),我們會切分一部分流量給它,同時另一部分流量跑在現有模型上。運行一段時間后,我們看哪個模型的用戶點贊率更高(我們會用一個算法將贊/踩換算成分數),就采用哪個。
模型迭代太快了。有時候新出的基礎模型(比如 Qwen 2.5)可能直接上線測試,效果就比我們基于舊版本(比如 Qwen 2.0)微調過的模型要好。這種情況下,我們就先用新的基礎模型,然后可能再花一兩周時間基于新版本進行微調。我們內部測試的環節反而減少了,因為現在模型的「下限」普遍很高,不太會出現完全不能用的情況,主要是好用程度的差異。
葉堅白:就我目前的創業公司而言,我們是完全采用云端 API 的方式,沒有租用任何 GPU,也沒有部署開源模型。主要原因在于,對我們目前的業務( ToB 的 AI 服務)來說,自己去維護或微調一個開源模型,并沒有帶來顯著的額外收益。我們測試了一圈,發現閉源模型的 API 效果確實又快又好。
考慮到我們團隊規模(兩到三個人),自己部署開源模型需要投入的精力,相較于直接使用 API,性價比并不高,沒有看到明確的業務優勢。除非有強制的私有化、斷網運行需求,但我們不屬于這種情況。
目前來看,成本并不是主要的制約因素,甚至可以說使用 API 的方式可能更便宜。一個關鍵點是 Prompt Caching 技術的普及。如果你的請求有大量重復的前綴內容,API 服務商會緩存這部分,使得后續請求的成本大大降低,折扣可能達到五折甚至一到兩折(例如 1/4 到 1/8)。
當前大模型的使用和微調,面臨的挑戰有哪些?
一嘯:談不上「坑」,主要是針對播客場景的適配優化。核心要解決的問題包括:
長音頻處理: 開源 Whisper 對長達幾小時甚至十幾小時的音頻支持不佳,不優化的話,可能處理到后面錯誤率會越來越高,出現「幻覺」。
提示詞(Prompt)效果衰減: 原版 Whisper 對提示詞的支持也是前面效果好,越往后效果越弱。
多語言混合(中英夾雜等): 播客中常見語言混合現象(如臺灣腔+英語,日語+英語),有時甚至一句話里半句中文半句英文,需要模型能很好地處理這種情況。
我們的優化重點是解決這些播客場景下的特定問題,而不是提升模型的通用音頻處理能力。
左右:分開說一下,因為我們有具身智能和線上互聯網業務兩塊業務。
在具身智能方面,主要挑戰是推理成本和生態適配。
成本: 為了隱私,模型需本地部署。如果用英偉達方案,端側推理卡很貴(幾百到幾千元),遠超機器人本身的成本。推理速度也可能不夠快。
生態適配: 如果換用國產算力芯片降低硬件成本,又會面臨生態不完善的問題。比如,讓國產芯片兼容最新的 Qwen 模型(特別是像 Qwen2-VL 等多模態模型),適配周期可能很長(比如一兩個月),我們等不起。由誰來做軟硬件適配(硬件廠?模型廠?我們自己?)也是個問題,我們自己做成本很高。
在線上互聯網業務方面,主要挑戰是模型能力和推理成本/延遲。微調成本相對較好。
模型能力: 我們做情感陪伴,對情感的細粒度理解要求非常高。模型需要準確捕捉用戶復雜的情感狀態。比如,用戶語音內容積極但語氣糟糕,如果只靠 ASR 轉文本,會丟失大量情感信息。這就對模型的多模態理解能力提出了很高要求(結合文本、語音、視覺等)。
推理成本/延遲: 我們的用戶量和 AI 使用量增長很快,推理成本壓力大。尤其是在高峰時段(如凌晨 0-1 點,峰值可能是平時的 3-4 倍),需要有效調度潮汐算力,以低成本覆蓋流量洪峰,同時保證模型和算力能承載。
孫子鈞:主要挑戰還是模型效果/能力。成本肯定不是主要問題,因為整個行業(模型廠商、基礎設施提供商)都在努力降本,就算我們不動,硬件進步也會帶來成本下降。
挑戰在于,本地小模型(如 7B、13B)的能力,越來越難跟上頂尖的大模型(尤其是閉源或非常大的開源模型)。比如我們自己微調的小模型,在通用能力上可能很難超過 DeepSeek V3(雖然那個模型很大,本地部署不現實)。微調可能只在非常窄的場景下有優勢,做這件事的價值就相對降低了。但簡單的任務還是會盡量交給本地模型處理,這主要是成本和效率的平衡。
葉堅白:在我看來,最核心的挑戰絕對是模型能力。這是一個 0 和 1 的區別,如果模型能力達不到,任務根本無法完成,比如 4o-mini 和 4o 在某些任務上的差異就很明顯。如果一個任務 4o-mini 就能做好,你可能就不會考慮升級。很多時候,尤其在創業初期,追求的是「能做」而不是極限的「完美」,所以基礎能力非常關鍵。
第二點,我認為并發能力比延遲更重要。我的經驗是,通常延遲高的模型,并發能力也比較差(比如之前 DeepSeek 的官方 API 就有這個問題)。在 AI 服務中,一定的延遲用戶通常可以接受,但服務頻繁掛掉(并發不足導致)是絕對不能接受的。所以,在模型能力滿足要求后,我最看重的是并發和穩定性。
當前模型的能力,滿足你們的業務場景需求了嗎?
一嘯:模型生成文本的質量是我們關注的另一個重點。雖然通過優化 Prompt 可以提升,模型也在迭代進步(比如「AI 味」在逐漸減少),但感覺離我們期望的非常自然、擬人化的狀態還有距離。我們希望模型至少能達到七八十分的效果。
當然,也可能是我們 Prompt 還沒寫到極致(寫 Prompt 本身也有玄學成分)。但以我心目中的理想狀態衡量,還有差距。比如,從播客中提取「高光時刻」。什么是高光時刻?模型的理解和人的理解可能不同,甚至每個人被打動的點也不同。我認為,面向消費者的內容生成應用,最終一定要能和消費者的個人喜好掛鉤。要實現個性化,可能不光靠大模型,還需要結合用戶畫像、用戶記憶等技術手段。現在有很多工程上的嘗試(比如用 RAG、Memory 數據庫存用戶偏好),但感覺效果還不夠理想,有點「手搓」感。
左右:我們做的業務場景專注于情感、情緒化的泛心理應用場景,大多數模型廠商在預訓練或后訓練階段都不會特別關注這部分數據。另外,即使是數據合成或蒸餾,其結果和真實用戶的查詢之間仍有很大差距。這就是我們堅持要做 Post-training(后訓練/微調)的原因。
我們對基礎模型的要求主要是通用能力(General Ability),而不是特定領域能力(Domain Ability)。如果基礎模型的通用能力足夠好,我們在做 Post-training 時就更容易把它擬合到我們想要的方向。如果通用能力不行(像 2023 年那樣),即使有高質量的領域數據也很難調好。
而且需要注意,針對特定領域(如泛心理、情感陪伴)做 Post-training,通常會對模型的其他通用能力(如代碼、數學)造成一定的損害。我們的目標是把這種損害控制在可接受范圍內(比如通用指標下降 2 個點以內),同時在我們的核心領域能力上實現顯著提升(比如比通用模型高 10 個點)。最近我們也會把內部的泛心理基座模型面向社區開源,反哺開源社區,推動此方向上的技術發展。
孫子鈞:能力上肯定還是有差距的,有些我們想做的功能,會受限于當前模型的實際能力。
嘗試通過更復雜的 Prompt 工程來調節,但發現性價比不高,而且很耗費人力。大模型本身就存在一些固有問題(比如某些詞語重復出現)。你可以通過工程手段(復雜的 Prompt、后處理規則等)去解決這些 Corner Case,但這樣很容易陷入「打地鼠」的困境——不斷發現新問題,不斷寫規則去修復。這有點像上一代基于規則的 AI 客服,最后會變得非常臃腫,失去了大模型的優勢。
而且,你花大力氣打的「補丁」,很可能在下一次模型升級后就失效了,甚至變成負優化。考慮到模型還在快速迭代,投入過多精力去解決當前模型的特定問題,長期來看可能并不劃算。我們更傾向于等待模型本身的升級來解決這些問題。
葉堅白:在我的主要業務場景里(偏數據處理),目前的模型能力我覺得還好,挺強的,基本上能滿足需求。當然,更好的模型肯定能做得更好,但不是說現在的模型就完全不能用。
不過,在某些對推理、規劃能力要求更高的場景,模型能力的差異就非常關鍵。比如之前 Agent 比較火的時候,我嘗試復現了一個簡單的 Manus 類的東西。用 GPT-4 時效果很差,我一度以為是我的系統設計問題。但后來換上 o4-mini,在完全一樣的代碼框架下(大概 1000 行代碼),它就能完成很多復雜任務了,比如讀取我電腦里的文件、上網搜索信息、編寫神經網絡代碼、生成 Readme 和 Landing Page 等。這說明,尤其在 Agent 場景,基礎模型的能力提升是決定性的。
如何看待目前以 DeepSeek、Qwen、Llama 為代表的開源模型的發展?
一嘯:我覺得開源模型非常好,肯定會對整個LLM領域產生巨大的推動作用,無論是在質量還是成本層面。我們自己不用主要是團隊屬性(規模小、精力有限)的原因。
但我觀察到,很多做 ToB 的公司(尤其在國內,需要私有化部署、可控性)幾乎都在使用開源模型。比如我身邊做醫療行業 ToB 的朋友,很多是在 Qwen 32B 模型上做微調,因為這個模型效果好、大小適中(一張 4090 能跑),部署成本相對可控。
此外,開源模型的存在也催生了很多提供 API 服務的廠商(大如阿里火山,小到一些初創公司),他們基于開源模型(如 DeepSeek)提供低成本的 API 服務。這對我們這樣的應用團隊來說,提供了更多選擇,也壓低了整體市場價格,是件大好事。我自己是很喜歡開源的,只是沒精力搞。
左右:對開源模型整體的期待是盡可能追平閉源頂尖模型(如 Claude, GPT-4/4o)。雖然現在還沒有完全追上,但開源模型比閉源更 Open,至少能拿到權重。
更具體的期待是希望它們能 release 更多的技術細節。Llama 3 和 DeepSeek 的技術報告相對詳細,希望 Qwen 也能更開放地分享技術路線、探索出的數據配比等。
從差異性看:
DeepSeek 更激進、理想化,在 MoE、原生多模態、代碼等方面探索較前沿。
Qwen 和 Llama(Qwen 早期 follow Llama,現在已逐漸超越)更注重社區和通用性,需要考慮更廣泛的用戶和場景,技術選型上可能相對穩健。
這種差異化定位在開源社區里是正常的。
孫子鈞:交給用戶選擇。哪家出了最新的、我們能用的模型,就部署上去,通過 A/B 測試看用戶反饋。我們不怎么看公開的 Benchmark 或指標,因為那些通用指標不一定能反映在我們具體的業務場景下的用戶偏好。
葉堅白:對開源生態沒有特別深入,但從一個中國創業者的角度看,DeepSeek 和 Qwen 在開發者關系和模型迭代上做得非常好。DeepSeek 口碑一直不錯。Qwen 來自阿里,給人的感覺是非常徹底地在做開源,沒有藏著掖著,版本迭代很快,而且開發者社區(如魔搭 ModelScope)也做得不錯。我對 Qwen 的信任度很高。
如果需要用到開源模型,我可能會優先考慮 DeepSeek 的最新版本和 Qwen 的最新版本。相比之下,Llama 3 之后感覺討論度有所下降。我個人感覺,在當前的開源模型迭代上,中國廠商的表現非常搶眼,甚至可能處于領先地位。
覺得當前大模型創業最容易被忽視的坑是什么?
一嘯:總的來說,還是要相信模型的持續升級能解決很多問題。很多應用團隊,尤其是小團隊,應該都是這種心態,不太會去深度折騰開源模型本身。
Podwise 首先是一個「播客應用」,然后才利用 AI 能力。是我們對產品的定位。我們首先是解決一個應用場景的問題,AI 對我們來說是一項可利用的能力、一個提升效率的工具。很多人不僅用 Podwise 的 AI 功能,也用它來日常聽播客。最終 Podwise 能存活下來,核心在于我們做了一個用戶需要的「播客 APP」,而不只是一個 AI 工具。
即使沒有 AI,如果我手工去聽播客、寫高質量總結,我相信也能賣錢,只是效率極低。AI 幫助我們提高了效率。我們的核心還是要專注在我們選擇的應用場景本身。
左右:我覺得一個比較大的問題是模型與產品的適配度,以及對 AI 在產品中角色的理解。
很多人認為 AI 來了,可以用它重做一遍舊需求,或者簡單地把 AI API 接到舊產品上。但我認為 AI 更多是后端能力,是處理信息的工具,而不是直接交付結果的前端界面。
現在很多產品給用戶的感覺是直接在和一個聊天機器人對話。但在我看來,AI 應該藏在后端,用來深度處理用戶的輸入,實現真正的個性化,然后再交付結果。
例如,在情感陪伴中:
用戶發來語音,AI 不僅是轉文本,更應該分析語氣、語調,并將這些情感信息融入 Prompt。
AI 應該分析對話上下文的邏輯、情緒變化,讓下一輪的回復體現出這種個性化,而不是千篇一律地遵循某個 System Prompt。
很多開發者追求簡單的「端到端」,認為大模型能簡化一切。但在很多領域(尤其情感),原本需要復雜處理的環節,現在依然需要,甚至可以借助 AI 做得更精細。直接用 AI 替代這些環節,可能導致產品缺乏深度和個性化。
我認為正確的模式應該是 「X + AI」**,而不是 「AI + X」。核心是挖掘和理解用戶需求(X),然后思考如何用 AI 更好地解決這個需求。而不是有了 AI 技術,再去找一個場景(X)去套用。
一個重要的觀察指標是用戶留存。很多 AI 產品(如一些角色扮演應用)留存很差,這往往意味著產品沒有抓住用戶的真實痛點,個性化做得不夠好。如果你的產品是基于真實需求(X)構建的,留存通常不會是核心問題。現在很多產品可能是在做一個偽需求。
孫子鈞:坑肯定很多,但我個人覺得,大部分 AI 創業者失敗的原因,可能并不在于 AI 技術本身。AI 創業者的成敗,更多取決于商業化、增長、運營、產品方向、用戶需求滿足度等方面。
因為對于大多數應用層創業者來說(包括我們自己,某種程度上也是在「套殼」),核心的模型能力并不掌握在自己手里。你的成功與否,不太可能完全由你用了哪個模型、或者你的 Prompt 比別人好一點點來決定。如果模型能力決定一切,那 OpenAI、Google 這些公司就通吃了,但現實并非如此。最終還是要回歸到商業的基本邏輯:你的產品是否真的解決了用戶的某個需求?用戶是否愿意為之付費?這些可能比死磕模型本身更重要。
葉堅白:第一個比較常見的坑(尤其在 2023 年比較明顯),是高估了自有數據或特定場景的價值,認為可以輕易訓練出遠超通用模型的、具有壁壘的「垂類模型」。事實是,很多所謂的「垂類」并沒有那么「垂」,很容易被能力更強的基礎模型覆蓋。而且,大模型訓練需要的是大規模、高質量、多樣化的數據,特定業務場景積累的在線交互數據,其「飛輪效應」可能不如傳統互聯網(如推薦系統)那么明顯。我認為目前在 AI 應用層面,真正的「數據壁壘」是很少見的。
第二個相關的點是,過度關注模型本身帶來的優勢,而忽視了其他護城河。有時候,一個優秀的 UI/UX 設計或者對用戶需求的深刻理解,可能比模型指標上的一點提升更能留住用戶。模型能力的優勢往往是暫時的。
第三,可能需要重新思考「垂類」的概念。很多在傳統 SaaS 或互聯網時代被認為是獨立垂類的東西(比如不同類型的寫作、不同的分析任務),在強大的通用 AI 面前,可能都屬于其通用能力范疇。AI 能力的構建方式和傳統的軟件不同。
這涉及到 AI 發展中一些反直覺的現象。比如,我們可能直覺上認為讓機器人在家做家務比在精密工廠工作更容易,但現實是反過來的;我們可能認為 AI 會先擅長邏輯推理再擅長藝術創作,但現實也并非如此。這意味著我們基于過去經驗對「難易」、「垂類」的判斷,在 AI 時代可能需要調整。過于復雜的 Workflow 可能很脆弱,而看似「邊角料」的運行環境或交互層可能更有價值。
總之,真正屬于 AI 時代的「垂類」或「壁壘」,可能需要用不同于以往的思路去發掘。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.