今天,讓我們繼續走進紅杉中國第三屆AI Day,深入挖掘AI Agents的更多潛力。
5月29日,以“AI Agents:From Copilot to Colleague”為主題的AI Day活動為200多位成員企業CEO和技術高管提供了一場腦力交鋒和技術激蕩的舞臺。
我們看到了全新基準測試工具xbench,還通過多場深度對話和圓桌論壇,共同探討了AI Agents在商業應用、技術演進以及未來企業發展的關鍵方向——從前沿的技術思考到實踐中的應用場景,從創業機遇到未來組織形態的變化。接下來,讓我們再度回到這場思維盛宴,聚焦更多前沿洞見與實踐成果,解鎖未來智能世界的更多密碼。
紅杉中國合伙人公元以“如何在AI下半場定義‘好問題’”為主題,向參會嘉賓介紹了紅杉中國推出的一款全新AI基準測試工具xbench。
“當大家紛紛考滿分的時候,到底是學生變聰明了還是卷子出問題了?”公元問大家。
她表示,此前市場上針對大模型的各種評測集,都快速地被大模型做出滿分,并形成了一個循環:當一套題被大模型“刷爆”到滿分以后,新的考試卷又推出越來越難的題目,過段時間這些題再度被大模型“刷爆”。這就引出了兩個問題:一是大模型的解題能力雖強,但實際效用(例如經濟價值)是否與之相匹配;二是不同時間維度上的大模型能力如何比較——“今年得到20分的大模型真的比去年得滿分的大模型差嗎?”
公元表示,xbench想要打造AI能力評估的新范式,致力于解決這些問題。其具有雙軌評測和長青評估體系等兩大特點。
一方面,xbench打破慣性,為現實世界的實用性開發新穎的任務設置和評估方式,打造了雙軌測評體系:AGI track用于驗證AI基礎能力;Profession Aligned聚焦現實生產場景,從市場和業務視角來評估實用性。據她介紹,xbench Profession Aligned評估集的每個任務預設TMF(Technology-Market Fit)目標,一旦Agent達標則停止更新,評估難度追求實際匹配,而不是持續變難。
另一方面,xbench通過數學模型,將此前波動分數轉化為單調遞增的能力曲線,這樣就能在評估題庫和模型都在迭代的情況下,清晰看到AI能力的真實成長軌跡。
由紅杉中國副總裁李廣平主持,璇星科技CEO胡世超、言創萬物聯合創始人及COO劉曉春和ONE2X CEO王冠就“AI Agent的演進與突破”進行了一場圓桌對談。
王冠表示,Agent的關鍵所在是具有“泛化性”,能完成傳統模型無法覆蓋的任務,其定義包含三個層次:模型智能、專家智慧(行業私有知識)與用戶智慧(使用反饋)。關于Agent領域的創業機會,核心是要考慮項目的經濟價值和生產成本,此外還必須要有可以抽象的生產方法,例如藝術類的項目,只要能抽象出方法,這個項目就能變成一個模型,任務就可以學習和優化,就可以隨著數據積累享受到模型技術的發展。
劉曉春對“泛化性”表示了肯定,并表示Agent的核心在于其自主完成較大顆粒度任務的能力。他強調,Agent的本質特性是“思考能力”與“工具使用”的結合,它突破了專業壁壘——可以讓個體發揮團隊級能力。創業機會上,他看好需要和真實世界產生多重連接的方向,尤其在結合真實世界知識(如教育、旅游行業)等垂直場景中,Agent將成為連接通用大模型與行業落地的關鍵樞紐,可以為通用大模型提供更多的真實世界的知識。
胡世超認為,Agent和以前的模型、軟件的區別一方面在于交互方式——從傳統按鈕操作轉向多模態自然交互,另一方面在于它總會給人帶來“驚喜”——它會充分利用工具,通過自主決策與工具鏈調用完成端到端任務,例如在求職的場景中,Agent能夠據不同公司的品牌特點生成個性化的簡歷。技術方向上,他提出,Agent需突破上下文管理的瓶頸以實現更長期的連續性任務執行,如果在2-3年內在此方向有所突破的話,Agent領域將實現爆炸性的發展;同時,Agent與工作流應融合而非對立,通過協同解決實際問題。
拾象科技CEO李廣密則為大家分享了在基礎模型訓練視角下和硅谷視角下關于AGI主線的最新思考。
他分享了對2025年LLM的7個關鍵判斷:一是智能本身就是最大的應用,應該圍繞智能本身去投入;二是Pre-training(預訓練)的空間仍然巨大,基礎模型的預訓練遠未結束,而預訓練是新能力涌現的關鍵;三是AGI的路線圖已經開始分化,頭部玩家如OpenAI和Anthropic選擇了不同的發展路徑;四是在LLM的競爭格局中,OpenAI和Anthropic占據了絕對的領先優勢;五是Online-learning(在線學習)允許模型自主探索并學習,會造就“堪比愛因斯坦的AGI”,是一種新的范式級路線;六是Coding+Agentic AI將成為AGI時代類似抖音和微信級別的機會,現在離各種Agent應用大爆發還差一步——就等“Long Context”問題得到解決,未來3年將是這一領域發展的關鍵窗口期;七是到2030年前,將有多家市值超過10萬億美元的公司誕生,這將標志著AI時代經濟價值的巨大增長。
在主題為“搭建未來型企業”的圓桌論壇上,紅杉中國合伙人張涵、紅杉中國董事總經理丁飛洋和紅杉中國合伙人繆海源進行交流并分享了各自的觀點。
張涵表示,目前AI Agent的熱潮和十幾年前移動互聯網應用大量出現時的狀態很相似,各類新產品如雨后春筍般出現。當下AI agent領域早期公司融資市場情緒偏樂觀,企業想要尋求投資,需要創始人對人工智能、大模型相關技術發展有深刻認知和足夠的趨勢判斷力,對業務切入方向洞察深入且細致,團隊強執行力和高迭代速度,就有可能打動投資人。此外,張涵提到,如果企業未來想要發展成一個國際化的公司,構建包含人力、品牌、財務、合規、法務等模塊的海外架構是必要的。同時,除了用AI和新技術的構建提高企業的流程效率和競爭力,國際化企業更重要的是高效的人才吸引及管理,并通過全球人才協同創造價值。
丁飛洋分享了她對AI時代品牌傳播變化的思考和洞察。她表示,AI技術深刻重塑了內容創造和品牌傳播的方法論,但品牌護城河的建立“萬變不離其宗”,依然是持續與用戶建立健康的、可持續的互動,不斷展現自己獨特和有辨識度的品牌調性。AI時代,信息傳播的渠道和方式正在發生快速變化,這就要求企業更加精準地把握核心受眾與各相關方的關注點,把握好信息分發的源頭和渠道,讓新技術去持續賦能品牌與人的互動。此外,她認為,對于AI領域的創業者而言,技術創新和能力領先很重要,扎實豐富的品牌內容和社群加持同樣很重要。
針對AI時代的組織形態變革,繆海源指出,未來很多企業的規??赡苴呄蛐⌒突?,組織架構更趨扁平化,公司尤其是創業公司的人效將顯著提升。在此趨勢下,企業管理成本雖有望降低,但管理難度也會相應增加。對于創始人CEO而言,精準匹配崗位人才的價值將愈發凸顯,這對其招聘能力提出了更高要求。當組織成員人效持續提升且普遍運用AI工具時,CEO的個人領導力也將面臨全新挑戰。另外,如果企業要進入全新海外市場,一定要“謀定而后動”,把團隊搭建和人才布局像沙盤一樣推演一遍。
除了上述嘉賓外,我們還邀請了Google Cloud北亞區AI業務總經理陳雷和亞馬遜云科技(AWS)首席人工智能專家鄧明軒,他們各自就谷歌的AI策略和LLM Agent自然語言的解析與執行等兩個話題進行了分享。陳雷表示,2025是AI創新的真正開始。他結合谷歌的AI策略,闡述了“AI不是構建一個模型,而是構建端到端的平臺”的深刻洞察。鄧明軒在演講中提出,LLM Agent不應僅是副駕駛,而應成為數字員工,解析和執行復雜任務。因此,創業公司需要在新的技術環境下重新定位自身價值。
·互動送好禮 ·
關于AI Agent,你還有哪些話題想和紅杉中國聊的?歡迎留下你的想法和思考,我們將選出5位讀者,送出紅杉定制衛衣一件!
注:時間截至6月3日24:00,獲獎用戶請于收到通知后24小時內回復郵寄信息,未收到通知或未及時回復則視為“謝謝參與”。
壹
貳
叁
肆
伍
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.