作者 | 辛峰
郵箱 | xf@pingwest.com
這個(gè)夏天,一個(gè)數(shù)據(jù)不僅在AI圈內(nèi)引起了關(guān)注,更牽動(dòng)了千萬(wàn)中國(guó)家庭的心:不到一個(gè)月,超過(guò)1000萬(wàn)份詳盡的高考志愿報(bào)告,由一個(gè)具備深度研究能力的Agent免費(fèi)生成。
這不是一次技術(shù)演示,而是一項(xiàng)直接關(guān)系到未來(lái)的高風(fēng)險(xiǎn)服務(wù)。提供這項(xiàng)服務(wù)的,是阿里的夸克。在一次內(nèi)部技術(shù)溝通會(huì)上,夸克算法負(fù)責(zé)人蔣冠軍將志愿報(bào)告定義為“是夸克深度研究技術(shù)的一次重要實(shí)踐” 。
這引出了一個(gè)值得探討的問(wèn)題,當(dāng)許多AI應(yīng)用還停留在看似萬(wàn)能但可能不可靠的階段時(shí),夸克是如何在一個(gè)零容錯(cuò)的場(chǎng)景里,實(shí)現(xiàn)大規(guī)模深度落地的?它的實(shí)踐,為我們提供了一個(gè)觀察AI如何從玩具走向工具再進(jìn)化為智能助手的真實(shí)樣本。
用戶具體是如何與這個(gè)Agent互動(dòng)的呢?過(guò)程十分簡(jiǎn)單,用戶輸入分?jǐn)?shù)等基本信息后,用日常說(shuō)話的方式告訴Agent自己的想法,比如想去哪個(gè)城市、對(duì)什么專業(yè)感興趣。Agent隨后會(huì)生成一份包含完整志愿表的深度報(bào)告。用戶可以反復(fù)修改想法,多次生成報(bào)告,夸克方面提到,有用戶甚至生成了一百多份報(bào)告來(lái)輔助決策。
1
Agent如何成為一個(gè)“靠譜”的決策顧問(wèn)?
每年高考后,志愿填報(bào)的復(fù)雜性都會(huì)被重新討論。近3000所高校、超過(guò)2000個(gè)專業(yè),構(gòu)成了一個(gè)巨大的信息迷宮 。近幾年,隨著“張雪峰”等志愿填報(bào)專家的走紅,也反映了市場(chǎng)的核心痛點(diǎn),考生和家長(zhǎng)缺的不僅是信息,更是一個(gè)能幫忙做復(fù)雜決策的可信顧問(wèn),這也催生了一個(gè)魚(yú)龍混雜的志愿填報(bào)服務(wù)行業(yè)。
AI能成為這個(gè)顧問(wèn)嗎?蔣冠軍的看法很坦誠(chéng),“當(dāng)前這個(gè)階段,AI肯定是替代不了考生自己的決策” 。那么,夸克要做的,或者說(shuō)AI現(xiàn)階段能做到的是什么?
答案或許不是替代,而是成為一個(gè)靠譜的輔助決策系統(tǒng)。所謂的靠譜,體現(xiàn)在它如何處理現(xiàn)實(shí)世界中那些模糊、甚至矛盾的復(fù)雜需求上。
比如,當(dāng)用戶的理想與現(xiàn)實(shí)沖突時(shí)。一個(gè)常見(jiàn)的需求是“想留在本省的好城市,但分?jǐn)?shù)只夠得上外省的985院校” 。一個(gè)簡(jiǎn)單的工具可能會(huì)陷入邏輯死循環(huán),但夸克的Agent會(huì)嘗試像真人顧問(wèn)一樣權(quán)衡,它可能會(huì)主動(dòng)拓寬選項(xiàng),為你展示“省外985”和“省內(nèi)頂尖211”各自的利弊,將決策權(quán)交還給你 。
更有挑戰(zhàn)性的是當(dāng)用戶的需求本身就自相矛盾。夸克高考算法負(fù)責(zé)人唐亮提到了一個(gè)典型場(chǎng)景,“數(shù)學(xué)成績(jī)差,但想報(bào)考計(jì)算機(jī)” 。這背后是學(xué)生對(duì)專業(yè)要求的不了解。此時(shí),一個(gè)負(fù)責(zé)任的Agent不應(yīng)盲目執(zhí)行指令,而是會(huì)觸發(fā)一個(gè)需求澄清流程,溫和地提示其中的風(fēng)險(xiǎn),并引導(dǎo)用戶探索更適合的選項(xiàng) 。
處理復(fù)雜場(chǎng)景的能力讓AI從一個(gè)冰冷的執(zhí)行機(jī)器,向一個(gè)能與人商量、值得參考的顧問(wèn)角色邁進(jìn)了一步。而要實(shí)現(xiàn)這一切,靠的不是單一的模型技巧,而是在后臺(tái),一套笨重但扎實(shí)的系統(tǒng)工程。
1
“笨功夫”與“精細(xì)活”
“信任”是Agent在嚴(yán)肅場(chǎng)景落地的基石。夸克構(gòu)建信任的方式,可以歸結(jié)為兩種,一種是下笨功夫,另一種是做精細(xì)活。
笨功夫下在了數(shù)據(jù)上。夸克做了幾件臟活累活,他們搜集了8657個(gè)權(quán)威站點(diǎn)進(jìn)行分級(jí),將超過(guò)10萬(wàn)份PDF、Word等非標(biāo)內(nèi)容數(shù)字化,并組織上百人團(tuán)隊(duì)對(duì)關(guān)鍵數(shù)據(jù)進(jìn)行人工校驗(yàn),以確保準(zhǔn)確率達(dá)到“4個(gè)9”(99.99%)的水平。
這些工作聽(tīng)起來(lái)沒(méi)有算法那么炫酷,但它們共同構(gòu)成了一個(gè)高可信度的知識(shí)庫(kù),是模型能做出正確判斷的前提。
而精細(xì)活則體現(xiàn)在模型的調(diào)校上,必須為其注入垂直場(chǎng)景的靈魂 。夸克為此設(shè)計(jì)的訓(xùn)練范式,層層遞進(jìn):整個(gè)過(guò)程始于SFT(監(jiān)督微調(diào)),讓模型學(xué)習(xí)上萬(wàn)條真實(shí)專家的推理邏輯,學(xué)會(huì)像專家那樣去分析問(wèn)題、組織語(yǔ)言 。
在此基礎(chǔ)上,利用RLVR(可驗(yàn)證獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)),針對(duì)有標(biāo)準(zhǔn)答案的事實(shí)性問(wèn)題進(jìn)行自動(dòng)化校驗(yàn),這就像給模型配備了一個(gè)24小時(shí)的事實(shí)核查員,大幅降低“幻覺(jué)” 。
而對(duì)于沒(méi)有標(biāo)準(zhǔn)答案的開(kāi)放性問(wèn)題(如專業(yè)前景),則通過(guò)RLHF(基于人類(lèi)反饋的強(qiáng)化學(xué)習(xí)),引入大量真實(shí)專家對(duì)Agent生成的方案進(jìn)行打分,讓模型的“品味”和“策略觀”向人類(lèi)專家看齊。
正是這套笨功夫加精細(xì)活的組合,讓Agent的決策不僅基于概率,更基于經(jīng)過(guò)治理的、可信的知識(shí)與經(jīng)驗(yàn)。
1
一次成功的Agent實(shí)踐,與它背后的七年
夸克志愿報(bào)告的成功,是在一個(gè)垂直應(yīng)用場(chǎng)景的勝利。但在更深的層面,它更像一次路演,展示了深度研究技術(shù)落地的一種可能性。
今天的AI行業(yè),并不缺少聰明的產(chǎn)品。許多大模型應(yīng)用能寫(xiě)詩(shī)、繪畫(huà)、寫(xiě)代碼、做復(fù)雜的邏輯推理,但在單個(gè)具體任務(wù)上,卻往往缺乏穩(wěn)定和可信賴的表現(xiàn)。用戶很難將一項(xiàng)嚴(yán)肅、高風(fēng)險(xiǎn)的決策工作完全托付給它們。
夸克的選擇似乎有些逆流而動(dòng)。它沒(méi)有去盲目追求一個(gè)無(wú)所不能的通用助手,而是像一位手藝人,選中了高考志愿這塊硬骨頭,并投入了長(zhǎng)達(dá)七年的時(shí)間去打磨。其核心,是一種被夸克稱為“深度研究”的方法論。
所謂的深度并非僅指技術(shù),更指一種能力。它體現(xiàn)在對(duì)場(chǎng)景的深刻理解上,團(tuán)隊(duì)沒(méi)有把志愿填報(bào)看作一個(gè)簡(jiǎn)單的概率預(yù)測(cè)問(wèn)題,而是將其視為一個(gè)信息搜集、自我認(rèn)知、未來(lái)規(guī)劃高度交織的復(fù)雜決策系統(tǒng)。
它也意味著對(duì)數(shù)據(jù)的極致治理,團(tuán)隊(duì)選擇了一條更艱難的路——投入上百人力去做數(shù)據(jù)的線下搜集和人工校驗(yàn),以此來(lái)構(gòu)建Agent可信度的地基。此種深度最終落實(shí)在對(duì)模型的精細(xì)對(duì)齊上,基于海量專家數(shù)據(jù)和用戶真實(shí)反饋,夸克團(tuán)隊(duì)不斷對(duì)模型進(jìn)行強(qiáng)化學(xué)習(xí),讓它從一個(gè)概率機(jī)器逐漸成長(zhǎng)為一個(gè)懂得權(quán)衡、善于溝通的決策伙伴。
“志愿報(bào)告是我們對(duì)深度研究技術(shù)的一次重要實(shí)踐,”蔣冠軍的這句話很關(guān)鍵。高考場(chǎng)景,以其極高的復(fù)雜度和零容錯(cuò)的要求,成為了這套深度研究方法論的最佳試煉場(chǎng)。
如今,這場(chǎng)高難度的路演結(jié)束了,夸克也已經(jīng)推出了面向所有人的通用深度研究功能。這并非簡(jiǎn)單的功能上新,而是將那套經(jīng)過(guò)千萬(wàn)次高壓測(cè)試后被驗(yàn)證有效的方法論,開(kāi)放給了更廣泛的用戶。它讓普通人處理復(fù)雜信息、進(jìn)行深度分析時(shí),也能擁有一個(gè)專家級(jí)的Agent助手。
1
從解決一個(gè)真問(wèn)題開(kāi)始
在關(guān)于AI的討論中,我們聽(tīng)過(guò)太多關(guān)于顛覆和革命的宏大敘事。但夸克的故事提供了一個(gè)更樸素的視角,AI的價(jià)值,或許始于腳踏實(shí)地地解決一個(gè)真實(shí)的、具體的問(wèn)題。
它不追求成為無(wú)所不知的神,而是努力成為一個(gè)在特定領(lǐng)域靠譜的專家。它沒(méi)有因?yàn)榧夹g(shù)的復(fù)雜而忽視最根本的用戶需求,也沒(méi)有因?yàn)樯虡I(yè)回報(bào)的不確定性而放棄對(duì)信息普惠的堅(jiān)持。事實(shí)上,夸克已經(jīng)連續(xù)7年為高考生和家長(zhǎng)提供全免費(fèi)、無(wú)廣告的高考信息搜索和志愿填報(bào)服務(wù)。
這意味著夸克并非AI浪潮下的投機(jī)者,而是將技術(shù)落地為社會(huì)價(jià)值的長(zhǎng)期主義者,也讓今年的Agent應(yīng)用更像是一場(chǎng)厚積薄發(fā)。超過(guò)50%的用戶來(lái)自三線及以下城市 ,以及深入鄉(xiāng)村的公益行動(dòng),都讓這項(xiàng)技術(shù)多了一份溫度。
或許,未來(lái)真正能改變我們生活的AI,不是那個(gè)在云端不斷刷新性能分?jǐn)?shù)的龐然大物,而是一系列像夸克志愿報(bào)告這樣,專注、深入、并真正融入我們工作與生活場(chǎng)景的Agent助手。
夸克的高考故事,可能只是這個(gè)新篇章的開(kāi)始。
點(diǎn)個(gè)愛(ài)心,再走 吧
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.