作者|Hayward
原創(chuàng)首發(fā)|藍(lán)字計(jì)劃
過去半年,AI行業(yè)可謂是群芳爭(zhēng)艷。
DeepSeek R1橫空出世成了明日之星,騰訊元寶、豆包、夸克等也搭上了DeepSeek的便車吃香喝辣,還有誓要在技術(shù)上和DeepSeek R1的一較高下的阿里通義千問捷報(bào)頻頻…
唯獨(dú)去年的投放王者,鋪天蓋地出現(xiàn)在各個(gè)廣告位的kimi,好像一下子沒了消息。
而就在這幾天,我們終于等到了kimi的“大動(dòng)作”。4月28日,kimi宣布和財(cái)新傳媒達(dá)成合作,當(dāng)用戶使用Kimi提問財(cái)經(jīng)相關(guān)內(nèi)容時(shí),Kimi“將結(jié)合財(cái)新傳媒旗下專業(yè)報(bào)道內(nèi)容,通過模型生成答案,為你提供及時(shí)、可信、可證的高質(zhì)量財(cái)經(jīng)信息”。
好家伙,當(dāng)我們以為kimi已經(jīng)擺爛躺平的時(shí)候,原來還是有在暗地里偷偷努力的。
選擇和財(cái)新網(wǎng)合作發(fā)力財(cái)經(jīng)垂直領(lǐng)域,kimi的確對(duì)AI工具的發(fā)展路線有了一些自己的新思考。
畢竟只比模型能力,kimi肯定不如能免費(fèi)接入的DeepSeek,但與專業(yè)財(cái)經(jīng)媒體強(qiáng)強(qiáng)聯(lián)合,甚至日后拓展到和更多垂直領(lǐng)域的專業(yè)媒體合作提供信源,能增強(qiáng)kimi在特定垂直領(lǐng)域的公信力,長(zhǎng)期來看大有可為。
不過在kimi發(fā)布了合作消息后,我就第一時(shí)間測(cè)試了擁抱新功能的kimi。從測(cè)試結(jié)果來看,我有點(diǎn)想收回上面劃線的這段話……
向AI幻覺開刀
kimi這波和財(cái)新網(wǎng)的合作,長(zhǎng)期來看是能給其他AI工具帶來一些啟發(fā)的。
自2025年初AI大爆發(fā)以來,各式各樣的AI工具不僅給我們帶來了便利,也帶來了一些問題,最嚴(yán)重的要數(shù) ”AI幻覺”。
簡(jiǎn)單來說,AI幻覺指由AI生成的看似合理但實(shí)際錯(cuò)誤的信息。這些信息可能是一段文字里的部分?jǐn)?shù)據(jù)、可能是不同場(chǎng)景的張冠李戴,甚至可以是某個(gè)論斷全是無中生有的。
這很容易會(huì)給AI的使用者帶來全方位的不安全感,這就意味著不僅你用AI來查數(shù)據(jù)容易得出錯(cuò)誤的信息,甚至一些學(xué)術(shù)概念、對(duì)某些事物的定義都可能是AI自己編造出來的。
目前業(yè)界對(duì)于AI幻覺的成因還沒有一個(gè)統(tǒng)一且準(zhǔn)確的答案,但普遍認(rèn)為AI幻覺和訓(xùn)練AI的數(shù)據(jù)缺陷、模型或訓(xùn)練機(jī)制缺陷、生成和推理缺陷和外部環(huán)境與驗(yàn)證的缺失等有關(guān)。
這幾個(gè)原因中,數(shù)據(jù)缺陷最為關(guān)鍵。如果在訓(xùn)練AI時(shí)喂養(yǎng)了錯(cuò)誤或過時(shí)的數(shù)據(jù),輸出時(shí)就容易給出錯(cuò)誤的答案,可以理解為AI被“教壞了”。
而數(shù)據(jù)又是AI輸出答案的“源頭”,一開始的數(shù)據(jù)就錯(cuò)了,無論后期模型結(jié)構(gòu)和訓(xùn)練數(shù)據(jù)的方式如何調(diào)整、生成和推理過程怎么優(yōu)化,都很難輸出正確的答案。
特別是財(cái)經(jīng)領(lǐng)域的內(nèi)容,權(quán)威數(shù)據(jù)、專業(yè)論斷是底色,確保AI所引用的數(shù)據(jù)來源的權(quán)威性這件事的確非常重要。
相比過去一些AI工具用各種方式篩選可靠信源的做法,kimi的確算得上“簡(jiǎn)單粗暴”,直接和權(quán)威的信源合作,更加細(xì)化地限定了AI資料來源的范圍,理論上的確能在數(shù)據(jù)來源層面降低kimi出現(xiàn)AI幻覺的可能性。
那Kimi和財(cái)新網(wǎng)合作之后到底效果怎么樣?咱們直接來實(shí)測(cè)看看。
不盡人意
剛好4月29日瑞幸發(fā)布了2025年第一季的的財(cái)報(bào),當(dāng)前對(duì)財(cái)報(bào)進(jìn)行分析的媒體還不多,這是個(gè)測(cè)試kimi能不能勝任財(cái)報(bào)分析工具的好機(jī)會(huì)。
在kimi的問題窗口中我選中「長(zhǎng)思考」增強(qiáng)大模型的邏輯推理能力,提示詞為“分析一下瑞幸的最新財(cái)報(bào)”,可以看到kimi的確能識(shí)別到所謂的“最新財(cái)報(bào)”是指2025年第一季度財(cái)報(bào)。
在關(guān)鍵的數(shù)據(jù)抓取方面,總凈收入、營(yíng)業(yè)利潤(rùn)與利潤(rùn)率還有GMV等沒有出現(xiàn)數(shù)據(jù)錯(cuò)誤的問題,對(duì)于瑞幸大家比較關(guān)心的門店數(shù)量、擴(kuò)張情況還有成本等信息,kimi也能給到了。
不過,kimi的這份“財(cái)報(bào)分析”,更像是一種數(shù)據(jù)的提取和匯總,對(duì)于瑞幸業(yè)務(wù)的整體趨勢(shì)、變化與增長(zhǎng),沒有太詳細(xì)的見解。
而且更令人無語的是,問kimi這個(gè)問題,我根本不知道和財(cái)新網(wǎng)合作給kimi帶來了多少助力:因?yàn)檎麄€(gè)回答的內(nèi)容引用,根本沒見到財(cái)新網(wǎng)的影子。
難道是財(cái)新網(wǎng)根本沒有寫瑞幸最新財(cái)報(bào)的分析?No No No,4月30日財(cái)新才新鮮出爐了一篇針對(duì)瑞幸最新財(cái)報(bào)的分析,標(biāo)題為《瑞幸咖啡一季度同店銷售額重回增長(zhǎng) 黎輝接任公司董事長(zhǎng)》。
如果你想在讓kimi和財(cái)新網(wǎng)的內(nèi)容聯(lián)結(jié)起來,得把提示詞換成“結(jié)合財(cái)新網(wǎng)的內(nèi)容,對(duì)瑞幸最新的財(cái)報(bào)進(jìn)行分析”。
這時(shí),在數(shù)據(jù)來源這一塊終于能看到帶有小藍(lán)標(biāo)的財(cái)新網(wǎng)了。除了上面提到的財(cái)新網(wǎng)最新的財(cái)報(bào)分析外,還引用了不少財(cái)新網(wǎng)之前為瑞幸撰寫的文章,同時(shí)kimi也會(huì)參考第三方財(cái)經(jīng)平臺(tái)的內(nèi)容,對(duì)瑞幸的財(cái)報(bào)進(jìn)行分析。
內(nèi)容方面,調(diào)整了提示詞后新的內(nèi)容的確更加扎實(shí),在數(shù)據(jù)之外還會(huì)對(duì)內(nèi)容進(jìn)行進(jìn)一步的概括和總結(jié),比如在談及瑞幸的財(cái)務(wù)數(shù)據(jù)時(shí),會(huì)結(jié)合歷史同期的數(shù)據(jù),總結(jié)出“盈利能力正在不斷增強(qiáng)”的觀點(diǎn)。
另外,由于財(cái)新網(wǎng)的文章重點(diǎn)提到了瑞幸的管理層變更及后續(xù)影響,kimi的財(cái)報(bào)分析也在最后段落增加了相關(guān)內(nèi)容,讓分析的段落格式和財(cái)新的內(nèi)容基本保持一致。
客觀來說,加入了財(cái)新網(wǎng)的關(guān)鍵詞后的確能提高整篇財(cái)報(bào)的可讀性,特別是部分段落融入了財(cái)新網(wǎng)的觀點(diǎn)后,讓文章內(nèi)容更加豐滿,能幫助財(cái)經(jīng)小白更容易看穿冷冰冰數(shù)字背后的深意。
只是,依然尷尬的點(diǎn)是,調(diào)整提示詞后的財(cái)報(bào)分析,只有最開始的一段數(shù)據(jù)來源是財(cái)新網(wǎng),后續(xù)內(nèi)容的數(shù)據(jù)依然是來自第三方網(wǎng)站,理想中的“財(cái)新網(wǎng)為kimi背書”的作用有限。
特別是如果不添加提示詞,kimi大概率不會(huì)主動(dòng)抓取財(cái)新網(wǎng)的內(nèi)容作為數(shù)據(jù)來源,這對(duì)用戶的學(xué)習(xí)成本就有點(diǎn)高了。而且哪怕添加了專門的提示詞后來自財(cái)新的內(nèi)容也不多,這毫無疑問會(huì)削弱kimi在財(cái)經(jīng)這一垂直領(lǐng)域的“專業(yè)”印象。
再者,對(duì)比kimi輸出的內(nèi)容和財(cái)新原版的內(nèi)容,kimi更多只在做提取部分內(nèi)容進(jìn)行總結(jié)、加工的工作,從內(nèi)容專業(yè)度、權(quán)威性來考慮,可能還不如直接看財(cái)新網(wǎng)的報(bào)道更加簡(jiǎn)單直接。
不過考慮到想看財(cái)新網(wǎng)的全部?jī)?nèi)容需要付費(fèi)訂閱,或者kimi的意義就在于作為一個(gè)免費(fèi)渠道看財(cái)新網(wǎng)的付費(fèi)新聞?
但財(cái)新網(wǎng)自身的價(jià)值就在于付費(fèi)訂閱業(yè)務(wù),于情于理都不可能答應(yīng)的,而Kimi的最終目的肯定也不止于此。
所以目前看來kimi看似和財(cái)新是“強(qiáng)強(qiáng)聯(lián)合”,但根本沒有發(fā)揮出這次合作應(yīng)有的價(jià)值。
Kimi的根本問題在于,即便有權(quán)威媒體作為信源,但依然沒有能力在AI生成方面結(jié)合數(shù)據(jù)生成獨(dú)特的、有價(jià)值的答案來。
這里再淺淺對(duì)比一下DeepSeek R1,同樣的“分析一下瑞幸的最新財(cái)報(bào)”提示詞,DeepSeek給出的財(cái)報(bào)分析十分詳細(xì),除了常規(guī)的財(cái)務(wù)表現(xiàn)、門店表現(xiàn)、成本和市場(chǎng)戰(zhàn)略等數(shù)據(jù)外,還主動(dòng)提到了董事會(huì)調(diào)整、股權(quán)結(jié)構(gòu)變化的關(guān)鍵信息。
最后的瑞幸財(cái)報(bào)所體現(xiàn)的風(fēng)險(xiǎn)和未來展望,更是kimi的財(cái)報(bào)分析中沒有的。
在分析的細(xì)致程度上也是DeepSeek更勝一籌。比如在分析成本壓力時(shí),DeepSeek會(huì)提到和咖啡豆的成本上漲有關(guān),而kimi只用一句“成本有所上升”簡(jiǎn)單帶過。
你看,不需要接入專業(yè)、權(quán)威信源的DeepSeek,照樣能輸出和kimi不相伯仲的內(nèi)容來。
你很難說kimi選擇的這條路線沒意義,但kimi的阿喀琉斯之踵,依然是大模型性能。
算力是一切
引用優(yōu)質(zhì)數(shù)據(jù)源,只是對(duì)付AI幻覺、提升體驗(yàn)最基礎(chǔ)的第一步。除此之外還需要更先進(jìn)的LLM、匹配更高算力、更強(qiáng)大算法并對(duì)內(nèi)容進(jìn)行審核檢驗(yàn)等,多個(gè)步驟協(xié)同進(jìn)化,提升大模型的整體性能,才能將AI幻覺降到最低。
所以你可以看到哪怕DeepSeek沒有像kimi和專業(yè)的數(shù)據(jù)源合作,也能提供更優(yōu)秀的內(nèi)容,這背后是DeepSeek在LLM層面、算力/算法層面全面領(lǐng)先的證據(jù)。
Kimi和DeepSeek模型能力的差距,已經(jīng)是引入權(quán)威信源都無法彌補(bǔ)的了。
同時(shí)這也揭露了當(dāng)前AI工具領(lǐng)域的一個(gè)殘酷事實(shí):算力就是一切。
大公司或技術(shù)領(lǐng)先公司,能拿到更多算力、能更高效運(yùn)用算力、能更好的發(fā)揮算法優(yōu)勢(shì),最終訓(xùn)練出更加先進(jìn)、聰明的大模型,模型能力的差距能抹平一切“彎道超車”的手段。
“力大磚飛”,可能才是AI的唯一出路。
其實(shí)在測(cè)試之前,我對(duì)kimi還是保有很高期待的。眾所周知財(cái)經(jīng)問題對(duì)數(shù)據(jù)的準(zhǔn)確性非常高,一些事實(shí)判斷也需要非常高的專業(yè)度,這些都是使用AI工具咨詢財(cái)經(jīng)問題時(shí)最怕出現(xiàn)幻覺的痛點(diǎn)。
本以為kimi和財(cái)新的合作是一次顛覆,但至少目前看來,kimi想要開辟出一條全新的道路還“任重道遠(yuǎn)”。
或許,AI幻覺問題還是只能交給萬眾期待的DeepSeek R2來解決了?
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.