網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

AI大模型，誰(shuí)是長(zhǎng)文本創(chuàng)作之王？

2025-04-10 22:17:01　來(lái)源: 數(shù)據(jù)猿DataYuan

內(nèi)蒙古舉報(bào)

分享至

2025年，AI創(chuàng)作工具的普及已勢(shì)不可擋。

近日，童話(huà)大王鄭淵潔表示會(huì)停止更新自己所有的社交媒體，并說(shuō)寫(xiě)不過(guò)AI，“AI只用4秒也寫(xiě)得比自己好，唯一的缺陷就是沒(méi)有想象力。”

從華東師范大學(xué)推出的“靈咔靈咔”智能寫(xiě)作平臺(tái)一鍵生成百萬(wàn)字小說(shuō)《天命使徒》，到閱文集團(tuán)集成DeepSeek-R1模型為網(wǎng)文作家提供劇情推導(dǎo)服務(wù)；從學(xué)生依賴(lài)AI完成作業(yè)，到晉江文學(xué)城發(fā)布《AI輔助寫(xiě)作使用規(guī)范》，技術(shù)的觸角已深入文學(xué)、教育、商業(yè)的毛細(xì)血管，AI寫(xiě)作工具的普及正以摧枯拉朽之勢(shì)重塑內(nèi)容生產(chǎn)。

然而，這場(chǎng)效率狂歡的背后，暗流洶涌。有各類(lèi)工具間的明爭(zhēng)暗斗，也有人類(lèi)創(chuàng)作與AI的爭(zhēng)執(zhí)與討論。當(dāng)前有哪些AI寫(xiě)作工具，他們有哪些特點(diǎn)？數(shù)據(jù)猿選取國(guó)內(nèi)外10個(gè)典型的AI大模型，從同一深度寫(xiě)作任務(wù)出發(fā)進(jìn)行橫評(píng)，真實(shí)展現(xiàn)各模型的創(chuàng)作邏輯、數(shù)據(jù)準(zhǔn)確性與稿件表現(xiàn)力，為內(nèi)容創(chuàng)作者與企業(yè)決策者提供一些參考。

AI寫(xiě)作

效率狂歡還是創(chuàng)作末日？

這兩年，AI應(yīng)用成為了不可逆轉(zhuǎn)的潮流，很多傳統(tǒng)職業(yè)因此受到?jīng)_擊，動(dòng)輒AI替代某個(gè)職業(yè)的說(shuō)法就會(huì)流傳開(kāi)來(lái)，讓不少人倍感焦慮。

以AI寫(xiě)作為例，當(dāng)前，市面上AI寫(xiě)作類(lèi)工具已經(jīng)呈現(xiàn)井噴趨勢(shì)。整體而言，AI寫(xiě)作已經(jīng)呈現(xiàn)出寫(xiě)作速度快、搜索能力強(qiáng)、信息量大、邏輯相對(duì)嚴(yán)密的特點(diǎn)。在應(yīng)用文或商業(yè)文案領(lǐng)域，AI寫(xiě)作在時(shí)間成本方面已經(jīng)展現(xiàn)出比較大的優(yōu)勢(shì)。

但在市場(chǎng)上，AI寫(xiě)作類(lèi)工具紛繁復(fù)雜，水平參差不齊，從開(kāi)發(fā)廠商、功能、交互、寫(xiě)作水平、寫(xiě)作效率等方面而言都有所區(qū)別。對(duì)此，數(shù)據(jù)猿盤(pán)點(diǎn)了當(dāng)前市面上主流的幾款國(guó)內(nèi)外AI包含寫(xiě)作類(lèi)大模型，并實(shí)測(cè)功能，希望給大家有所幫助（僅代表個(gè)人觀點(diǎn)）。

AI的爆火及自媒體、網(wǎng)絡(luò)的瘋狂侵占，甚至讓普通用戶(hù)很難分辨哪些大模型是簡(jiǎn)單套殼，哪些是真正有背景有專(zhuān)業(yè)開(kāi)發(fā)團(tuán)隊(duì)的產(chǎn)品。我們從國(guó)內(nèi)外找了幾款在寫(xiě)作方面相對(duì)有代表性的產(chǎn)品，當(dāng)然，寫(xiě)作只是AI大模型的一個(gè)基本功能之一，部分產(chǎn)品可能因?yàn)檎Z(yǔ)言問(wèn)題導(dǎo)致結(jié)果有所差異，因此，測(cè)試部分僅供參考。

首先說(shuō)國(guó)外的代表，ChatGPT不用多說(shuō)，作為AI大模型的先行者，ChatGPT開(kāi)啟了AI大模型的時(shí)代。其核心優(yōu)勢(shì)在于實(shí)時(shí)網(wǎng)絡(luò)搜索與文件處理能力，2025年新增的原生圖像生成功能支持通過(guò)對(duì)話(huà)迭代優(yōu)化設(shè)計(jì)，例如保持角色一致性，適用于品牌內(nèi)容與技術(shù)文檔的創(chuàng)作。

就筆者使用體驗(yàn)來(lái)看，ChatGPT算是在寫(xiě)作方面能力非常強(qiáng)的。ChatGPT擅長(zhǎng)生成結(jié)構(gòu)化文本，如技術(shù)文檔和營(yíng)銷(xiāo)方案，且能通過(guò)連接企業(yè)內(nèi)部知識(shí)庫(kù)提升回答準(zhǔn)確性，但目前而言，GPU超負(fù)載問(wèn)題依然存在，生成速率進(jìn)一步限制用戶(hù)體驗(yàn)。

Claude由OpenAI前成員創(chuàng)立的Anthropic研發(fā)，Claude的安全性和代碼能力在圈子里比較有名。其3.5版本在編程任務(wù)中效率非常高，支持通過(guò)MCP協(xié)議調(diào)用15000+API操作，顯著提升技術(shù)報(bào)告撰寫(xiě)效率。寫(xiě)作特色包括多文檔協(xié)同分析（如一次性處理多篇論文生成摘要）和代碼輔助創(chuàng)作（集成Cursor編輯器跨代碼庫(kù)生成報(bào)告）。但是Claude長(zhǎng)時(shí)間運(yùn)行后穩(wěn)定性不足，且Claude 3.7 Max單次調(diào)用成本高達(dá)10美元，僅適合專(zhuān)業(yè)開(kāi)發(fā)者。另外，免費(fèi)版每日消息數(shù)量受限，比較影響長(zhǎng)文本體驗(yàn)。

Grok是馬斯克旗下xAI開(kāi)發(fā)的大模型，以實(shí)時(shí)聯(lián)網(wǎng)與幽默對(duì)話(huà)為特色，適合撰寫(xiě)時(shí)事評(píng)論與社交媒體文案。因?yàn)楸晨縓，在整合最新資訊方面較有優(yōu)勢(shì)，另外還能調(diào)用攝像頭實(shí)時(shí)生成創(chuàng)意內(nèi)容，比如讓它看某款產(chǎn)品，同時(shí)生成表述內(nèi)容等，或者讓它給出穿搭建議。但Grok缺乏多模態(tài)生成能力，功能較單一。在寫(xiě)作場(chǎng)景中，Grok擅長(zhǎng)熱點(diǎn)追蹤與擬人化表達(dá)，但對(duì)學(xué)術(shù)寫(xiě)作等深度任務(wù)支持較弱，生成內(nèi)容常流于表面。

Gemini由Google DeepMind研發(fā)的深度融合搜索數(shù)據(jù)與多模態(tài)技術(shù)，支持40+語(yǔ)言全球化內(nèi)容創(chuàng)作，并基于用戶(hù)行為生成個(gè)性化報(bào)告。Gemini的圖像編輯功能可以一鍵移除版權(quán)水印，有一定法律爭(zhēng)議。在寫(xiě)作領(lǐng)域，Gemini擅長(zhǎng)數(shù)據(jù)驅(qū)動(dòng)創(chuàng)作（比如整合YouTube觀看歷史生成定制內(nèi)容），但功能迭代速度比OpenAI慢，在創(chuàng)新方面相對(duì)比較保守。

回到國(guó)內(nèi)，首先當(dāng)然是深度求索開(kāi)發(fā)的DeepSeek。

作為中國(guó)開(kāi)源社區(qū)代表，DeepSeek憑借全球首個(gè)MoE架構(gòu)模型在技術(shù)博客與項(xiàng)目文檔生成中表現(xiàn)突出，相對(duì)擅長(zhǎng)數(shù)學(xué)與邏輯密集型文本推理。在寫(xiě)作領(lǐng)域，DeepSeek較為擅長(zhǎng)基礎(chǔ)寫(xiě)作和提綱擬定等，但R1（深度思考）幻覺(jué)問(wèn)題格外突出（甚至?xí)摌?gòu)信源），使用過(guò)程中需要格外注意信源準(zhǔn)確問(wèn)題。

通義千問(wèn)由阿里云推出，覆蓋170+場(chǎng)景，集成釘釘與淘寶模板，可快速生成電商文案與營(yíng)銷(xiāo)方案，支持圖文混排內(nèi)容創(chuàng)作，在電商文案領(lǐng)域表現(xiàn)較為突出，但生成內(nèi)容偏向標(biāo)準(zhǔn)化，個(gè)性化不足，且強(qiáng)依賴(lài)阿里系數(shù)據(jù)（如淘寶商品庫(kù)），跨平臺(tái)適配性受限。另外通義千問(wèn)還集合了多種模型，如PPT功能，可以根據(jù)主題理出綱要、一鍵生成PPT，整體來(lái)看，PPT生成較為完整，并支持在內(nèi)容中直接一鍵修改導(dǎo)圖，但分類(lèi)樣式和風(fēng)格較為局限；閱讀助手功能可以AI速讀論文、圖書(shū)等超長(zhǎng)文檔；通義聽(tīng)悟，可以進(jìn)行會(huì)議紀(jì)要、語(yǔ)音轉(zhuǎn)文字等，支持中文、日語(yǔ)、粵語(yǔ)、中英文混說(shuō)等，算是AI實(shí)時(shí)會(huì)議紀(jì)要的神器。

Kimi由月之暗面開(kāi)發(fā)，專(zhuān)注長(zhǎng)文本處理，Kimi憑借支持20萬(wàn)字上下文分析，在小說(shuō)續(xù)寫(xiě)與學(xué)術(shù)論文綜述中表現(xiàn)不錯(cuò)。但是，超長(zhǎng)文本處理耗時(shí)較長(zhǎng)，如處理10萬(wàn)字文檔需15分鐘以上，且交互方式單一，和通義比缺乏多模態(tài)擴(kuò)展能力。

豆包由字節(jié)跳動(dòng)開(kāi)發(fā)，以日活千萬(wàn)級(jí)用戶(hù)量領(lǐng)跑，用戶(hù)體驗(yàn)較好，聚合功能較多，包括圖像生成、寫(xiě)作、搜索、閱讀、編程、PPT、翻譯、音樂(lè)生成、視頻生成甚至語(yǔ)音通話(huà)等。在內(nèi)容創(chuàng)作方面擅長(zhǎng)生成短視頻腳本、熱點(diǎn)梗圖配文等短平快內(nèi)容，但復(fù)雜邏輯文本生成能力較弱。

智譜清言由清華大學(xué)KEG實(shí)驗(yàn)室與智譜AI聯(lián)合研發(fā)，新一代Agent產(chǎn)品“AutoGLM 沉思”非常強(qiáng)悍，尤其是瀏覽網(wǎng)頁(yè)和自動(dòng)操作方面，可以直接像人類(lèi)一樣瀏覽知乎、小紅書(shū)、公眾號(hào)、京東等優(yōu)質(zhì)卻不對(duì)外開(kāi)放API的信源，同時(shí)基于背后基座模型的多模態(tài)理解能力，讓這些網(wǎng)頁(yè)上的圖文信息被充分利用。在寫(xiě)作方面，智譜清言AutoGLM沉思能探究開(kāi)放式問(wèn)題并根據(jù)結(jié)果執(zhí)行操作，能夠模擬人類(lèi)”深度研究”的過(guò)程，從數(shù)據(jù)檢索、分析到生成報(bào)告。和其他大模型不同的是，AutoGLM沉思疊加了AutoGLM操作電腦瀏覽器的環(huán)境交互能力，也是第一個(gè)C端可以使用的擁有強(qiáng)反思能力的Agent產(chǎn)品。

但盡管邏輯非常成熟，但實(shí)際使用過(guò)程中，AutoGLM沉思仍然短板明顯，仍偏向于羅列要點(diǎn)層面。

文心一言由百度開(kāi)發(fā)，依托百度搜索引擎數(shù)據(jù)優(yōu)勢(shì)，在中文語(yǔ)境理解與SEO優(yōu)化建議生成中表現(xiàn)不錯(cuò)，響應(yīng)速度比較快。目前文心一言有文心X1（深度思考）、文心4.5、文心4.0Turbo、文心3.5幾個(gè)版本，可以支撐創(chuàng)意寫(xiě)作、閱讀分析、智慧繪圖等需求，在具體寫(xiě)作方面，有深度寫(xiě)作、改寫(xiě)、擴(kuò)寫(xiě)、仿寫(xiě)、潤(rùn)色、縮寫(xiě)、續(xù)寫(xiě)等功能，細(xì)分比較多。在具體創(chuàng)作方面，文心X1會(huì)有思考和行動(dòng)過(guò)程，產(chǎn)出內(nèi)容中規(guī)中矩，幻覺(jué)問(wèn)題同樣較為突出。

由于國(guó)外AI大模型訪問(wèn)限制，一般用戶(hù)可能難以訪問(wèn)，但綜合而言，寫(xiě)代碼優(yōu)先Claude，創(chuàng)意內(nèi)容可以?xún)?yōu)先選可嘗試ChatGPT、Grok，數(shù)據(jù)處理分析優(yōu)先智譜清言，會(huì)議紀(jì)要優(yōu)先通義聽(tīng)悟，長(zhǎng)文本處理推薦Kimi，企業(yè)級(jí)應(yīng)用側(cè)重DeepSeek和通義千問(wèn)，日常應(yīng)用豆包就可以滿(mǎn)足需求。

至于PPT版塊，當(dāng)前絕大多數(shù)AI生成的PPT都比較雞肋，乍一看很順暢，但無(wú)法生成精細(xì)的內(nèi)容，都是自動(dòng)化套版，后期需要大量的手工調(diào)整。

事實(shí)上，除了寫(xiě)代碼，AI寫(xiě)作仍停留中低層面，因?yàn)锳I本質(zhì)是概率組詞，而非思考。

長(zhǎng)稿件性能比拼

大模型誰(shuí)強(qiáng)誰(shuí)弱

盡管每個(gè)大模型側(cè)重點(diǎn)和優(yōu)勢(shì)不盡相同，但目前功能布局已經(jīng)大差不差。為進(jìn)一步測(cè)試各平臺(tái)稿件創(chuàng)作能力，我們以同樣的題目，在各平臺(tái)進(jìn)行結(jié)果呈現(xiàn)，可以更直觀的了解各大模型的特點(diǎn)。

最近，AI在醫(yī)療領(lǐng)域的幻覺(jué)問(wèn)題較為突出，我們以AI醫(yī)療創(chuàng)作為命題，以相對(duì)標(biāo)準(zhǔn)的提問(wèn)方式對(duì)各模型進(jìn)行提問(wèn)。以下為提問(wèn)問(wèn)題：

“你是一個(gè)醫(yī)療行業(yè)的深度內(nèi)容作者，2025年3月26日晚，上海萊士血液制品股份有限公司發(fā)布公告，宣布公司以42億元的對(duì)價(jià)，收購(gòu)南岳生物制藥有限公司100%股權(quán)。針對(duì)這一事件為由頭，深度分析此次收購(gòu)的原因、對(duì)于上海萊士及國(guó)內(nèi)血制品賽道的影響。
具體要求：
①需側(cè)重具體數(shù)據(jù)分析，文中所有的數(shù)據(jù)均真實(shí)有效
②選取以往至少1個(gè)血制品領(lǐng)域的并購(gòu)案例，并分析其對(duì)行業(yè)產(chǎn)生的影響
③盡可能原創(chuàng)，不允許大段復(fù)制現(xiàn)有資料
④稿件需要至少3個(gè)大部分，字?jǐn)?shù)要求6000字以上。”

對(duì)于內(nèi)容創(chuàng)作者來(lái)說(shuō)，AI能否對(duì)于工作提效很關(guān)鍵，但從專(zhuān)業(yè)角度來(lái)說(shuō)，AI生成復(fù)雜稿件可用性、稿件內(nèi)容準(zhǔn)確性、表達(dá)邏輯等是驗(yàn)證AI創(chuàng)作實(shí)際應(yīng)用可落地的必要基礎(chǔ)。根據(jù)同樣的問(wèn)題，各AI大模型都給出了答案。（使用次數(shù)限制等不在對(duì)比范圍，僅呈現(xiàn)回答內(nèi)容）

首先是ChatGPT，ChatGPT回答該問(wèn)題僅僅用時(shí)46秒，回答稿件整體篇幅為4700字，基礎(chǔ)邏輯較為順暢，但整體內(nèi)容以羅列要點(diǎn)為主，再說(shuō)稿件內(nèi)容準(zhǔn)確度，盡管開(kāi)啟了搜索和推理功能，但該篇稿件內(nèi)容所用到的數(shù)據(jù)絕大部分是推理得出，幻覺(jué)現(xiàn)象較為嚴(yán)重，虛構(gòu)內(nèi)容頻繁出現(xiàn)。

ChatGPT

如“據(jù)《2023中國(guó)血制品市場(chǎng)年度報(bào)告》顯示，中國(guó)血液制品市場(chǎng)規(guī)模在近五年內(nèi)以年均12%～15%的速度增長(zhǎng)，市場(chǎng)總值已突破300億元人民幣”、“并購(gòu)后，上海萊士將整合雙方在全國(guó)范圍內(nèi)的銷(xiāo)售網(wǎng)絡(luò)和供貨渠道，預(yù)計(jì)市場(chǎng)占有率有望提升至35%以上”均為虛構(gòu)，其中案例關(guān)鍵信息“2011年西班牙企業(yè)Grifols斥資約31億美元完成對(duì)美國(guó)Talecris生物制藥公司的并購(gòu)”中，實(shí)際收購(gòu)金額為34億美元，第二部分中所有數(shù)據(jù)均為虛構(gòu)。

接下來(lái)是Claude，我們采用的是Claude 3.7 Sonnet模式，整體用時(shí)在3分鐘以?xún)?nèi)。從呈現(xiàn)上講，Claude 3.7 Sonnet是我認(rèn)為寫(xiě)這篇稿子的最強(qiáng)輸出，正片稿件文本輸出達(dá)11000字，整體呈現(xiàn)條理清晰，并自動(dòng)輔以表格呈現(xiàn)支撐觀點(diǎn)。

這篇類(lèi)似報(bào)告的深度分析文章詳細(xì)探討了上海萊士收購(gòu)南岳生物的戰(zhàn)略意義和行業(yè)影響。從行業(yè)布局到交易雙方近五年?duì)I收利潤(rùn)情況，從國(guó)內(nèi)血制品行業(yè)格局到全球血制品行業(yè)格局，從交易整合風(fēng)險(xiǎn)到對(duì)上下游產(chǎn)業(yè)鏈影響，事無(wú)巨細(xì)，一眼看去確實(shí)驚艷。

Claude

但這篇稿件準(zhǔn)確度是硬傷，盡管文中表格非常多，數(shù)據(jù)呈現(xiàn)非常全面，但具體數(shù)據(jù)均為虛構(gòu)，尤其是各企業(yè)營(yíng)收、凈利潤(rùn)及毛利等情況。但其相對(duì)國(guó)際化的視野是值得肯定的，如其對(duì)比了血制品國(guó)際巨頭CSL Behring的營(yíng)收情況，盡管兩個(gè)對(duì)比對(duì)象營(yíng)收數(shù)據(jù)都是錯(cuò)的，但還是提供了一個(gè)相對(duì)可以深入的點(diǎn)。（CSL Behring2024年?duì)I收為106億澳元，華蘭生物2024年?duì)I收為43.79億人民幣。）

在文章中這樣的案例非常多，對(duì)于作者來(lái)說(shuō)，Claude確實(shí)提供了比較多思路，其萬(wàn)字長(zhǎng)文能力也確實(shí)出色。

然后是Grok，Grok測(cè)試的是DeepSearch+Think模式，整體用時(shí)也在3分鐘以?xún)?nèi)，生成內(nèi)容4300多字。Grok采取的方式是先了解收購(gòu)背景、優(yōu)化搜索、尋找官方信息、分析市場(chǎng)趨勢(shì)、評(píng)估并購(gòu)影響，然后才是規(guī)劃文章結(jié)構(gòu)、整理數(shù)據(jù)、完善你文章內(nèi)容。這個(gè)邏輯鏈條非常準(zhǔn)確，整體內(nèi)容從分析并購(gòu)原因、并購(gòu)對(duì)于上海萊士及國(guó)內(nèi)血制品市場(chǎng)的影響及過(guò)往并購(gòu)案例分析展開(kāi)。

當(dāng)然，硬傷還是數(shù)據(jù)虛構(gòu)，盡管Grok生成的稿件中數(shù)據(jù)呈現(xiàn)沒(méi)有那么多，但是涉及到具體企業(yè)營(yíng)收部分還是完全錯(cuò)誤。

Grok

值得一提的是，Grok在文中提供了完全準(zhǔn)確的信源，甚至提供了準(zhǔn)確的行業(yè)報(bào)告下載鏈接，這一點(diǎn)是其他大模型沒(méi)有的，Grok非常注重搜索環(huán)節(jié)，這可能和Grok背靠馬斯克X平臺(tái)有關(guān)。

接下來(lái)是Gemini，此次測(cè)試，我首先采用的是Gemini稱(chēng)之為處理復(fù)雜任務(wù)效果最好的2.5 Pro (experimental)版本。但Gemini2.5Pro知識(shí)更新周期僅截止到2023年年初，所生成內(nèi)容不具備參考性。

因此，我采用的是Gemini Deep Research版本，Gemini Deep Research整體搜索網(wǎng)站多達(dá)254個(gè)，用時(shí)長(zhǎng)達(dá)20分鐘，但Gemini Deep Research整體研究能力超級(jí)強(qiáng)，是我認(rèn)為最符合深度內(nèi)容作者內(nèi)容生產(chǎn)邏輯的大模型。Gemini Deep Research不僅對(duì)交易細(xì)節(jié)進(jìn)行了完整的分析，還找到了上海萊士和南岳生物過(guò)去幾年的財(cái)務(wù)報(bào)告，并根據(jù)財(cái)務(wù)報(bào)告對(duì)其營(yíng)收、利潤(rùn)進(jìn)行了分析。

在具體內(nèi)容方面，Gemini Deep Research稿件長(zhǎng)度為5700字，內(nèi)容包括并購(gòu)背景、交易雙方財(cái)務(wù)表現(xiàn)、收購(gòu)背后邏輯、對(duì)行業(yè)影響等，盡管數(shù)據(jù)截止到去年三季度，但其數(shù)據(jù)準(zhǔn)確度極其優(yōu)秀，所有內(nèi)容均有精確信源。

Gemini

可以說(shuō)，Gemini Deep Research是最給我驚喜的一個(gè)大模型，不僅所有內(nèi)容都基于公開(kāi)報(bào)道，其分析也相對(duì)有條理，美中不足的是生成內(nèi)容更像是研究報(bào)告。

接下來(lái)我們回到國(guó)內(nèi)，首先是DeepSeek，DeepSeekR1+聯(lián)網(wǎng)搜索模式下，整體內(nèi)容生成為1分鐘左右，盡管DeepSeek在稿件結(jié)尾說(shuō)明“全文約6200字”，但實(shí)際上全文僅有2200字。從內(nèi)容上看，DeepSeek延續(xù)了起標(biāo)題的“硬實(shí)力”，內(nèi)容三個(gè)部分分別擬標(biāo)題為“收購(gòu)動(dòng)因：資源稀缺性、戰(zhàn)略協(xié)同與行業(yè)競(jìng)爭(zhēng)格局的倒逼”、“對(duì)上海萊士的影響：短期增益與長(zhǎng)期風(fēng)險(xiǎn)并存”、“對(duì)國(guó)內(nèi)血制品行業(yè)的影響：集中度提升與競(jìng)爭(zhēng)范式轉(zhuǎn)變”、“歷史鏡鑒：從鄭州萊士到南岳生物的商譽(yù)風(fēng)險(xiǎn)警示”、“結(jié)語(yǔ)：血制品行業(yè)的‘資源為王’與‘技術(shù)制勝’雙軌戰(zhàn)”，充滿(mǎn)行業(yè)里比較明顯的“AI味兒”。

DeepSeek

由于同步開(kāi)啟了聯(lián)網(wǎng)搜索，DeepSeek的幻覺(jué)基本上進(jìn)行了規(guī)避，但整體偏向于內(nèi)容梳理，缺乏核心觀點(diǎn)。為了同步對(duì)比，我們同樣測(cè)試了DeepSeekR1版本，從篇幅方面，DeepSeekR1僅僅用1200字進(jìn)行了內(nèi)容歸納，并“指導(dǎo)”我們把每個(gè)章節(jié)擴(kuò)展至約2000字，以達(dá)成6000字的篇幅。

整體而言，DeepSeek這次的輸出內(nèi)容，明顯不能滿(mǎn)足長(zhǎng)篇稿件要求。

接下來(lái)是通義千問(wèn)，通義千問(wèn)深度思考模式成稿篇幅為3000字，亮點(diǎn)在于行業(yè)趨勢(shì)解讀提出了頭部企業(yè)擴(kuò)張路徑的相關(guān)分析，參考信源共計(jì)9個(gè)，整體內(nèi)容相對(duì)而言較為局限。

通義千問(wèn)

以長(zhǎng)文本見(jiàn)長(zhǎng)的Kimi反而在這個(gè)稿件中呈現(xiàn)比較普通，聯(lián)網(wǎng)+長(zhǎng)思考（k1.5）模式下，全文僅有1700字，整體內(nèi)容呈現(xiàn)也以歸納為主，偏向分析，與深度稿件相比仍存在較大差距。

Kimi

豆包同樣問(wèn)題生成回答為2700字，和DeepSeek、通義千問(wèn)相比，深度思考模式下豆包內(nèi)容中植入了表格，同時(shí)運(yùn)用了較多的數(shù)據(jù)，但幻覺(jué)問(wèn)題較為嚴(yán)重，虛構(gòu)數(shù)據(jù)、政策非常頻繁。和DeepSeek相比，豆包同樣在“秀文字”方面能力突出，尤其標(biāo)題堆砌詞藻現(xiàn)象明顯。

豆包

智譜清言測(cè)試的是AutoGLM沉思版本，整體用時(shí)超過(guò)半小時(shí)，實(shí)操發(fā)現(xiàn)，AutoGLM沉思版本每個(gè)問(wèn)題點(diǎn)都需要搜索大量網(wǎng)頁(yè)并進(jìn)行分析，單個(gè)小點(diǎn)問(wèn)題約用時(shí)3分鐘左右，以至于整個(gè)回答耗時(shí)非常久。文章篇幅為3300字，邏輯較為順暢，準(zhǔn)確度方面非常優(yōu)秀，基本上數(shù)據(jù)都有明確信源，但短板也比較明顯，由于參考了大量文獻(xiàn)及公開(kāi)資料，AutoGLM沉思更偏向于信息羅列和數(shù)據(jù)引用，分析內(nèi)容較為缺乏。

智譜清言

值得一提的是，AutoGLM沉思在思考的同時(shí)，自動(dòng)在瀏覽器中打開(kāi)了相關(guān)網(wǎng)頁(yè)，甚至自動(dòng)找到財(cái)報(bào)的PDF版本，并在分析完畢標(biāo)注“本輪任務(wù)”已結(jié)束，這一點(diǎn)是其他大模型都沒(méi)有的，相較于放信源鏈接，自動(dòng)打開(kāi)瀏覽器、自動(dòng)搜索讓我看到了AI的另一個(gè)版本。

對(duì)于文心一言，我們測(cè)試是文心4.0Turbo同時(shí)開(kāi)啟深度思考（X1）和聯(lián)網(wǎng)搜索的版本，整體文章約3000字，整體文章邏輯較為清晰，收購(gòu)動(dòng)因、歷史行業(yè)并購(gòu)案和市場(chǎng)影響分析都較為全面，主要的問(wèn)題是列點(diǎn)提綱式表述，很難稱(chēng)之為完整文章。但由于啟動(dòng)了聯(lián)網(wǎng)搜索，文心4.0Turbo的信息準(zhǔn)確度非常高。背靠百度，文心一言信源分類(lèi)比較豐富，各類(lèi)財(cái)經(jīng)網(wǎng)站、百家號(hào)、甚至微信公眾號(hào)都在借鑒范圍之內(nèi)，這一點(diǎn)值得肯定。

文心一言

基于以上結(jié)果，我們對(duì)十大AI模型進(jìn)行了橫向?qū)Ρ龋?dāng)然，每個(gè)大模型擅長(zhǎng)領(lǐng)域或方向可能不盡相同，本文僅以相同中文問(wèn)題如實(shí)呈現(xiàn)各模型回答情況，僅供參考。

（評(píng)分以實(shí)際使用體驗(yàn)為準(zhǔn)，僅供參考）

就生成速度而言，智譜清言AutoGLM沉思用時(shí)超過(guò)半小時(shí)，是本次測(cè)試中生成速度最慢的，Gemini Deep Research次之，用時(shí)20分鐘，其他大模型均較為迅速，基本上在5分鐘以?xún)?nèi)即可回答完畢。

在稿件邏輯方面，各模型整體稿件邏輯都較為順暢，沒(méi)有明顯的邏輯不通情況，這表明當(dāng)前大模型在深度稿件邏輯梳理方面已經(jīng)較為出色。

在稿件準(zhǔn)確度方面，整體而言同時(shí)開(kāi)啟聯(lián)網(wǎng)搜索和深度思考（推理）模式下，大部分大模型幻覺(jué)現(xiàn)象仍未減少，如ChatGPT、Claude、通義千問(wèn)、Kimi、豆包。但國(guó)外Gemini Deep Research、國(guó)內(nèi)智譜清言AutoGLM沉思稿件準(zhǔn)確度優(yōu)勢(shì)突出。

測(cè)試結(jié)果表明，當(dāng)前無(wú)一模型能夠100%滿(mǎn)足深度稿件生產(chǎn)所需的準(zhǔn)確性與原創(chuàng)性標(biāo)準(zhǔn)，但部分模型在不同維度已展現(xiàn)出比較強(qiáng)的能力。

給人印象比較深的是Claude 3.7 Sonnet超有邏輯等的萬(wàn)字長(zhǎng)文加表格呈現(xiàn)，grok DeepSearch+Think模式下完整的思考邏輯鏈條和提供完全準(zhǔn)確且可供下載的報(bào)告鏈接，Gemini Deep Research的類(lèi)學(xué)術(shù)內(nèi)容產(chǎn)出及超級(jí)精準(zhǔn)的數(shù)據(jù)呈現(xiàn)。

當(dāng)然，也有國(guó)內(nèi)大模型也有出色之處，如DeepSeek、豆包等在中文文字表達(dá)方面更有創(chuàng)意，智譜清言和文心一言在數(shù)據(jù)方面相對(duì)較為嚴(yán)謹(jǐn)，智譜清言AutoGLM沉思甚至可以自行在瀏覽器搜索內(nèi)容讓人印象深刻。

國(guó)外VS國(guó)內(nèi)

長(zhǎng)文本內(nèi)容AI輔助的幾點(diǎn)歸納

國(guó)內(nèi)外大模型之爭(zhēng)已經(jīng)走入深水區(qū)，不同大模型的側(cè)重點(diǎn)和擅長(zhǎng)領(lǐng)域都不盡相同。篇幅原因，我們很難具象呈現(xiàn)每個(gè)大模型的特色及真正擅長(zhǎng)的領(lǐng)域，但盡管如此，通過(guò)相同的題目，至少可以從這個(gè)冰山一角看過(guò)去，檢驗(yàn)各大模型在相對(duì)篇幅較長(zhǎng)，更偏重深度、分析的稿件中的表現(xiàn)。

整體來(lái)看，國(guó)內(nèi)外主流AI模型還是有差異的，具體有以下幾點(diǎn)：

①內(nèi)容生成風(fēng)格方面，國(guó)內(nèi)AI更具中文優(yōu)勢(shì)

盡管幾乎所有大模型都支持中文，但其質(zhì)量和有效性可能因底層模型的訓(xùn)練數(shù)據(jù)和特定的語(yǔ)言處理能力而異，許多國(guó)際LLM的主要訓(xùn)練數(shù)據(jù)都以英語(yǔ)為中心，在處理中文過(guò)程中部分工具依賴(lài)于翻譯，可能無(wú)法捕捉到中文的所有細(xì)微差別。但國(guó)內(nèi)工具由于原生設(shè)計(jì)，可以訪問(wèn)大量的中國(guó)互聯(lián)網(wǎng)數(shù)據(jù)，包括來(lái)自微信和微博等社交媒體平臺(tái)的內(nèi)容、來(lái)自阿里巴巴和京東等電子商務(wù)平臺(tái)的數(shù)據(jù)、來(lái)自百度的搜索數(shù)據(jù)以及各平臺(tái)新聞。因此在中文的理解和運(yùn)用上更具有優(yōu)勢(shì)，甚至?xí)牟伸偶肌薄皹?biāo)題堆砌”現(xiàn)象，但也更容易產(chǎn)生形式大于內(nèi)容的問(wèn)題。

在內(nèi)容風(fēng)格方面，國(guó)外AI大模型受西方溝通規(guī)范影響，通常傾向于清晰、簡(jiǎn)潔和更直接的表述。國(guó)內(nèi)大模型的內(nèi)容生成風(fēng)格更貼合中國(guó)的寫(xiě)作習(xí)慣，在某些情況下更強(qiáng)調(diào)不同的修辭結(jié)構(gòu)、正式程度和間接性。

②數(shù)據(jù)引用各不相同，各平臺(tái)均有側(cè)重

直接點(diǎn)說(shuō)，大部分大模型都“夾帶私貨”，Grok背靠X，Geminni信源多為谷歌，通義千問(wèn)之于阿里、豆包背靠抖音，文心一言背靠百度等等，因此在實(shí)際過(guò)程中，對(duì)于信源的參考及植入，也會(huì)更傾向于自身平臺(tái)，這一點(diǎn)是需要用戶(hù)進(jìn)行識(shí)別和甄選的。

國(guó)際與國(guó)內(nèi)AI寫(xiě)作助手的主要區(qū)別（僅供參考）

單純就本次測(cè)試而言，個(gè)人認(rèn)為盡管語(yǔ)言層面不占優(yōu)勢(shì)，但國(guó)外大模型在命令理解能力、邏輯產(chǎn)出等方面仍可圈可點(diǎn)。

對(duì)于目標(biāo)是出海甚至面向全球的國(guó)內(nèi)AI來(lái)說(shuō)，能預(yù)見(jiàn)這段路可能比想象的要長(zhǎng)。當(dāng)然，一篇稿件很難評(píng)價(jià)出誰(shuí)優(yōu)勢(shì)更大，但就長(zhǎng)文本輔助產(chǎn)出來(lái)說(shuō)，希望能夠給到大家一些參考或啟發(fā)。

對(duì)于內(nèi)容創(chuàng)作者而言，AI是得力助手，但不是終極答案，真正的創(chuàng)作仍需人類(lèi)判斷與思維參與。

在AI重構(gòu)內(nèi)容產(chǎn)業(yè)格局的今天，我們不僅要關(guān)注“寫(xiě)得快不快”，更應(yīng)思考“寫(xiě)得準(zhǔn)不準(zhǔn)、深不深”。最后，是部分寫(xiě)作場(chǎng)景的大模型選擇建議，僅供參考：

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.