網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

說(shuō)話就能編程的時(shí)代來(lái)了！AI大神卡帕西40分鐘演講精華

2025-06-21 13:55:20　來(lái)源: 智東西

北京舉報(bào)

分享至

智東西
編譯金碧輝
編輯程茜

智東西6月20日消息，前天，前OpenAI聯(lián)合創(chuàng)始人、深度學(xué)習(xí)專家安德烈·卡帕西（Andrej Karpathy）在Y Combinator（YC）于美國(guó)舊金山Moscone會(huì)議中心舉辦的AI創(chuàng)業(yè)學(xué)院（AI Startup School）活動(dòng)上，以《軟件正在發(fā)生根本變化》（Software Is Changing （Again））為題發(fā)表40分鐘主題演講，系統(tǒng)闡釋了大語(yǔ)言模型是如何將軟件開(kāi)發(fā)從“寫(xiě)代碼/調(diào)參數(shù)”轉(zhuǎn)向“自然語(yǔ)言指揮AI”。

卡帕西在演講中透露，軟件開(kāi)發(fā)已進(jìn)入“Software 3.0”階段。他提出，傳統(tǒng)的手寫(xiě)代碼時(shí)代，即Software 1.0，以及訓(xùn)練神經(jīng)網(wǎng)絡(luò)權(quán)重的Software 2.0時(shí)代，正被“提示詞即程序”的Software 3.0所取代。自然語(yǔ)言正成為直接控制計(jì)算機(jī)的新編程接口。

同時(shí)，卡帕西定義了大語(yǔ)言模型的三重核心屬性：大語(yǔ)言模型兼具類似電網(wǎng)的基礎(chǔ)設(shè)施服務(wù)屬性、類似芯片晶圓廠的百億級(jí)資本密集投入屬性，以及類似操作系統(tǒng)的復(fù)雜生態(tài)構(gòu)建與分層管理屬性。

當(dāng)提到大語(yǔ)言模型存在的認(rèn)知缺陷時(shí)，卡帕西說(shuō)大語(yǔ)言模型主要有兩大關(guān)鍵認(rèn)知缺陷：一是“鋸齒狀智能”（Jagged Intelligence），表現(xiàn)為處理復(fù)雜任務(wù)能力突出，卻在如數(shù)值比較、拼寫(xiě)的基礎(chǔ)邏輯上頻繁出錯(cuò)；二是信息一旦超出設(shè)定的上下文窗口便無(wú)法被保留。

針對(duì)大語(yǔ)言模型的自主性控制挑戰(zhàn)，Karpathy提出了仿鋼鐵俠戰(zhàn)甲的動(dòng)態(tài)控制框架。這個(gè)框架的核心是通過(guò)自主性調(diào)節(jié)器，實(shí)現(xiàn)類似特斯拉Autopilot的L1-L4分級(jí)決策權(quán)限分配。

就像鋼鐵俠的戰(zhàn)衣一樣，人們可以根據(jù)任務(wù)的復(fù)雜性和風(fēng)險(xiǎn)程度，動(dòng)態(tài)調(diào)整AI的自主程度，從簡(jiǎn)單的輔助建議到完全自主決策，讓人類始終保持對(duì)系統(tǒng)的最終控制權(quán)。

以下是卡帕西所發(fā)表演講的完整編譯（為提高可讀性，智東西在不違背原意的前提下進(jìn)行了一定的增刪修改）：

一、軟件進(jìn)化路徑：從寫(xiě)代碼、教電腦，到“說(shuō)話”指揮AI

今天我很興奮能在這里和大家聊AI時(shí)代的軟件。我聽(tīng)說(shuō)你們很多人是學(xué)生，本科生、碩士生、博士生等等，即將進(jìn)入這個(gè)行業(yè)。現(xiàn)在進(jìn)入行業(yè)其實(shí)是一個(gè)極其獨(dú)特、非常有趣的時(shí)刻。

根本原因在于軟件正經(jīng)歷根本性變革。我說(shuō)“再次”，是因?yàn)樗掷m(xù)劇變，這讓我總有新材料創(chuàng)作新演講。

粗略地說(shuō)，我認(rèn)為軟件在根本層面上70年沒(méi)大變，但最近幾年快速變化了兩次。這帶來(lái)了海量的軟件編寫(xiě)和重寫(xiě)工作。我?guī)啄昵坝^察到軟件在變化，出現(xiàn)了一種新型軟件，我稱之為Software 2.0。

我的想法是：Software 1.0是你編寫(xiě)的計(jì)算機(jī)代碼；Software 2.0本質(zhì)上是神經(jīng)網(wǎng)絡(luò)的權(quán)重。你不是直接編寫(xiě)它，而是通過(guò)調(diào)整數(shù)據(jù)集和運(yùn)行優(yōu)化器來(lái)創(chuàng)建這些參數(shù)。

當(dāng)時(shí)神經(jīng)網(wǎng)絡(luò)常被視為另一種分類器，但我認(rèn)為這個(gè)框架更貼切；現(xiàn)在，我們?cè)赟oftware 2.0領(lǐng)域有了類似GitHub的存在，我認(rèn)為Hugging Face是Software 2.0領(lǐng)域的GitHub，其推出的Model Atlas也在其中扮演著重要角色。

作為一個(gè)極具影響力的平臺(tái)，Hugging Face為開(kāi)發(fā)者提供了豐富的資源與便捷的工具，就像GitHub在傳統(tǒng)軟件開(kāi)發(fā)中所做的那樣，它推動(dòng)著Software 2.0領(lǐng)域的技術(shù)交流與創(chuàng)新發(fā)展，而模型地圖（Model Atlas）如同一個(gè)龐大的模型資源庫(kù)，進(jìn)一步豐富了平臺(tái)的生態(tài)，讓開(kāi)發(fā)者能夠更輕松地獲取和使用各類模型，助力不同項(xiàng)目的開(kāi)發(fā)與落地。模型地圖是一種可視化模型倉(cāng)庫(kù)的開(kāi)源工具，針對(duì)Software 2.0設(shè)計(jì)。

例如，那個(gè)巨大的中心圓圈代表Flux圖像生成器的參數(shù)，每次在其基礎(chǔ)上調(diào)整，就相當(dāng)于一次git commit，創(chuàng)建一個(gè)新的圖像生成器。

所以，Software 1.0通過(guò)編寫(xiě)代碼對(duì)計(jì)算機(jī)進(jìn)行編程，Software 2.0則借助如AlexNet等神經(jīng)網(wǎng)絡(luò)的權(quán)重實(shí)現(xiàn)對(duì)神經(jīng)網(wǎng)絡(luò)的編程。

直到最近，這些神經(jīng)網(wǎng)絡(luò)都是固定功能的。我認(rèn)為一個(gè)根本性的變化是：神經(jīng)網(wǎng)絡(luò)通過(guò)大語(yǔ)言模型變得可編程了。我認(rèn)為這非常新穎獨(dú)特，是一種新型計(jì)算機(jī)，值得稱為Software 3.0。

在Software 3.0中，你的提示詞就是編程大語(yǔ)言模型的程序。值得注意的是，這些提示是用英語(yǔ)寫(xiě)的，這是一種非常有趣的編程語(yǔ)言。

比如你想讓電腦進(jìn)行一下情感分類，完成判斷一條評(píng)論是夸人還是罵人的任務(wù)，有不同的方法。

Software 1.0的老方法：你得像個(gè)老師傅，自己動(dòng)手寫(xiě)一堆代碼，告訴電腦看到哪些詞算夸、哪些詞算罵；進(jìn)化一點(diǎn)的Software 2.0：你像個(gè)教練，找一堆標(biāo)好了“夸”或“罵”的評(píng)論例子，讓電腦自己琢磨學(xué)習(xí)規(guī)律；Software 3.0：你像個(gè)老板，直接對(duì)大語(yǔ)言模型下命令：“看看這條評(píng)論是夸還是罵？只準(zhǔn)回‘夸’或‘罵’！”就這一句話，AI就懂了，馬上給你答案。你要是把命令改成“分析下這條評(píng)論是積極還是消極”，它回答的方式也跟著變。

我們看到GitHub上的代碼不再僅是代碼，還夾雜著英語(yǔ)，這是一種正在增長(zhǎng)的新代碼類別。這不僅是一個(gè)新范式，同樣令我驚訝的是它使用英語(yǔ)。這讓我?guī)啄昵罢痼@并發(fā)布了推文。

我在特斯拉研發(fā)Autopilot時(shí)觀察到：起初棧底是傳感器輸入，經(jīng)過(guò)大量C++（1.0）和神經(jīng)網(wǎng)絡(luò)（2.0）處理，輸出駕駛指令。隨著Autopilot改進(jìn)，神經(jīng)網(wǎng)絡(luò)能力和規(guī)模增長(zhǎng)，C++代碼被刪除。許多原本由1.0實(shí)現(xiàn)的功能遷移到了2.0。Software 2.0棧實(shí)實(shí)在在地“吃掉”了1.0棧。

▲在特斯拉研發(fā)Autopilot時(shí)觀察到的2.0吞噬傳統(tǒng)代碼棧

我們正再次看到同樣的事情發(fā)生：Software 3.0正在“吃掉”整個(gè)棧。現(xiàn)在我們有了三種完全不同的編程范式。我認(rèn)為進(jìn)入行業(yè)時(shí)精通三者是明智的，它們各有優(yōu)劣。你需要決定：某個(gè)功能該用1.0、2.0還是3.0實(shí)現(xiàn)？是訓(xùn)練神經(jīng)網(wǎng)絡(luò)還是提示大語(yǔ)言模型？這該是顯式代碼嗎？我們需要做這些決定，并可能需要在范式間流暢轉(zhuǎn)換。

二、大語(yǔ)言模型成為新操作系統(tǒng)，計(jì)算呈分時(shí)共享模式

軟件正在經(jīng)歷根本性的變化，這種變化在過(guò)去70年中從未如此劇烈。大約70年來(lái)，軟件的底層范式幾乎未變，但在過(guò)去幾年里，它連續(xù)發(fā)生了兩次結(jié)構(gòu)性巨變。現(xiàn)在，我們正站在軟件重寫(xiě)的浪潮上，有大量的工作要做、大量的軟件要寫(xiě)，甚至重寫(xiě)。

幾年前，我注意到軟件開(kāi)始向一種新形式演化，我當(dāng)時(shí)給它取名叫Software 2.0。Software 1.0是傳統(tǒng)意義上我們手寫(xiě)的代碼，而Software 2.0指的是神經(jīng)網(wǎng)絡(luò)的參數(shù)。我們不再直接寫(xiě)“代碼”，而是調(diào)數(shù)據(jù)、跑優(yōu)化器，生成參數(shù)。

如今，在Software 2.0世界中也有了類似GitHub的東西，比如Hugging Face和模型地圖，它們就像代碼庫(kù)一樣存儲(chǔ)著不同的模型。每次有人在Flux模型基礎(chǔ)上進(jìn)行調(diào)整，就相當(dāng)于在這個(gè)空間創(chuàng)建了一次代碼提交。

而現(xiàn)在，大語(yǔ)言模型的出現(xiàn)帶來(lái)了更根本的改變。我認(rèn)為這是一種全新的計(jì)算機(jī)，甚至值得被稱為Software 3.0。你的提示現(xiàn)在就是對(duì)大語(yǔ)言模型編程的程序，而且這些提示是用英語(yǔ)編寫(xiě)的。這是一種非常有趣的編程語(yǔ)言。

Andrew Ng曾說(shuō)“AI是新時(shí)代的電力”，這句話點(diǎn)出了關(guān)鍵點(diǎn)，比如OpenAI、谷歌、Anthropic等投入資本來(lái)訓(xùn)練模型，然后用運(yùn)營(yíng)開(kāi)銷通過(guò)API向開(kāi)發(fā)者“輸送智能”，模型按token計(jì)價(jià)，像電力一樣被“計(jì)量使用”。我們對(duì)這些模型的要求也非常像“基礎(chǔ)設(shè)施”：低延遲、高可用、穩(wěn)定輸出。

▲如OpenAI、Gemini、Anthropic投入資本訓(xùn)練模型，類似構(gòu)建電網(wǎng)

但大語(yǔ)言模型不僅具有公用事業(yè)的屬性，它們更像是復(fù)雜的軟件操作系統(tǒng)。OpenAI、Anthropic就像是Windows和macOS，而開(kāi)源模型則更像Linux。操作系統(tǒng)的作用不是“運(yùn)行某個(gè)功能”，而是構(gòu)建一個(gè)“平臺(tái)”來(lái)承載更多功能。

▲閉源供應(yīng)商如Windows、Mac OS有開(kāi)源替代方案Linux

更準(zhǔn)確地說(shuō)，大語(yǔ)言模型并非獨(dú)立完成任務(wù)，而是作為承載提示詞、工具及Agent等組件的“運(yùn)行時(shí)系統(tǒng)”來(lái)發(fā)揮作用。這些組件如同插件般嵌入大語(yǔ)言模型框架中，通過(guò)模型的推理能力協(xié)調(diào)運(yùn)作，共同實(shí)現(xiàn)復(fù)雜任務(wù)的處理。

從計(jì)算模式來(lái)看，我們現(xiàn)在的大語(yǔ)言模型計(jì)算處于1960年代的階段。大語(yǔ)言模型推理成本仍然很高，模型計(jì)算集中部署在云端，我們?nèi)缤菘蛻舳耍═hin Client）通過(guò)網(wǎng)絡(luò)遠(yuǎn)程訪問(wèn)。

這就像“分時(shí)共享”計(jì)算模式：多用戶排隊(duì)使用同一模型，云端以“批處理”方式依次執(zhí)行任務(wù)，就像多人輪流使用一臺(tái)超級(jí)計(jì)算機(jī)，按序獲取計(jì)算資源。

有趣的是，大語(yǔ)言模型顛倒了傳統(tǒng)技術(shù)擴(kuò)散的方向。通常，新技術(shù)首先由政府和企業(yè)使用，之后才擴(kuò)散到消費(fèi)者。但大語(yǔ)言模型不同，它首先服務(wù)的是普通人，比如幫助用戶煮雞蛋，而政府和企業(yè)反而在落后地采用這些技術(shù)。

▲大語(yǔ)言模型幫助用戶煮雞蛋

這完全顛倒了傳統(tǒng)路徑，也可能啟示我們：真正的殺手級(jí)應(yīng)用會(huì)從個(gè)人用戶端長(zhǎng)出來(lái)。

總結(jié)來(lái)看，大語(yǔ)言模型本質(zhì)上是復(fù)雜的軟件操作系統(tǒng)，我們正在“重新發(fā)明計(jì)算”，就像1960年代那樣。而且它們現(xiàn)在以“時(shí)間共享”的方式提供服務(wù)，像公用事業(yè)一樣被分發(fā)。

真正不同的是，它們不是掌握在政府或少數(shù)企業(yè)手里，而是屬于我們每一個(gè)人。我們每個(gè)人都有電腦，而大語(yǔ)言模型只是軟件，它可以在一夜之間傳遍整個(gè)星球，進(jìn)入數(shù)十億人的設(shè)備。

現(xiàn)在，輪到我們進(jìn)入這個(gè)行業(yè)，去編程這個(gè)“新計(jì)算機(jī)”。這是一個(gè)充滿機(jī)遇的時(shí)代，我們需要熟練掌握Software 1.0、2.0和3.0這三種編程范式，在不同場(chǎng)景下靈活運(yùn)用，以發(fā)揮它們的最大價(jià)值。

三、擁有超強(qiáng)記憶，卻存在“記憶碎片”式健忘癥與認(rèn)知錯(cuò)誤

研究大語(yǔ)言模型時(shí)，我們得花些時(shí)間思考它們究竟是什么。我尤其想聊聊它們的“心理”。在我看來(lái)，大語(yǔ)言模型有點(diǎn)像人的靈魂，是對(duì)人類的靜態(tài)模擬。這里的模擬工具是自回歸變換器，變換器本質(zhì)上是一種神經(jīng)網(wǎng)絡(luò)，它以token為單位，一個(gè)token接一個(gè)token地處理信息，處理每個(gè)token所耗費(fèi)的計(jì)算量幾乎相同。

當(dāng)然，這個(gè)模擬過(guò)程涉及一些參數(shù)權(quán)重，我們根據(jù)互聯(lián)網(wǎng)上的所有文本數(shù)據(jù)對(duì)其進(jìn)行擬合，最終得到這樣一個(gè)模擬工具。它是基于人類文本數(shù)據(jù)訓(xùn)練的，因此產(chǎn)生了類似人類的“心理”特征。

首先，我們會(huì)注意到，大語(yǔ)言模型擁有百科全書(shū)式的知識(shí)和超強(qiáng)的記憶力。它們能記住的內(nèi)容比任何一個(gè)普通人都要多得多，因?yàn)樗鼈儭伴喿x”了海量信息。這讓我想起電影《雨人》，強(qiáng)烈推薦大家去看看，這是一部很棒的電影。

達(dá)斯汀·霍夫曼在影片中飾演一位患有自閉癥的天才，擁有近乎完美的記憶力，他可以讀完一本電話簿，并記住所有的姓名和電話號(hào)碼。我覺(jué)得大語(yǔ)言模型和他很相似，它們能輕松記住哈希值等各種各樣的信息，在某些方面確實(shí)擁有“超能力”。

不過(guò)，大語(yǔ)言也存在一些認(rèn)知缺陷。它們經(jīng)常會(huì)產(chǎn)生幻覺(jué)，編造一些內(nèi)容，而且缺乏足夠完善的自我認(rèn)知內(nèi)部模型。雖然這方面已經(jīng)有所改善，但仍不完美。

它們的智能表現(xiàn)參差不齊，在某些問(wèn)題解決領(lǐng)域展現(xiàn)出超人的能力，但也會(huì)犯一些人類幾乎不會(huì)犯的錯(cuò)誤，比如堅(jiān)稱9.11大于9.9，或者認(rèn)為“strawberry”里有兩個(gè)“r”，這些都是很有名的例子。總之，它們存在一些容易讓人“踩坑”的認(rèn)知盲區(qū)。

此外，大語(yǔ)言模型還存在遺忘問(wèn)題。打個(gè)比方，如果有新同事加入公司，隨著時(shí)間推移，這位同事會(huì)逐漸了解公司，掌握大量公司相關(guān)背景信息，晚上回家休息時(shí)鞏固知識(shí)，久而久之積累專業(yè)知識(shí)。

但大語(yǔ)言模型天生不具備這種能力，在大語(yǔ)言模型的研發(fā)中，這一問(wèn)題也尚未得到真正解決。上下文窗口就好比工作記憶，我們必須非常直接地對(duì)其進(jìn)行編程設(shè)定，因?yàn)榇笳Z(yǔ)言模型不會(huì)默認(rèn)自動(dòng)變得更智能。

我認(rèn)為很多人會(huì)被流行文化中的一些類比誤導(dǎo)，我建議大家看看《記憶碎片》和《初戀50次》這兩部電影。在這兩部電影中，主角的記憶權(quán)重是固定的，每天早上上下文窗口都會(huì)被清空。在這種情況下，去工作或者維持人際關(guān)系都變得非常困難，而這恰恰是大語(yǔ)言模型經(jīng)常面臨的情況。

我還想指出一點(diǎn)，就是使用大語(yǔ)言模型時(shí)在安全方面的相關(guān)限制。例如，大語(yǔ)言模型很容易被欺騙，容易受到提示注入風(fēng)險(xiǎn)的影響，可能會(huì)泄露你的數(shù)據(jù)等等，在安全方面還有許多其他需要考慮的因素。

簡(jiǎn)而言之，大語(yǔ)言模型既是擁有超能力的“超人”，又存在一系列認(rèn)知缺陷和問(wèn)題。那么，我們?cè)撊绾螌?duì)它們進(jìn)行編程，如何規(guī)避它們的缺陷，同時(shí)又能充分利用它們的超能力呢？

四、最大機(jī)遇是做帶自主調(diào)節(jié)功能的半自動(dòng)化應(yīng)用，有好用的界面和操作體驗(yàn)

現(xiàn)在，我想轉(zhuǎn)而談?wù)勅绾卫眠@些模型，以及其中最大的機(jī)遇是什么。我最感興趣的是“部分自主化應(yīng)用”這一方向。以編程場(chǎng)景為例，你可以直接使用ChatGPT復(fù)制粘貼代碼、提交bug報(bào)告，但為什么要直接與操作系統(tǒng)交互呢？更合理的方式是構(gòu)建專用應(yīng)用。

我和在座很多人一樣在用Cursor，它是早期大語(yǔ)言模型應(yīng)用的典范，具備幾個(gè)關(guān)鍵特性：保留傳統(tǒng)手動(dòng)操作界面的同時(shí)集成大語(yǔ)言模型處理大塊任務(wù)；大語(yǔ)言模型負(fù)責(zé)大量上下文管理；編排多輪模型調(diào)用，Cursor底層實(shí)際上整合了代碼嵌入模型、聊天模型以及用于代碼差異應(yīng)用的模型。

專用GUI的重要性常被低估。文本交互難以閱讀和操作，而可視化diff以紅色標(biāo)識(shí)刪除、綠色標(biāo)識(shí)新增，配合Command+Y/N快捷鍵能大幅提升審查效率；還有“自主滑塊”設(shè)計(jì)，比如Cursor中從代碼補(bǔ)全到修改整個(gè)文件甚至整個(gè)代碼庫(kù)的不同自主層級(jí)，用戶可根據(jù)任務(wù)復(fù)雜度調(diào)整放權(quán)程度。

另一個(gè)成功案例是Perplexity，它同樣整合多模型調(diào)用、提供可審計(jì)的GUI，用戶能點(diǎn)擊查看引用來(lái)源，也設(shè)有自主滑塊，提供快速搜索、深度研究等不同模式。

我認(rèn)為未來(lái)大量軟件將走向部分自主化，這需要思考幾個(gè)核心問(wèn)題：大語(yǔ)言模型能否感知人類所見(jiàn)、執(zhí)行人類所行？人類如何有效監(jiān)督這些尚不完美的系統(tǒng)？傳統(tǒng)軟件的交互設(shè)計(jì)如何適配大語(yǔ)言模型？

當(dāng)前大語(yǔ)言模型應(yīng)用的關(guān)鍵在于優(yōu)化“生成-驗(yàn)證”循環(huán)效率。一方面，GUI利用人類視覺(jué)系統(tǒng)快速審查結(jié)果，讀文本費(fèi)力而看圖輕松；另一方面，必須控制AI的“自主性”：10000行代碼的diff對(duì)開(kāi)發(fā)者毫無(wú)意義，人類仍是質(zhì)量瓶頸。我在實(shí)際編程中始終堅(jiān)持小步迭代，避免過(guò)大變更，通過(guò)快速驗(yàn)證確保質(zhì)量。

教育領(lǐng)域的應(yīng)用設(shè)計(jì)也遵循類似邏輯：教師端應(yīng)用生成課程，學(xué)生端應(yīng)用提供結(jié)構(gòu)化學(xué)習(xí)路徑，中間課程作為可審計(jì)的中間產(chǎn)物，確保AI在既定教學(xué)大綱和項(xiàng)目流程內(nèi)工作，避免“迷失”。

回顧在特斯拉的經(jīng)歷，自動(dòng)駕駛系統(tǒng)同樣采用部分自主模式：儀表盤(pán)實(shí)時(shí)顯示神經(jīng)網(wǎng)絡(luò)感知結(jié)果，用戶通過(guò)“自主滑塊”逐步放權(quán)。2013年我首次體驗(yàn)完全無(wú)干預(yù)的自動(dòng)駕駛時(shí)，曾認(rèn)為技術(shù)已成熟。

當(dāng)時(shí)朋友在Waymo工作，帶我在帕洛阿爾托的高速和街道上行駛了30分鐘，全程零干預(yù)，我用谷歌眼鏡記錄下了這一幕。但12年后的今天，即便能看到Waymo的無(wú)人駕駛車輛上路，背后仍依賴大量遠(yuǎn)程操作和人工介入。這說(shuō)明軟件系統(tǒng)的復(fù)雜性遠(yuǎn)超預(yù)期，AI Agent的發(fā)展將是長(zhǎng)期過(guò)程，需保持謹(jǐn)慎。

同樣地，類比鋼鐵俠戰(zhàn)衣可知：當(dāng)前更應(yīng)聚焦“增強(qiáng)型工具”，而非“全自主機(jī)器人”。

構(gòu)建部分自主產(chǎn)品時(shí)，需做好兩點(diǎn)：一是設(shè)計(jì)定制化GUI與UX（用戶體驗(yàn)），確保“生成-驗(yàn)證”循環(huán)高效運(yùn)轉(zhuǎn)；二是保留自主滑塊機(jī)制，以便逐步提升產(chǎn)品自主性。這正是我眼中的重要機(jī)會(huì)方向。

五、自然語(yǔ)言編程讓人人能開(kāi)發(fā)，加快Agent基礎(chǔ)設(shè)施轉(zhuǎn)型

我認(rèn)為大語(yǔ)言模型用英語(yǔ)編程這件事，讓軟件變得極具可訪問(wèn)性！同時(shí)我想補(bǔ)充另一個(gè)獨(dú)特維度：如今不僅出現(xiàn)了允許軟件自主運(yùn)行的新型編程語(yǔ)言，而且它以英語(yǔ)這種自然界面編程。

突然之間，每個(gè)人都能成為程序員，因?yàn)槿巳硕紩?huì)說(shuō)英語(yǔ)這樣的自然語(yǔ)言，這讓我感到非常振奮，也覺(jué)得前所未有的有趣。過(guò)去，你需要花5到10年學(xué)習(xí)才能在軟件領(lǐng)域有所作為，但現(xiàn)在完全不同了。

不知道大家有沒(méi)有聽(tīng)說(shuō)過(guò)“Vibe Coding”（基于自然語(yǔ)言交互的編程方式）？這個(gè)概念最初由一條推文引入，現(xiàn)在已經(jīng)成了一個(gè)熱門梗。

說(shuō)起來(lái)有趣，我在Twitter上待了15年左右，至今仍搞不懂哪條推文會(huì)爆火，哪條會(huì)無(wú)人問(wèn)津。當(dāng)時(shí)我發(fā)那條推文時(shí)，以為它會(huì)石沉大海，畢竟那只是我洗澡時(shí)的隨想，結(jié)果它成了全網(wǎng)梗，甚至有了維基百科頁(yè)面，這算是我對(duì)行業(yè)的一大貢獻(xiàn)吧。

HuggingFace的Tom Wolf分享過(guò)一個(gè)很棒的視頻，里面是孩子們?cè)凇癡ibe Coding”。我特別喜歡這個(gè)視頻，它太治愈了，看了這樣的畫(huà)面，誰(shuí)還會(huì)對(duì)未來(lái)感到悲觀呢？我覺(jué)得這會(huì)成為軟件開(kāi)發(fā)的“入門藥”。我對(duì)這代人的未來(lái)并不悲觀，真的很愛(ài)這個(gè)視頻。受此啟發(fā)，我也嘗試了“Vibe Coding”，因?yàn)樗腥ち恕?/p>

比如當(dāng)你想做一個(gè)特別定制化、市面上不存在的東西，又恰逢周六想隨性發(fā)揮時(shí)，這種編程方式就很合適。我曾用它開(kāi)發(fā)了一個(gè)iOS應(yīng)用，雖然我完全不會(huì)Swift，但居然能做出一個(gè)超基礎(chǔ)的應(yīng)用，過(guò)程很簡(jiǎn)單，我就不細(xì)說(shuō)了，但那天花了一天時(shí)間，晚上應(yīng)用就在我手機(jī)上運(yùn)行了，我當(dāng)時(shí)真的覺(jué)得“太神奇了”，不用花五天時(shí)間啃Swift教程就能上手。

我還“Vibe Coding”了一個(gè)叫Menu Genen的應(yīng)用，現(xiàn)在已經(jīng)上線，大家可以在menu.app試用。我開(kāi)發(fā)它的初衷很簡(jiǎn)單：每次去餐廳看菜單，我都不知道那些菜是什么，需要配圖，但市面上沒(méi)有這樣的工具，于是我就“Vibe Coding”了一個(gè)。用戶注冊(cè)后能獲得5美元credits，但這對(duì)我來(lái)說(shuō)是個(gè)巨大的成本中心。

現(xiàn)在這個(gè)應(yīng)用還在虧錢，我已經(jīng)搭進(jìn)去很多錢了。不過(guò)有趣的是，開(kāi)發(fā)Menu Genen時(shí)，“Vibe Coding”的代碼部分其實(shí)是最簡(jiǎn)單的，真正難的是把它落地成可用的產(chǎn)品：認(rèn)證系統(tǒng)、支付功能、域名注冊(cè)和部署，這些都不是寫(xiě)代碼，而是在瀏覽器里點(diǎn)點(diǎn)點(diǎn)的DevOps工作，極其繁瑣，花了我一周時(shí)間。

比如給網(wǎng)頁(yè)添加谷歌登錄時(shí)，文檔里全是“去這個(gè)URL，點(diǎn)擊下拉菜單，選擇這個(gè)，再點(diǎn)那個(gè)”之類的指令，簡(jiǎn)直像電腦在指揮我做事，為什么不是它自己做呢？這太瘋狂了。

所以我演講的最后一部分想探討：我們能否為Agent構(gòu)建基礎(chǔ)設(shè)施？大語(yǔ)言模型正在成為數(shù)字信息的新型主要消費(fèi)者和操控者，我不想再做那些繁瑣的手動(dòng)工作了，能不能讓Agent來(lái)做？

概括來(lái)說(shuō)，數(shù)字信息的消費(fèi)者和操控者范疇正在擴(kuò)展：過(guò)去只有通過(guò)GUI交互的人類，或通過(guò)API交互的計(jì)算機(jī)，現(xiàn)在多了Agent，它們是像人類一樣的計(jì)算機(jī)，是互聯(lián)網(wǎng)上的“數(shù)字精靈”，需要與我們的軟件基礎(chǔ)設(shè)施交互。

比如，我們可以在域名下創(chuàng)建lm.txt文件，用簡(jiǎn)單的Markdown告訴大語(yǔ)言模型這個(gè)域名的內(nèi)容，這比讓它們解析HTML更高效，因?yàn)镠TML解析容易出錯(cuò)。現(xiàn)在很多文檔還是為人類編寫(xiě)的，有列表、粗體、圖片，但大語(yǔ)言模型難以直接理解。

我注意到Vercel和Stripe等公司已經(jīng)開(kāi)始將文檔轉(zhuǎn)為大語(yǔ)言模型友好的Markdown格式，這是很好的嘗試。

舉個(gè)例子，由斯坦福大學(xué)數(shù)學(xué)系畢業(yè)生格蘭特·桑德森（Grant Sanderson）創(chuàng)建的YouTube頻道3Blue1Brown的動(dòng)畫(huà)視頻文檔寫(xiě)得很棒，我不想通讀，就把文檔復(fù)制給大語(yǔ)言模型，告訴它我的需求，結(jié)果它直接幫我生成了想要的動(dòng)畫(huà)。

如果文檔能讓大語(yǔ)言模型讀懂，會(huì)釋放巨大的應(yīng)用潛力。但這不僅是轉(zhuǎn)換格式的問(wèn)題，比如文檔里的“點(diǎn)擊此處”對(duì)大語(yǔ)言模型毫無(wú)意義，Vercel就把所有“點(diǎn)擊”替換成了大語(yǔ)言模型Agent可用的curl命令。

此外，Anthropic的模型上下文協(xié)議MCP（model context protocol）也是直接與Agent交互的新方式，我很看好這些方向。

還有一些工具也在助力大語(yǔ)言模型友好的數(shù)據(jù)處理：比如把GitHub倉(cāng)庫(kù)的URL改成get.ingest，就能將所有文件合并成可直接喂給大語(yǔ)言模型的文本；Deep Wiki不僅提取文件內(nèi)容，還能分析GitHub倉(cāng)庫(kù)并生成文檔，方便大語(yǔ)言模型理解。這些工具只需修改URL就能讓內(nèi)容適配大語(yǔ)言模型，非常實(shí)用。

雖然未來(lái)大語(yǔ)言模型可能具備點(diǎn)擊操作的能力，但現(xiàn)在讓它們更便捷地獲取信息仍有必要，畢竟當(dāng)前大語(yǔ)言模型調(diào)用成本較高，且操作復(fù)雜，很多軟件可能不會(huì)主動(dòng)適配，所以這些工具很有存在價(jià)值。

總結(jié)來(lái)看，現(xiàn)在進(jìn)入這個(gè)行業(yè)正是時(shí)候：我們需要重寫(xiě)大量代碼，未來(lái)專業(yè)開(kāi)發(fā)者和大語(yǔ)言模型都會(huì)成為代碼的生產(chǎn)者。大語(yǔ)言模型就像早期的操作系統(tǒng)，這些“會(huì)犯錯(cuò)的數(shù)字精靈”需要我們調(diào)整基礎(chǔ)設(shè)施來(lái)適配。

今天我分享了高效使用大語(yǔ)言模型的方法、相關(guān)工具，以及如何快速迭代產(chǎn)品。回到“鋼鐵俠戰(zhàn)衣”的比喻，未來(lái)十年，我們會(huì)見(jiàn)證人機(jī)協(xié)作的邊界不斷拓展，我已經(jīng)迫不及待想和大家一起參與其中。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.