未經許可不得轉載,務必保留原文出處鏈接和公眾號按鈕
(關注本城公眾號并設為星標,
第一時間獲取世界頂級商業科技認知)
文:天空之城·城主
‘AI程序員’公司Cognition的創始人Scott Wu是一位從國際信息學奧林匹克競賽選手蛻變為硅谷炙手可熱的AI創業者。
Devin是Cognition AI推出的全球首個AI程序員,號稱掌握全棧技能、自學新技術、構建和部署應用程序、自主查找并修復Bug、訓練和微調自己的AI模型等多項能力。
最近Devin開始有競爭對手出現,這些AI編程助手正在悄然改變軟件開發的格局。在這次最新的訪談中,Scott不僅分享了他對AI技術未來的獨特洞見,還坦誠地講述了創業路上的挑戰與收獲。
城主注:之前Devin有一次公關風波, 有油管博主宣稱Devin視頻造假,后來不了了之,但從這次的訪談來看,Scott是言之有物有思考干貨的。
B站傳送:【精校】一個關于AI程序員的未來 | Cognition創始人Scott WU 八月訪談-嗶哩嗶哩】
https://b23.tv/E44WfYj
AI編程助手Devin的突破性進展:
Scott詳細介紹了Devin的獨特之處。不同于傳統的代碼補全工具,Devin是一個真正的"數字助手"。它不僅能編寫代碼,還能瀏覽網頁、運行命令,甚至進行復雜的決策。Scott分享了Devin成功處理航班退款等實際案例,展示了AI在日常生活中的應用潛力。Devin的全方位能力使其在競爭激烈的AI編程工具市場中脫穎而出,代表了AI輔助編程的新方向。
軟件工程的未來圖景:
Scott對軟件工程的未來提出了顛覆性觀點。他預測未來的軟件工程師角色將更接近于產品經理和技術架構師的結合體。工程師們將專注于問題分解、需求分析和高層設計,而將繁瑣的編碼工作交給AI完成。這不僅提高了效率,還讓工程師們能夠處理更具創造性和戰略性的任務。Scott甚至預言,未來的代碼可能會像快餐一樣"用完即棄",這一大膽觀點反映了AI時代軟件開發可能面臨的巨大變革。
AI創業的獨特挑戰與機遇:
Scott深入探討了AI創業與傳統科技創業的區別。他指出,AI領域的快速發展要求創業者具備更強的前瞻性和適應能力。創業者需要在技術尚未成熟時就做出押注,這增加了決策的難度和風險。Scott強調了在這個領域保持長期樂觀但短期警惕的重要性,以及不斷挑戰自身假設的必要性。他還分享了如何在瞬息萬變的環境中堅持愿景,同時保持靈活性的經驗,為有志于AI創業的讀者提供了寶貴指導。
產品市場匹配與客戶開發策略:
Scott分享了Cognition尋找產品市場匹配的經驗。他們采用的策略是從解決團隊內部實際問題開始,如使用Devin設置MongoDB。這種方法不僅驗證了產品的實用性,還幫助團隊快速迭代改進。在客戶開發方面,Scott強調了找到正確切入點的重要性。他們發現Devin在處理重復性強、工程師不愿做的任務(如大規模代碼遷移)時特別有優勢,這為產品找到了明確的市場定位。Scott還討論了如何在組織中自上而下和自下而上地推廣AI技術,以及如何處理預算和ROI等實際問題。
AI倫理與未來展望:
Scott對AI的未來發展持謹慎樂觀態度。他認為,相比追求通用人工智能(AGI),更重要的是關注AI如何解決實際問題,改善人們的日常生活。在代碼質量和倫理問題上,Scott提出了有趣的觀點。他認為,隨著AI生成的代碼越來越多,未來可能更多地從邏輯和功能的角度而非代碼本身來評判軟件質量。同時,他強調了保持人類監督和責任制的重要性,如通過代碼審查來維護質量標準。Scott還探討了AI在推理能力方面的進展,以及這些進展如何影響未來的問題解決方式。
=Web3天空之城全文整理版=
主持人:
我非常激動地歡迎Scott重返SPC。Scott顯然是Cognition的聯合創始人兼首席執行官,他們正在打造驚人的產品。但Scott也是SPC最早的OG成員之一,早在2017年、2018年就加入了我們。因此,能夠再次歡迎他回來真是太好了,我們可以直接進入正題。
Scott:
非常感謝你們的邀請,很榮幸能夠再次來到這里,感覺非常好。自從我上次來SPC已經七年了。
主持人:
初創公司的時間觀是相對論式的,即當下的時間流逝得非常快,但與此同時,日常發生的事情很多,所以時間似乎又流逝得非常慢。你對時間的心理模型會有些偏差,既快又慢。
Scott,為什么不告訴我們一件你認為被世人嚴重低估的事情?
Scott:
實際上,成長過程中我非常喜歡數學和編程比賽,這幾乎構成了我的整個背景。我參加了數學競賽、編程競賽。如果你們聽說過的話,我還參加了國際信息學奧林匹克競賽(IOI)。所以我想很多我的思維框架總是基于數學以及類似數學謎題的東西來描述的。即使是我們做銷售或制定產品策略的時候,在我腦海里,實際上都像是在做數學題。
主持人:
那么你覺得也許可以再深入探討一下這個問題嗎?你認為這種數學背景是否意味著你在處理一些通常不被認為是數學的事情時,實際上采取了更分析或數學的方法,比如銷售成交的概率、實際在某個電話上做期望值計算等?
Scott:
是的,在電話上做期望值計算之類的事情。我最近一直在思考的一個趨勢,我幾乎可以描述為一切的“金錢球化”。顯然,《點球成金》這個理念是指,隨著時間的推移,體育運動變得更加數據化,因為你可以計算出你三分球射門的期望值。以下是這個策略或那個策略的預期價值,并在各個方面進行分析和分解。
我實際上認為同樣的事情也在創業公司中發生。我認為很多人們所認為的那種硅谷的起源故事中的人物性格,這些人顯然是非常有才華的技術人員,但他們也都是非常原始并且極富想象力的思考者,就像史蒂夫·喬布斯那樣的人,他們真正抓住了人們的想象力。而且我認為隨著時間的推移,在過去的幾十年里,創始人已經更多地朝著“點球成金”的方向發展。這些創始人非常具有分析能力,他們會分解每種情況并找出最佳策略。
主持人:
我認為你絕對是對的,如今創辦一家公司的方法論比二十年前更容易理解。而且你實際上可以通過那種確切的路徑,比如說創業的黑暗森林,來繪制出一條更優化的路線。
Scott:
隨著很多領域逐漸變得更加成熟和完備,這是一個常見的現象。我最喜歡的一個例子是撲克,大約30年前,你會看到像Daniel Negreanu、Phil Hummuth、Scotty Wynn這樣的人,他們有非常鮮明的個性,對于游戲有一種直覺般的感覺。現在所有的職業選手就像數學宅男一樣。
主持人:
有時你會看到像斯蒂芬·庫里這樣的人,他幾乎是在投月球球來贏得奧運金牌。所以,把一切都錢球化有點奇怪。
你認為你的超級能力是什么?
Scott:
我不認為有特別顯著的東西。不過如果必須選一項的話,我會說,就是能夠把每個情況分解成邏輯推理,并且知道如何應用邏輯原則。我認為在創業的過程中有很多方面,特別是當你顯然在嘗試做一些前人未曾做過的事情時。所以你可以學習已有的操作手冊等,但你總是需要從基本原理出發,做出自己的決策。
主持人:
順便說一下,這些都是創始人獎學金面試的問題。我們正處于創始人獎學金面試季節的高潮。所以我第一個問題都是我在創始人獎學金面試中提問的問題。下一個問題是,你對未來有什么異端的看法?
Scott:
這是個有趣的問題。讓我想一下。我認為在人工智能(AI)方面,有一個問題可能是每次AI對話中都會首先被問到的問題,那就是:你的AGI(通用人工智能)時間表是什么?而我要給出的異端觀點是,我不確定AGI時間表實際上是否真的重要。
顯然有很多關于人工智能實際能力的討論,比如說,當它解決這個非常難的數學問題時會發生什么,這顯然是非常酷的東西。但我認為實際上,會有一個更平滑的人工智能普及和實際廣泛使用的曲線,遍及全球。我們正在做的很多工作,顯然是弄清楚如何讓人工智能實際應用于現實世界的用例,并且改變經濟和人們的日常生活。
在某些方面,人工智能的進步顯然是偉大的,但這幾乎是一個略有不同的衡量標準。世界上可以廣泛采用生成式人工智能,而不一定需要通用人工智能(AGI)。你也可以有一個理論上的AGI,而不一定需要廣泛的應用。這就是我一直在思考的問題。
主持人:
如果你讀了很多科幻小說,思考AGI基本上就像在思考奇點一樣。在大多數科幻書籍中,一旦你接近奇點的事件視界,你甚至都不知道,因為它發生得非常快,就像最后的30-40%。對我來說,如果我們達到了那一點,那就太好了,我們將作為一個上傳到云端的社會意識存在。
回到AI領域,我認為對于Devin來說,這是第一次讓我們許多人充滿想象力的AI代理實際應用。這是我們第一次看到一個演示,然后我們有種“我明白了”的感覺。這不僅展示了編程的未來樣貌,還展示了代理的應用前景。事實上,我認為在你們推出Devin之后,至少有五六家公司來找我說,他們正在打造X領域的Devin。所以在某種程度上,我覺得你是在探索什么是“AI優先”應用公司的最前沿。
你認為與過去十年你見過的所有公司相比,擁有一家AI公司有什么相似之處和不同之處?
Scott:
非常感謝你的客氣話。老實說,我真的認為我們實際上還在非常早期的階段。還有很多工作要做,還有很多東西要構建。相似之處在于,很多公司建設的核心原則是相同的,比如如何找到一個真正出色的團隊,專注于構建人們想要的東西,弄清楚如何分發和增長你的產品,總體來說,成為一個善于從第一性原理思考的好手。
有幾件事情是不一樣的。過去大多數公司可以說是由某種技術變革所驅動的。有整個消費者社交時代、移動時代和互聯網時代,這些都催生了許多新業務。我認為AI的獨特之處在于,它更像是一個不斷增加的序列步驟,而不是一個單一的二進制變化。
這有幾個含義。首先,你需要做出更多涉及技術方面的決定,關于什么是實際可行的或者未來可能實現什么。所以一個值得思考的問題是,現在人們有手機,他們可能會越來越多地擁有手機,現在人們更多地使用手機,我們應該為他們開發哪些偉大的產品?在AI方面,有一種不同的模式,現在的技術水平不斷提升,我們對未來的變化進行了預測。你在產品策略上的所有決定,如何與客戶合作,甚至公司的基本決策,都要充分利用這一點。我認為,現在成為一個技術性創始人比以往任何時候都要好,因為不僅你在構建的產品是技術性的,你所做的所有決策也是高度技術性的。
主持人:
讓我們深入探討一下這個問題。如果我沒理解錯的話,你的意思是,相對于五年前構建一個經典的云SaaS公司,當時的底層技術已經被很好地理解,雖然并不是一成不變,但在你構建公司的過程中并沒有完全改變。而今天構建一個AI公司,意味著你必須在某些方面堅定地押注技術在12、8、24、36個月后的發展方向,并且以一種以前我們作為行業并不需要的方式倒推過來。
Scott:
對于很多其他的浪潮,你能夠看到將會發生的進展。云計算的采用會大幅增加,將會有更多的人可以訪問互聯網,諸如此類的事。但核心技術雖然不是完全靜態的,至少是相對可預測的。然而在這里,你正在對技術的發展以及前沿狀態進行一個相當具體的預測。
主持人:
這有點瘋狂,因為我自己在這個行業已經20年了。每次平臺轉移或技術賦能的進展相比AI領域還是要慢很多。用一個參考點來說,ChatGPT到現在也不過才20個月,這20個月很有趣。我們已經看到了這些基礎模型的連續幾代出現,可能有數百甚至數千家公司進入了這個領域。所以事情發展得快得多。
如果您在經營一家公司,而周圍環境一直在變化,您如何既保持對愿景的堅定信念,又能夠在某種程度上與生態系統保持動態協調?
Scott:
作為一個創始人,最重要的事情之一是對自己非常誠實,關于什么在起作用,什么不起作用。創始人有一種近乎固定的模式,對于現狀的不受限制的樂觀態度,你需要對長期持有樂觀看法。但實際上幾乎相反,你在短期內必須非常警惕。在人工智能領域尤其如此,因為你應該預料到會有驚訝,而且會有相當大的驚訝,考慮到行業內每個人的發展速度有多快,即使這是你的領域,這在硬件中發生,這在機器人技術中發生,這在基礎模型中發生,每個其他領域進展同樣迅速,正因為如此,地基在你腳下移動是很容易的。
所以,你要隨時準備挑戰自己的假設,并且隨時準備快速行動。初創公司的最大優勢就是它們能夠適應和快速行動,所以你真的必須利用這一點。也許我們可以深入探討一下這一部分。
主持人:
你如何描述你對前沿基礎模型在未來6到12個月的展望?相比之下,比如說,八個月前,每個人都沉迷于OpenAI的GPT-4模型。但今天,Llama和Anthropic的模型似乎也同樣出色。即使在過去的八個月中,市場也發生了變化。你認為我們正進入一個類似于商品化的階段,有三四個大致相當的模型?也許它們有各自的專門用途,在不同的方面都很擅長。你怎么看待這個生態系統的發展?
Scott:
我認為“商品”這個詞有點帶有偏見,我自己不太喜歡這個詞。在我看來,最接近的比較實際上是今天的云服務,例如,亞馬遜、谷歌和微軟顯然是這些大型云服務商。在某些方面,這需要大量的資本支出。這些公司正在投入越來越多的錢到這些廣義的基礎模型中,規模經濟巨大。通過真正優化事物和差異化的優勢,可以獲得很多收益。我認為最終會達到一種平衡狀態,有少數幾個玩家,大概兩三個、四五個左右。
是的,他們提供這些服務。但與此同時,我不會稱它為商品,因為云服務是世界上最好的業務之一。它們從某種意義上來說是商品,因為它們都是數百億美元的業務,毛利率超過50%。這是一個非常棒的商品。因此,我認為這種情況會演變成這樣:會有一些巨大的平臺公司做得非常好,然后會有很多可以在其平臺上構建的應用程序。
主持人:
繼續沿著這個話題,你怎么看待這些最先進模型的擴展邊界?我意識到你有另一個關于6到12個月的前瞻性問題。
Scott:
我認為還有很多可挖掘的潛力,這將繼續下去。現在有前所未有的大量資本投入,這是令人驚嘆的。
有幾個廣泛的領域,其中一個是推理,特別是取得了很大的進展。很多實驗室都在這方面投入了真正的精力。ChatGPT的最初發布最令人驚嘆的事情是它能夠像人類一樣對話。現在我們看到很多系統基本上具備了像人類一樣思考和評估選項的能力,這是一個相當大的變化。顯然,例如,用AI獲得IMO銀牌的公告,以及其他許多進展正在發生。
主持人:這讓你感覺如何,Scott?
Scott:
真是太棒了,伙計。這就像是,10年前,這幾乎是我的全部生活。這幾乎是我唯一關心的事情,基本上就是在所有事情上取得最高的位置。
主持人:
你看到了那個成就嗎?因為我有點看了看那些解決方案。我不是一個數學家,所以我覺得它看起來很酷。但是從你的角度來看,這感覺像是一個開創性的成就嗎?
Scott:
我也嘗試了解決這些問題。是的,它們真的很難。我會說這真的是不可思議的東西。我想提到的一件事是,Google使用了完全形式化的技術,使用了一種叫做Lean的編程語言,這實際上允許你編寫正式的數學證明。我認為在使用非正式技術方面也有很多有趣的進展。而且,使用非正式技術的自然結果,可能是你會獲得這種更具普遍性的推理能力,在其中你可以用普通英語思考和交談,并實際應用邏輯。但是不,那真的是不可思議。
主持人:
是的,太棒了。
所以在我們具體進入軟件工程和人工智能領域之前,還有關于AI領域的最后一個問題,關于你的建議。你像是最后六到八個月有一個公眾發布,那么你會給人們什么建議?聽眾中有很多人正在建立AI公司。如何像發布一個出色的AI產品一樣做好準備?
Scott:
是的,老實說,很難說這是有意為之的。我覺得有點好笑,因為我們實際上在準備這次發布,我們接受了彭博社的采訪,一切都計劃好了。然后那個周末,我們實際上把整個視頻廢棄了,然后重新開始。我們當時想,其實我們不喜歡這個,還是試試別的吧。原定周二早上6點發布那篇文章。實際上我們在周二凌晨1點時還沒有拍完視頻。所以我們基本上一整個晚上都在忙。我們請他們盡量在稍晚一點的時候推送文章。然后他們最終給了我們上午9點的時間,而不是上午6點,其實我們確實需要那三個小時。
但是,是的,沒有,就是很多最后一刻的工作,基本上就像這樣,發布博客文章,制作視頻,展示Devin的所有示例運行。這真的是一個非常非常最后一分鐘的安排。我的主要建議可能就是思考一下,是什么讓你自己的公司和產品如此獨特。像我們之前的視頻讓我們不喜歡的地方是...你可以想象其他產品或公司也有一個看起來非常相似的視頻。然而,我認為最終的效果是,我們基本上只是展示產品的外觀及其應用方式,然后進行闡述。我覺得結果反而更好,盡管這種格式顯然要少很多。
主持人:
所以我的總體反饋是,總是在發布前六小時丟掉你不喜歡的東西,然后直接現場來。就這么干吧。
Scott:
對。好的,我喜歡這個。
主持人:
接下來談談人工智能和軟件工程的未來。我認為,很明顯,人工智能會從根本上重塑許多行業,尤其是會改變軟件工程的工作方式。我對我們將能夠編寫的大量代碼感到興奮和樂觀,但也有很多恐懼,比如,這對我們曾經做的工作的意義是什么?它們會發生變化嗎?它們不會消失嗎?它們會如何演變?
對,所以我很好奇,如果你能談談你從你的角度看,軟件工程的未來是什么樣子的?
Scott:
是的,是的。這很棒,因為我們實際上在構建Devin時一直在使用Devin。像Devin已經為我們構建了很多前端,很多API的集成,我們自己的很多儀表盤和跟蹤系統,都是由Devin構建的。
我認為,看我們的工作流程是如何變化的,確實很有趣。我完全同意,這里面有很多興奮感,也有很多恐懼。我覺得有一點可能被低估了,那就是需要編寫的代碼量大增,這是我想表達的。
從一個高層次來看,過去的40年里,軟件基本上一直是全球進步的主要驅動力,而且我們基本上將越來越多的東西放到代碼中去。盡管如此,我們的工程師數量仍然遠遠少于需求量,基本上一直都是這樣。每個公司都有30個項目,他們的團隊想做,然后他們最終只選了4個。
還有更多東西可以構建。即便是我認為還有超出這范圍的東西,像是那些即便是在經濟上可行的一次性軟件。即使你只是說,好吧,今天我要點開所有這些LinkedIn資料來看看,然后我要去設置這個東西,再去訂購那個東西。所有這些事情可以用代碼來完成。在某種程度上,它們通過代碼完成可能會更有效率,但顯然,不值得花錢去讓某人為只運行你特定使用情況而編寫這些代碼。
因此,我認為因為所有這些原因,總體來說對代碼的需求大約是供給的10倍多,甚至更多。我覺得還有另一點是,當我們使用Devin時,我們總是會有這種感覺。Devin不會告訴你該構建什么,也不會做那些決定。
我認為實際上會發生的是,軟件工程師的數量會更多,而不是更少。就像我們從匯編語言到C再到Python一樣,工程師的數量變多了,而不是減少了。
我們的工作類型,或者說我們作為工程師每天的工作內容,會有一些變化。它幾乎會變得更像是在產品經理和技術架構師之間的角色。比如你拿到一個問題,然后開始真正地分解問題,弄清楚需要構建什么,了解所有的細節和邊界情況以及所有的流程,然后確定你正在嘗試為此解決的具體方案是什么。一旦你能夠非常精確地描述它,你交給代理,它就會為你構建所有內容。
最終的結果是,你能夠構建更多的東西,這是一個非常棒的結果。
主持人:
現在我們對待代碼就像對待非常珍貴的東西一樣。就好像,哇,你有了這段代碼,然后在上線之前,確保至少有三個人審核過它,而且每個人都會確保這件極其重要的事情是正確的。一旦它投入生產,仍然像一個需要呵護并確保它運行良好和健康的東西來對待。
我想,為什么我們不寫一大堆代碼然后丟掉呢?因為現在這樣做太貴了。
我個人認為,人類想要寫的代碼量是我們今天能生產的代碼量的百倍。我希望有一個世界,我們所有人可以產生大量代碼,并且希望可以丟掉其中的99%。它不需要CI/CD,不需要維護,你不喜歡生成的第一個版本代碼,就再生成10個吧,可能其中一個有效。而今天你是做不到這一點的,無論你是多么優秀的工程師。我認為未來這種情況會有所改變。
Scott:
我認為這一步可能會比其他一些步驟要大,但我總是在想這些其他事情。你可以想象一個在1950年代使用打孔卡編程的人像我們展示今天用Python所做的事情。他們基本上會說,哇,你可以直接用英語告訴計算機你想要什么,然后它就能實現。我認為這就是代碼發展的軌跡。我認為我們會讓這一過程變得越來越簡單。
主持人:
自從Devin發布以來,已經有太多公司正在采取某種方式進行代碼生成,要么是采用copilot的方法,要么是代理的方法。
你怎么看待這個領域呢?顯然這是一個擁擠的領域。你是如何在這片黑暗森林中找到自己的路的呢?
Scott:
我真的覺得這真的很棒。代碼中有很多工作要做,而且有很多人在做很棒的事情。看到現在有這么多人真正意識到這個領域還有更多的潛力,真的很棒。
從一開始,我們的看法一直是,在過去兩三年里,出現了一波聊天機器人風格的產品。基本上,你把前綴輸入到模型中,然后模型生成文本的后綴,再基于此開發產品。幾乎所有行業中的產品浪潮都是這樣的,ChatGPT 本身顯然也是如此。有很多問答類型的產品,還有營銷文案、客戶支持、GitHub Copilot,這些基本上都是你給出一個前綴,然后它會輸出一個后綴。
這很合理,因為這是語言模型的本地接口。但如果你考慮我們作為人類所解決的問題和從事的工作,隨著時間的推移,不僅僅是一個聊天機器人,還會有一個實際的決策者,這將具有巨大的價值。有一個可以交談的法律助理很酷,但如果你有一個律師呢?同樣的事情在很多地方都在發生。所以,這就是為什么我們從一開始就對構建智能代理感到如此興奮。我們真的認為將會有一波新的自主決策者的出現,這就是我認為Devin與眾不同的地方。
主持人:
你怎么看代碼與動作的區別?如果我要問一個更抽象的問題,你覺得這只是代碼生成的過程,隨著我們逐步弄清楚如何讓這些AI系統在某些方面能夠進行推理?還是你認為這個AI也有無代碼的版本?
Scott:
是的,沒錯。Devin例如能夠瀏覽網頁,運行命令,存儲機密信息。因此,基于所有這些功能,它顯然能夠計劃和做出決策,并優化多步驟過程。因為這個原因,我們發現有很多這種用例根本不是編碼類的。人們經常讓Devin做一些事情,比如:“你可以去這個網站,谷歌一下這個會議名單上的每個人的名字,并告訴我一點關于他們的信息,這樣我就可以做好準備了嗎?”或者,“這是我的信用卡,你能不能去Amazon上幫我下個訂單?”確實,看到這些挺酷的,但這不是我們的重點。我們的重點完全在軟件上。
不過,我確實認為,高層次來看,很多事情與能否解決規劃、推理和多步驟決策密切相關,以及你能否提供與世界互動并執行這些任務的工具。
主持人:
所以我要問一個問題,你已經打開了這個話題。在構建Devin的過程中,你是否發現了一些更普遍適用的方法,比如你提到的那些,計劃、推理、排序、協調等等?
Scott:
是的,我認為有。全球來看,邏輯就是邏輯,所以,能夠推理并計劃和執行計劃,在某一個領域往往能很好地推廣,特別是如果你用來做這些事情的工具實際上是相同的工具。是的,我們已經看到了一些總體的進步。一個簡單的例子是,讓Devin更好地使用其瀏覽器,并圍繞這一點做出決定,實際上提高了它在其他方面做出決定的能力,比如測試或調試等。這確實很有趣。
看到這些進展真的很棒。老實說,看到很多其他人也在這個領域工作,真的讓人驚訝。我認為,要真正打造一款能夠在實際用例中使用的產品,還有很多工作要做。
對于我們的客戶來說,Devin需要為他們做的很多自然事情,比如連接到他們的數據狗來讀取日志和進行實時調試,隨著時間的推移學習他們的代碼庫,并能夠處理出現的各種問題。它還需要能夠在本地運行開發環境,并且能夠獨立測試前端和類似的功能。
所有這些都表明,我們可能需要在這個領域做更多工作,去建立更好的基準,公開的基準。就我們自己而言,我們主要使用我們自己的一套評估方式來測試和嘗試不同的事物。
主持人:
關于未來的AI架構,有幾個問題需要考慮。這些代理系統的內存,尤其是長上下文的內存,看起來會是怎樣的?這在多大程度上影響了現今模型的效能?未來又會如何演變?
Scott:
我認為上下文顯然會變得更長,這相當令人興奮。但我確實認為仍然存在實際的限制,所以思考如何直接解決這個內存問題仍然很重要,尤其是當語境變長時。我不認為我們很快就會有一個世界,你可以把整個代碼庫和所有歷史背景都放進去,然后模型決定該怎么做。
這是一個有趣的領域,可以思考人類是如何思考的。人類實際上有非常短的上下文感知,比如當你收到六位數的驗證碼時,其實挺難記住的。如果是10個數字,就更難了。我們顯然有大約15秒的記憶,但人類擁有的最接近AI術語的描述是一個非常美妙的檢索系統。你調出某個文件,然后會說,對,我記得這個。我在大約三個月前做過這個。然后,突然間,你就開始記得那些細節了。我不認為人工智能的能力會與人類完全相同。但我主要想說的是,解決問題肯定是可能的,而不必涉及到數百萬或數十億的上下文標記。
主持人:
人類在回憶某些事情時具有令人難以置信的記憶能力,這些事情不依賴于某種情境窗口,而且能夠在某種程度上應對自如。
在未來的AI系統中,有多少類似于今天的規劃實際上是在模型之外完成的?這有點像是一個系統層疊在模型之上,與模型進行交互,但實際上又是在模型之外完成的。那么,你認為這些規劃結構和能力會進入模型嗎?或者那根本就不是一個成型的問題?因為我們實際上并不知道這些模型是如何工作的。
Scott:
我認為那里的障礙并不是那么具體。我幾乎會這樣描述,總的來說,有預訓練、訓練后和模型推理時間。老實說,對于我們關心的大多數用例來說,在這三個層面上還有大量的優化工作要做。很多時候,這些類型會相互交織在一起。
主持人:
我可能會轉而問一些關于早期創業的一般性問題。然后我們會轉向觀眾提問。這是你創辦的第二家公司。第一個是Lunch Club。可能每個企業家都會面臨的最難的問題是:你怎么知道什么時候該放棄?特別是考慮到我們在硅谷的神話中有很多是關于堅持、奉獻和長期思考的。比如說,你怎么知道,當這段旅程已經完成,我需要去做下一件事?
Scott:
我認為這是一篇非常好的PG文章,實際上,關于決定但不固執,我真的很喜歡。我認為很大程度上歸結于我們所說的,你需要是一個長期的樂觀主義者,但在日常工作中,你也需要非常警惕。在每個時間點,你需要思考,這個項目如何從當前狀態發展成一個巨大的成功的故事。你要么會得出一個結論,認為有一條路可走,但是為了實現這個目標,這些事情必須要確保發生。然后,你有今天要做的事情的優先級,或者是一個問題,比如說,我們的這個論點是否依然成立?或者這仍然是最好的選擇?
我不認為這會有一個簡單的答案,但我確實認為其中很大一部分是,人們常被告知幾乎不得不喝自己的“Kool-Aid”,就是為了相信而相信一些事情。我認為,樂觀有其重要性,但創業更需要對自己誠實。
主持人:
如果你能對創始人說一句實話,你會告訴他們什么?
Scott:
外界確實有很多傳統智慧的要素。我認為一個很重要的事情是要構建人們需要的東西。很容易被其他因素分散注意力,比如擴展團隊,或者有多少人嘗試過你的產品,但你真正想要達到的只是打造人們想要的東西。
還有一件事是不害怕看起來很蠢。你必須要做一些非常不同、非常新的事情,并且要愿意去嘗試。我能想到各種各樣的例子,這里有一個對我們來說很有趣的例子。
我們曾面試了一位麻省理工學院的學生,他在面試中的表現非常出色。我們在跟他聊加入公司的事,對他來說這是個艱難的問題,因為他當時還在上學,還在摸索中。他說,這是最令人興奮的問題,這就是他想要做的工作。他愿意加入,但不確定是否會奏效,因為他認為父母不會同意。
他來自一個和藹的古吉拉特家庭。于是我們兩個人飛去了北卡羅來納州,與他的父母共進晚餐,送了些禮物,聊了很多關于我們在做什么,為什么我們認為這很重要,還有他們的兒子在這些方面是多么出色。我們開車去他們家,吃了晚飯,呆了兩個或三個小時,然后開車回去,當晚就飛回來了。
那感覺就像是,花費那八小時所獲得的投資回報率是不可思議的高。如果這個沒有任何效果,會覺得真的很傻。老實說,在很多情況下,也許不會發生這種情況,但這是一個我們愿意嘗試的情況。如果我們只是在這里坐著思考,這種情況發生的幾率有多大?我們從中得到了什么?在某種程度上,數學已經全都在那兒了。
主持人:
我還記得有一個來自 Dropbox 的例子。有個家伙可能在康奈爾大學還剩下兩個學期的課程。我說服他退學,然后接到了他媽媽的電話。她說,答應我,你的兒子,我的兒子,會完成大學學業。我說,我怎么能保證這個呢?她說,你必須這樣做。當時我心想,管他呢,我就答應了。
當Dropbox即將進行IPO時,他媽媽又打電話給我。她說:“我認為我兒子應該獲得一個學位。你能幫他一下嗎?”我當時想,好吧,他賺了很多錢,他會沒事的。她堅持說:“不,你應該拿到學位。”于是我們為他報名了類似于晚間和夜間課程,最后他終于拿到了學位。
你知道的,不要招惹古吉拉特邦的媽媽們,我只是說說。魯奇也是古吉拉特人,明確一下。但也許借此機會,我們可以把問題交給觀眾。我認為我們有一堆很酷的問題。前排有些人我知道一直在研究AI基礎模型。讓我們開始吧。有人想先提個問題嗎?
觀眾QnA
我有一個問題,比如,你是如何找到產品市場匹配的,或者你是如何進行這項工作的?因為,有一種感覺是軟件工程將要改變。顯然你會遇到那些已經在做這份工作的人們的防御,而你的客戶也會覺得很難達成共識并真正大規模部署它。那么,在與Devin尋找產品市場契合度時,有哪些挑戰呢?
Scott:
是的,當然。所以我認為對我們來說,自然的事情之一,顯然是我們都熱愛編程和一切。所以我們使用自己的產品是很棒的。我認為第一個令人興奮的用例,像Devin真正起作用的地方,是在一開始,我們嘗試為某些事情設置MongoDB,當時很難弄清楚。就是那種情況,你會遇到一個錯誤,然后你去谷歌搜索那個錯誤并且修復它,然后又遇到另一個錯誤。據我所知,至少,這就是DevOps的運作方式。只是玩打地鼠游戲,直到某件事情成功運行。
是的,是的。所以我們把它交給了Devin,當時Devin基本上只是一個原型。我們真的沒有預期到什么。我們只是說,嘿,你能設置一下MongoDB嗎?因為我們現在不能這樣。結果它做到了。那是一個非常令人興奮的時刻,因為那確實是我們需要并且起作用的東西。
我認為,對我們來說,與客戶一起迭代,同時我們自己也作為客戶,是最重要的事情之一。我會說我們所研究的問題,如果有的話,可能比大多數問題更具研究性。但我認為即便如此,現實世界中的軟件工程是混亂的。我們必須知道它確實對人們關心的用例和類似的事情有效。我認為,就像工程師有防御性而言,我認為在大多數情況下,我們很幸運地沒有真正遇到過這種情況。我想談論一下我們今天與客戶合作的應用案例。總體而言,這些案例大多是比較單調或重復的任務。
首先,因為這些任務是重復性的,AI在處理這些任務時表現得更好。例如,當你進行代碼遷移或平臺重構時,面對一個龐大的代碼庫,比如有大約5000個文件需要遷移,這種繁瑣的工作AI可以很好地完成。
此外,沒有工程師愿意做這種工作。這是一個很好的例子,展示了人類與機器合作的美妙二元性。事實上,有更多有意義的事情可以讓人們去做。為什么人們在版本號和其他事項的遷移過程中會拖延?因為這個過程有點痛苦。即使只是保持軟件的更新,或者進行你想要的那種遷移,能夠與客戶合作并處理真實的使用案例,這是一件很好的事情。
您是如何處理銷售和推銷AI技術的?主要是和誰對話?你們如何看待預算和其他方面的問題?因為我知道有很多人覺得無論如何都得引入AI。你會選擇那個預算嗎?你會為開發工具預算嗎?你是怎么考慮這部分過程的?
對我們來說,這是一個有趣的問題。正如你所說,有很多高管非常渴望掌握最新的AI潮流,但也有很多開發者喜歡嘗試新技術。所以我們通常會進入組織,尋求自上而下和自下而上的支持,并與他們合作。當然,這涉及到創新預算、一般技術預算或開發工具預算,而這些預算在不同地方差異很大。但我認為,當人們對此足夠興奮,并且有明確有效的用例時,這就是關鍵所在。
總的來說,我認為在每一件小事上都要拼死拼活地爭取,和與客戶交談時說“是的,用例可行”之間確實有很大區別。比如,我們今天試試,或者我們今天就買吧。對我們來說,很大一部分是專注于當前工作的領域,并繼續擴展和擴大這些領域。
現在是否有一個前沿領域,那里有明顯的地方Devin不適用,你會稍微避開這些地方,因為技術還沒準備好?
是的,絕對的。如果你只是問Devin構建整個系統,包括復雜的架構和一切,我認為Devin不會第一次就成功。Devin可能會花好幾個小時來嘗試讓它工作,但還是無法做到。所以,對于很多事情來說,關鍵在于找出哪些情況具有足夠高的重復性和清晰度,從而確保投資回報率的存在。
為此,我們看到很多不同的遷移問題,但也有各種前端問題,比如日志分類和調試會話等,這些問題本身就有一個緊密的反饋循環。像Devin這樣的人希望能夠進行更改,然后自行啟動本地前端并測試該更改,這樣循環就變得更容易了。
您如何看待投資于調優與構建圍繞模型本身的系統之間的關系?您可以進入強化學習(RL)領域,建立自己的RL系統并調整開源模型,但這也可能導致投資回報率的浪費,因為新的前沿模型會出現,而開源模型可能不如它們好。您怎么看?
我不能分享任何關于Devin具體工作原理的信息,但從高層次上來說,我可以肯定地說,有那種模型特定的投資你可以做,但很多這樣的投資最終都能很好地泛化。比如說在強化學習領域,如果你想創建一個特定的數據集,準確捕捉你想要的期望行為,這當然是你可能需要在其他模型上重新微調或做其他事情的。但是,像這樣的數據集顯然非常有用,而且會很好地推廣。所以,總的來說,為了準備應對變化,確保你在投入可以轉移的事物上是關鍵。
關于籌資和估值的問題,你認為最重要的什么
我認為是非常明確地認識到,我們實際上還處于非常早期的階段。我們正在追求一個非常大的目標,軟件作為一個類別,它的價值是相當大的。關于估值之類的問題,我們還有很多事情想要做,還有很多想要發展的地方,并且我們有計劃實現這些目標。所以,更重要的是在考慮我們想要在一年或幾年后達到的目標時考慮到這一點。
談到Devin不能做的事情,您有沒有想過像人工智能加人類共生的那種情況?就是說,您賣掉Devin,然后60%的任務可以由Devin完成,但有30%或40%的任務無法完成,因此需要讓真正的人來做這些任務,以實現更快的迭代循環。此外,這就像《綠野仙蹤》一樣,學習更多需要完成的任務。
我們目前沒有完成這些任務。我們好像被指控做了那件事。但我認為,非常集成的軟件有很多價值。這通常是開發人員工作流程的一部分,比如說,有很多小的上下文或小的知識是開發人員在進行工作時需要知道的。因此,我們真正投資的是,弄清楚很多這些與Devin實際互動的用戶體驗問題。
你如何給出反饋?你怎么看Devin正在做的事情?老實說,我認為一般來說,對于代理,不僅僅是編碼代理,而是所有自主決策者,用戶體驗(UX)是非常不成熟的。我覺得,就算是一些基本的東西,比如說,這是Devin的瀏覽器,這是Devin的shell,你可以跟Devin對話,你可以在Devin正在做某事的時候異步地和Devin交流。很多這些我認為是自然的第一步,但還有更多的東西需要構建和完成。
我們通常要解決的問題是讓工程師使用Devin,然后給予反饋并合作,這是一個非常常見的流程。通常你會同時運行多個Devin,然后逐個分析它們,如果它們遇到問題會提問,但你也會去查看,基本上就像是你自己的團隊的經理,Devin實習生。
嗨,Scott,感謝你的時間。你們是如何看待通過大語言模型寫的大量代碼所帶來的二次效應的?我個人也使用Gemini,很多時候我不想這樣做,但我仍然盲目地復制粘貼代碼。作為一名工程師,我也意識到諸如糟糕的代碼味道這樣的現象。當然,在編譯通過和未通過之間存在一個緊密的反饋循環,但也有一些東西是人們知道的,比如一個高級開發人員會告訴一個初級開發人員,那只是糟糕的代碼氣息,不要那樣做。
如果互聯網上充斥著馬馬虎虎的代碼或者類似的東西,或者是一個壞代碼循環,僅僅在那里用更多的壞代碼訓練模型,你們現在有在考慮這些問題嗎?這是一個明天的問題嗎?因為作為程序員,我確信你們都很重視自己的技藝,那你怎么看呢?
是的,當然。Devin在我們的GitHub倉庫中創建了PRs,但有一個人會審查該PR并將其合并。其實,我認為其中一個非常有趣的方面是所有權心態,基本上就是這樣。確保在git blame上仍然有一個人的名字在這個提交上,這樣,如果代碼有問題,責任仍然會歸到他們身上。我認為這實際上幫助很大。但是,總體上,我完全同意越來越多的代碼是以這種方式編寫的。我認為,從長遠來看,這將是一個積極的因素,而不是負面的。
比如,我認為事情將以相同的慣用風格書寫。我們幾乎不需要查看代碼,因為你會從邏輯的角度去思考這里執行的是什么。你可以對邏輯或其他方面進行修改,這將導致正確的代碼變更被編寫。所以,我還想強調這種關于好的代碼的特定風格的理念。
主持人:
我認為這些是像高度稀缺資源的產物,你希望在某個特定的質量水平上擁有它們。現在,擁有糟糕的代碼并修復它的下游影響,以及所有這些,都是相當高的成本。但我認為在未來,包括今天,我們往往沒有一個非常細致的感覺,什么是真正需要像那樣處理的代碼,相對于那些可以一次性寫完就丟掉的代碼。
我認為未來會有多個代碼層次,大部分代碼希望是那種你不太在意它是如何實現的,它可能會相當粗糙,你可以隨時丟棄它。這可能更多地反映了我作為一名工程師的特點,而不是編碼的未來。但我確實認為,如今我們對代碼的情感依賴實際上是編寫代碼困難的二次效應。希望在某種方式上,十年后情況會非常不同。
Scott比我更擅長工程。他看著我說,他同意我的看法。他的大部分代碼已經不存在了。好吧,下一問題。
你能分享一些你是如何找到合適的創始人或聯合創始人,以及如何在早期招募合適的人才的經驗嗎?
對我們來說,創始團隊的大多數成員彼此已經認識了大約10年左右。我的兩位聯合創始人,Stephen,我從高中就認識他了,而Walden也是一樣,我們認識的時間也很長。我們有類似的背景,比如一起參加比賽。我們過去幾年都在從事不同方向的人工智能開發,后來自然而然地就開始一同合作了。我確實認為,和初創團隊一起工作時,盡可能和你直接認識的人合作,或者至少要有非常非常強的共同聯系。當然會有一個時刻,你必須要分支出來,超越那一點。但我個人認為,對于創始團隊來說,這在任何可能的情況下都是很好的。
你之前提到過的一件事是你實際上使用了Devin來構建Devin。我很好奇,在內部測試自己產品時,有什么令人驚訝或意想不到的發現嗎?在產品交付到客戶手中后,有沒有什么是你們原本以為是對的,但后來發現需要重新認識的事情?
是的,確實有很多這樣的情況。Devin在處理事情時常常會帶來一些小驚喜。我認為,即使是像調試這樣看似簡單的任務,也需要像人類一樣去理解和處理。觀看Devin的工作過程是一種樂趣,這種方式往往能引起共鳴。
Devin會閱讀代碼,調出另一個文件,加入一些打印語句,然后再次運行代碼,但結果可能還是不行。接著他會查看日志,這種方式讓我覺得他是一個讓我心動的工程師。
關于客戶需求的變化,確實有很多。顯然,在初創公司的代碼庫上工作與在大型企業中工作是不同的。尤其是規模和項目的純粹規模,比如移動幾千個文件到一個新項目中。有些事情看似簡單,但實際上需要大量的工程時間來解決。
例如,遷移到Flutter平臺,需要處理很多細節問題。你基本上需要在每個步驟上放一個小問號,如果條件滿足就執行相應的操作。這種事情看似簡單,但需要重復成千上萬次,并且要理解很多用例。解決這些問題是一個巨大的挑戰,直到你錯過其中一個細節時,才會意識到問題的復雜性。
謝謝你分享關于軟件工程師角色變化的看法。我是從設計師轉型為創始人,很想聽聽你對在Devin時代設計師角色變化的看法。
是的,我認為設計師、工程師和產品經理等角色之間有很多相似之處。讓一個人真正出色的因素在這些角色中是相似的。即使工具發生變化,這個核心因素依然存在。如果要我描述它,我會說,關鍵在于能夠分解問題并找到合適的解決方案。
思考我們在這里試圖解決什么問題,我們在優化什么,了解你擁有的不同工具,然后能夠生產出正確的解決方案。我認為這在任何地方都是適用的。
實際上,我認為會有很多工具加快設計過程,比如從元素或主題中提取并制作完整的模型。我也認為在未來,設計師、工程師和產品經理之間的共同點會越來越多,而不是差異。有一點我要補充的是,他們在直覺層面上能夠理解當前系統的局限性,但也知道如何最好地利用它。
我的問題是,你們是否找到了一些超級明星,比如Deviners,就是那些懂得以非常厲害的方式利用Devin的人?
坦白說,我認為,真的需要很長時間才能習慣使用Devin。這是我們正在努力改善的事情之一。不過,我認為這是非常不同的。人們顯然有與其他人類一起工作的經驗,也有與聊天機器人對話的經驗。但是,與代理合作和這兩者中的任何一種都有點不同。
我們討論的上下文是一個很好的例子。能夠并行處理并啟動多個Devin是另一個很好的例子。我認為一些特定的優點和缺點。我們發現要真正理解,對于Devin來說,問題需要分解到什么樣的細化程度,這確實需要一些時間。或者是,如何準確地提示Devin并提供所需的正確輸入。
主持人:有哪些書籍顯著改變了你的人生軌跡?
我的生活?讓我想想……可能,像數學和算法方面的教材對我的生活影響更大。但是最近,我真的很享受閱讀其他關于創始人和科技人員的歷史故事。最近我喜歡的一本書是塞巴斯蒂安·馬拉比的《權力定律》,這本書基本上是關于整個科技生態系統和過去大約70年來風投和科技企業成立以來的許多重大浪潮。
主持人:我還沒讀到那本書。也許最后一個問題是,你用Devin做過的最有趣的事情是什么?比如說,你顯然不是在攻擊Devin本身或公司,但你有在個人項目中使用它嗎?你最近在做什么黑客項目?
是的,很多小事。我和Devin一起做了一個很棒的情人節網站,這真的救了我。我認為那相當不錯。我的聯合創始人沃爾登有一次有趣的經歷,他的航班被重新安排了,然后他就換了新的航班。他說,嘿,Devin,這是我的確認號碼和所有信息。你能不能幫我弄點額外的退款或其他補償?于是Devin拿著那些信息去到了網站,發送消息給客服,要求退款或其他補償。這只是一種客戶支持,類似于自動化的服務,也許還有一個聊天機器人。是的,是某種聊天機器人,它正在回應。然而,在某個時刻,似乎沒有真正取得進展。
于是,Devin在聊天中寫道,他需要與人類實際交流。這很難。Devin在與那個人的聊天中指出了法律條款的特定部分,比如第25條,要求對方按照規定處理。最終,他確實得到了退款。這是一個有趣的經歷。
主持人:
好的,Scott,非常感謝你的時間和坦誠的回答。這非常有趣。
Scott:謝謝大家。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.