1.21
知識分子
The Intellectual
導 讀
《科學四十人》系列座談(左起,楊富強、李勇、陳云霽、丁肇豪、張永平)
無論是否支持人工智能(AI)的發展,我們都難以忽視一個重要的問題,那就是AI的能耗。
關于AI的能耗,一篇廣為流傳的報道稱,ChatGPT 每日耗電量或超 50 萬千瓦時,相當于1.7萬個美國家庭的能耗。還有研究估算,在最糟糕的場景下,未來谷歌AI的能耗將與像愛爾蘭這樣的國家相當。然而另一方面,也有觀點認為媒體和大眾選擇性關注估算結論較為夸張的研究,并將對AI能耗的擔憂視為社會對新技術慣有的反應。
人工智能日新月異、能源領域錯綜復雜,二者關系的都是人類未來。大模型的高速發展對電力系統的沖擊究竟有多大?大模型時代,如何提升AI系統的能效?AI基礎設施和電力基礎設施有哪些需要協調的地方?具體面臨哪些挑戰?
圍繞這些問題,《知識分子·科學四十人》系列座談邀請到清華大學電子工程系教授、城市科學與計算研究中心負責人李勇,中國科學院計算技術研究所副所長、處理器芯片全國重點實驗室主任陳云霽,華北電力大學電氣與電子工程學院教授丁肇豪,能源基金會清潔電力項目主任張永平參與討論,主持人為北京大學氣候變化與能源轉型項目高級顧問楊富強。威廉與佛洛拉·休利特基金會Edit Ruano致辭。
以下為論壇實錄。
楊富強:今天我們探討人工智能(AI)與能源之間的關系。AI這個概念對大家來說已經耳熟能詳,我們幾乎每天都在討論。然而,要深入全面理解AI,可能許多人還難以做到。我們有幸邀請到了四位專家,他們將為我們闡釋AI與能源之間的聯系。我們相信,AI不僅會推動工業革命,還會對能源革命、經濟發展、政治和文化等多個領域產生深遠的影響。這既是一個巨大的挑戰,也是一個巨大的機遇。
今天我們將討論的焦點放在能源與AI的結合上,探討AI能為能源行業帶來什么,以及能源如何反過來促進AI的發展。先請各位嘉賓介紹一下各自研究應用。
北京大學氣候變化與能源轉型項目高級顧問楊富強
李勇:我來自清華大學電子工程系,我們系在電子芯片算力等領域有著深厚的基礎,研究工作涵蓋了從芯片架構設計到電子光子基本原理,再到工藝流程等多個層面。在人工智能迅速發展的今天,這些研究方向顯得尤為重要。
雖然我在電子工程系工作,但我的研究并不涉及芯片硬件,而是聚焦于如何有效利用芯片算力。過去十多年的研究,我逐漸將研究重點放在了城市領域,因為城市是一個數據的寶庫,擁有大量的視頻和其他模態數據。王堅院士曾提出,城市可能是世界上最“吃”算力的地方。因此,我選擇城市科學與計算作為我的研究方向。為此,我們系成立了城市科學計算研究中心,專注于處理和分析城市數據,以期實現城市智能化。
目前,城市發展正面臨兩個重要機遇:智能化和能源轉型。智能化是我所在的研究所的主要研究領域,而能源領域則對城市變革產生深遠影響。隨著清潔能源在能源結構中所占比例的增加,它已成為全球實現碳中和目標的關鍵路徑。
從信息的角度來看,物理世界的構成包括時間、空間、物質、能量和信息。能量與信息之間的轉換關系與我們今天討論的能源和智能緊密相關。因此,在進行產業轉換時,我們考慮的是如何利用智能技術幫助能源行業更有效地利用能源。基于這一理念,我們也孵化了一家名為清鵬智能的產業公司,主要關注如何運用人工智能技術,將清潔能源與現有的電能、水能等主流能源形式整合,形成一個統一的能源系統。
清華大學電子工程系教授、城市科學與計算研究中心負責人李勇
陳云霽:今天討論的兩個主題——電力能源和電子層面的芯片——實際上和我的前半生、后半生似乎有著緊密的聯系。我的父親曾在江西省電力局下屬的事業單位江西電力試驗研究所工作,現在這個單位叫江西省電科院。我從出生直到上大學之前,都生活在江西省電力局的院子里。
小時候,我爸常帶我去電廠,有時我們會在那里住上兩周。我一直認為電廠是人類歷史上最偉大的創造之一。作為能源的中心,電廠也可以被看成是世界的中心。就像心臟通過血管將能量送往人的全身,電廠通過鐵塔將能源輸送到世界各地四面八方。
雖然沒有機會從事電力行業,但我從2002年開始涉足了一個與電力有一點點關聯的研究領域:如何減少芯片耗電量。包括后來我們開發了國際上首個專門用于深度學習的處理器芯片,初衷就是尋找更節能的方式來執行深度學習任務。從那時起過去了二十多年,包括芯片設計、計算機科學、電子工程和算法研究等多個領域的專家共同努力,今天的芯片在處理神經網絡操作時所需的能耗已經降低了100倍甚至更多。然而,隨著大型模型的出現,對算力的需求增長速度遠遠超過了我們降低能耗的速度。
中國科學院計算技術研究所副所長、處理器芯片全國重點實驗室主任陳云霽
丁肇豪:我所在的單位是華北電力大學新能源電力系統全國重點實驗室,主要研究的是新能源為主體的新型電力系統。我的工作主要是從電力系統的角度出發,探討算力基礎設施與電力系統之間的關系,我們將其總結為“算電協同”。2017年我們就開始討論這個概念,那么具體是如何協同的呢?
我的工作分為兩個方面。從算力角度來看,我們研究如何讓算力基礎設施,也就是AI的基礎,更多地利用新能源,尤其是那些波動性的可再生能源。簡單來說,我們探討的是如何讓一些可以中斷或者可以改變地理位置的算力任務,根據新能源的時間和空間分布調整,從而更多地使用新能源。這相當于重新塑造算力負載的時空布局,使其能夠更好地利用新能源。
從電力系統的角度來看,隨著AI技術的發展,其電力負荷可能會占據全社會負荷中的很大比例。那么,電力系統需要靈活性和調節能力,讓這些AI基礎設施的電力負荷跟隨電力系統的需要而調整。比如一天之中,電力系統需要調峰、調頻。我們的工作是讓算力基礎設施通過調整計算任務來改變它們的電力負荷特性,將這些原本可能給電力系統平衡帶來挑戰的AI負荷,轉變為對電力系統平衡產生積極支撐作用的靈活負荷。
華北電力大學電氣與電子工程學院教授丁肇豪
張永平:我的專業背景是電力系統,讀書時在電機系學習。與電子系、計算機系和自動化系這些所謂的弱電專業有所不同,我們專注于強電領域。當時計算機、電子這些專業是熱門專業,我們常開玩笑說,你們再怎么發展,只要我們把電斷了,你們啥也干不了。畢業后,我一直在電力系統和電力市場領域工作。
我在能源基金會工作負責清潔電力項目。我們的使命是推動可再生能源的發展,以取代化石能源,以應對氣候危機。這是一個復雜的挑戰,不僅僅是建造風電場和光伏電站,然后關閉煤電廠那么簡單。首先,我們需要關注中國電力系統需求的變化,尤其是電力負荷的增長,每年以5-10%的速度快速增長。數據中心目前已經占到2-3%的用電量,而AI智算中心用電增長可能更快。
這不僅是用電量的問題,更重要的是用電的負荷特性。數據中心的用電曲線相對平穩,這對電力系統來說是理想的,而且傳統的火電等電源相對容易調節,去滿足數據中心的用電需求。但我們希望使用波動性的可再生能源,如風能和太陽能,來滿足未來數據中心的能源需求,這就帶來了挑戰:如果用電需求不能調節,而供給又是波動的,我們該怎么辦?我們正在研究如何利用波動性的可再生能源滿足不同類型的用電需求,特別是數據中心的需求;探討是否能夠讓數據中心的用電也變得可調,這是個有趣的話題。
能源基金會清潔電力項目主任張永平
AI能耗是一種真實的“威脅”嗎?
楊富強:國際能源署(IEA)最近發布了2024版的全球電力報告,發現2022年的全球數據中心和人工智能大約消耗了全球總用電量的1.6%,而且增長迅速。各位老師怎么看,將來會如何?
陳云霽:我先分享一個的觀點,這個觀點是從科學院的于海斌院士那里聽來的。他提出了一個關于當前人工智能領域的不等式,就是從重要性來說,AI殺手級應用大于大模型,大模型大于算力,算力又大于電力。這個不等式反映了人工智能的現狀。
盡管AI很熱,已經能幫我們改個稿子,但在實體空間中,尤其是在工業、生產和生活服務等領域,我們對于真正殺手級的應用還是非常非常迫切需要的。所以應用的重要性最高,同時也是最缺乏的。接下來是大模型。然后是芯片。最后是電力。今天我們還沒有聽說過有哪個很好的大模型應用因為電力不足而關門不干的。
再過十年,這種重要性可能會發生逆轉。我們可以預見,十年后,人工智能深入到實體經濟和我們生活的各個角落,殺手級應用非常普遍。隨著應用數量的增長,對電力的需求將遠遠超過現在。人工智能應用目前主要局限于數字空間,但如果它們進一步滲透到工廠、家庭、醫療和農業等社會各個方面,電力消耗的占比可能不再是1.6%,而是16%甚至更多。到那時,重要性的順序可能會顛倒過來:電力將成為最關鍵的因素,其次是算力,然后是模型,最后才是應用本身。
楊富強:我們經常講說,AI的盡頭是能源。
陳云霽:當然今天AI最重要的還是做出殺手級的應用,但在未來十年或二十年后,AI的盡頭一定是能源。到那個時候,我們可能需要一些調整,以數據中心為例,根據新能源供應來調整我們的操作頻率。比如,我們現在使用大模型,提出一個問題,它咔咔咔給我們回一堆。那么,在新能源供應充足時,我們可以讓它更快地響應;而在新能源供應不足時,我們可以讓它稍微慢一些。
此外,大模型的使用實際上分為兩個階段:訓練和推理。訓練是將大量數據輸入模型,使其變得更加聰明;推理則是我們真正向大模型提問,得到答案。
楊富強:現在哪一個階段更耗電?
陳云霽:訓練現在花的電很多,但是以后推理會更多。推理對響應時間的要求是實時性的,我們向AI提一個問題,希望它能立即給出答案。相比之下,訓練雖然同樣重要,但并不需要馬上完成。OpenAI訓練一個模型可能要花好幾個月,我們可以在新能源供應充足時多跑一跑。
楊富強:AI的能耗可以隨著可再生能源的供應變化而調整,或者根據能源供應情況來安排算法的運行順序,比如決定何時進行訓練。
李勇:目前人工智能技術的能耗在整個社會能源消耗中占比并不大,數據中心只占全社會能源消耗的1-2%。人工智能替我們人類每天做的事,也還不到1%。但隨著技術的進步,我們預計在未來十到二十年,這個比例可能會提高到40-50%。相應地,能源消耗的比重也可能增加到社會總能源消耗的20-30%。隨著時間的推移,這個比例可能會繼續增長。因此,雖然能源問題目前尚未成為危機,但未來肯定會成為一個重大問題。我想補充一些證據來說明我們這個討論的重要性。
我們剛才提到了一個關鍵問題,即人工智能中的“能”與能源中的“能”之間的關系。這種關系涉及到我們如何在芯片和能源角度實現節能。能源角度的“能”是指能量,而人工智能的“智能”實際上是關于能力。這對應于物質世界構成中的兩個重要概念:能量和信息。人工智能的能力本質上是提供信息。為了更好地節能,我們需要將能量更好地服務于能力的產生,這就需要打通能量和信息之間的聯系。
從物理學的角度來看,物質可以轉化為能量,再轉化為信息。我們已經有一個完整的體系來描述時空、物質和能量,但與信息,即與我們今天討論的人工智能能力之間,還存在很大的差距。我們今天討論的話題就是探索信息和能量之間是否可能產生更大的聯系,形成一個整體。從物理學的基本概念來看,能耗問題涉及的是瓦特(功率單位),而人工智能的涉及的是比特(信息單位)。為了實現節能,我們需要在這兩個方向上努力。
“追漲殺跌”?
在電網最脆弱的時候,萬卡集群不僅救不了它,
反而雪上加霜
丁肇豪:從電力行業的角度來看,人工智能和數據中心的能耗其實經歷了許多變化。在2022年底ChatGPT出現之前,盡管數字經濟和人工智能發展迅速,但在心底里,電力行業對數據中心帶來的電力負荷增長還是持有相對平穩的觀點。突然,ChatGPT的出現讓人們意識到這可能是一次改變人類社會的工業革命。從我們電力人來看,未來可能會出現許多殺手級應用,即使是尚未出現,許多企業也已經開始跑馬圈地,為這些潛在的應用準備數據中心。
大量的數據中心,或者說智算中心,開始涌現。這對電力行業帶來了顯著的變化。從電力供應總量的角度來看,電力行業需要調整電力電量平衡模型。今年夏天,在IEEE電力與能源協會年會(PES GM:IEEE Power & Energy Society General Meeting)上,PJM電力規劃負責人分享了他們的經歷。由于PJM涵蓋了美國主要數據中心的富集區,他們突然發現需要對電力規劃做出重大調整,因為許多新的數據中心需要接入電網,而現有的輸電能力和電能供應能力無法滿足這些新的需求。同樣的問題也出現在美國德州,許多大型數據中心希望接入電網,卻發現電網沒有預留足夠的輸電通道能力,也沒有足夠或穩定的電源供應。
然而,我想進一步討論的是,人工智能的發展對電力系統的影響遠不止于此。在實時電力平衡方面,數據中心的發展也產生了重大影響。我舉一個例子,許多新的數據中心規劃已經達到單個數據中心百兆瓦,甚至超過百兆瓦的規模。這些萬卡、十萬卡集群預訓練時的功耗非常大。
楊富強:相當于一個中小城市了。
丁肇豪:相當于一個小城市級別。與其他類型的負荷相比,數據中心的能耗還有一個顯著特點:比如Meta在訓練自己的模型時可能會因為各種原因暫停多次,每次暫停都可能導致瞬間百兆瓦級別的電力負荷波動。在配電網層面上,這種波動是前所未有的,以前電網并沒有足夠的能力來應對這種問題,這是一個全新的挑戰。這種波動不僅關系到電力供應是否充足,還可能對電網安全造成沖擊。再比如,GPU集群有可能不具備電壓/頻率穿越能力,在電網出故障的時候不僅不能支撐電網,反而可能給電網造成更大的問題。
陳云霽:股市里面叫“追漲殺跌”,對吧?
丁肇豪:確實是。這些因素疊加起來對我們電力系統的瞬時平衡產生了重大影響。數據中心在增長,我們電力和能源行業需要進行中長期的預測和規劃。這涉及到:首先,從總量上評估,包括電源的供應和輸電通道的建設是否能夠滿足需求;其次,考慮數據中心在電力系統中占比增大后對系統的影響,以及是否擁有足夠多的手段來平衡。
陳云霽:既然數據中心的能耗如此之大,未來數據中心的運營者是否可以自己建立電站或者發電機組?就像我小時候,我爸經常參與建設30萬千瓦的發電機組。那以后,每個AI數據中心是否都可以自己建立一個電廠?
丁肇豪:自從當年比特幣挖礦流行以來,就有人提出了類似想法,比如自己搞個小水電站,降低挖礦成本。但數據中心的情況有所不同,因為需要穩定可靠的電力供應。即便數據中心自己建立了發電廠,最終還是需要至少一條線路或兩個回路接入大電網。自建的風光發電廠不是非常穩定,其產生的電力波動最終還是會映射回大電網。無論自己建還是別人建,只要存在波動性,大電網就必須做出反應。
吃兩三碗飯的人腦
和“吃”很多很多電的AI
楊富強:在數據中心的整個能源消耗過程中,哪個環節的電力消耗最多?又有哪些環節是比較容易實現節電的?
陳云霽:從信息處理的角度,我們可以將能源消耗分為兩大類:信息傳輸和信息計算與處理。目前,大模型的信息處理能耗相對較高,遠超信息傳輸的能耗。但是,未來隨著計算芯片性能和功耗比的提升,這種狀況是可能發生變化的,信息傳輸成為核心問題。目前,計算能耗占據了主導地位,這引發了一個疑問:為什么計算機的能耗總是遠高于人腦?人腦僅消耗約20瓦的功率,每天吃兩三碗飯就能干很多事情,而計算機則需要更多。
我想引用杰弗里·辛頓(Geoffrey Hinton)的觀點,他是一位獲得過圖靈獎的科學家,最近也拿到諾貝爾獎。辛頓提出了一個有趣的觀點,即“凡人計算”(mortal computation),涉及到物質與信息之間的關系。人腦中的物質與信息是強耦合的,軟件和硬件是綁定在一起的。人腦中的思想和信息都附著在物質上,如果一個人去世,這些信息就會隨之消散。而計算機則不同,軟件和硬件是分離的,信息可以從一個硬件拷貝到另一個硬件,但我們不能把一個人大腦里的東西拷貝到另一個人的大腦里。
辛頓認為,軟硬件的分離是導致計算機在處理神經網絡時能耗特別高的一個重要原因。順著他的思路我再往下想,如果未來我們能夠開發出一種計算機,其軟件和硬件完全一體化,可能只能處理特定的模型,不具備通用性,類似于人腦中物質與信息的緊密結合,那么能耗可能會大幅降低。總之,我想從人腦中汲取靈感,可能會幫助我們進一步提高計算效率。
李勇:從產業生態的角度來看,當前以大模型為代表的人工智能技術的整體能耗主要涉及兩個階段:訓練和推理。目前,主要的能耗集中在訓練階段,而推理階段的能耗預計將在未來有顯著增長。從芯片使用的角度來看,無論是訓練還是推理,都需要大量的算力,也就是GPU/DPU卡。
兩者之間有一個重要區別:訓練的時效性是可控制的,可以今天進行,也可以推遲到明天,甚至一個月后完成,時間上的靈活性較大。相比之下,推理階段與業務實時綁定,對響應時間有嚴格要求。因此,推理對底層硬件的要求更高。這也意味著在訓練階段,算力和能耗的協同優化有更大的空間,東數西算的策略在這里可以發揮作用。例如,在西北地區有豐富的風能和太陽能,可以在能源充足時計算,能源不足時則減少計算。
對于訓練階段,根據能源供應情況調整計算量的做法是可行的。但對于推理階段,這種場景可能并不適用,實現算電協同的挑戰更大。我的初步想法是,風、太有不確定性,是否可以利用核能來彌補,長遠解決這個問題。
陳云霽:此外,我們的計算可以變得更專用化。過去十年來,芯片設計領域有一個明顯的趨勢,就是專用體系結構變得越來越重要。回想二三十年前,我們幾乎所有的計算任務都是通過通用CPU來完成的,就像瑞士軍刀,什么都能干,但每一樣都不是最好的。到了人工智能時代,專門為人工智能設計的芯片,如GPU、NPU等,已經成為處理AI任務的主流選擇。
未來,我們可能會進一步專用化。為大模型設計專門的芯片,甚至為某個特定大模型定制芯片,如果能夠實現,越是專用芯片,能效一定越高。舉一個極端的例子,假設我們未來訓練出了一個非常好的大模型,這個模型本身就具有足夠的通用性,能夠處理各種任務。那么,我們是否可以為這個特定的大模型定制一個芯片,讓它只能跑這一個大模型。如果是這樣,它的能效可能比現在的GPU還要高出100倍甚至1000倍,從而可能解決我們未來長遠的問題。
但是現在我們還不能這么干,因為大模型的演進速度太快了。今天是GPT-4,明天是GPT-4o,后天是Sora……大模型的發展仍然處于一個快速變化的階段。如果未來大模型的發展逐漸穩定,出現了一個主導性的、基本收斂的大模型,那么我們芯片設計者就可以為它專門定制芯片了。
從源隨荷動到源荷互動
張永平:我們支持了一些數據中心相關的項目,出發點是將數據中心視為一個重要的電力負荷,并關注如何用綠色、清潔的可再生能源來滿足這些負荷需求。
首先,從需求層面來看,數據中心,尤其是提供AI算力的智算中心,已經成為了高耗能產業,其能耗問題也備受關注。數據中心的能耗涵蓋了芯片、IT設備、空調制冷、備用柴油發電機、不間斷電源等多個方面。目前,數據中心的能效已經相對較高,領先的數據中心的PUE指標已經接近1.1,這意味著進一步提高能效的難度很大。但我們不能因為高耗能就抑制數據中心的發展,就像不能因為電動汽車充電多就不讓它充電,不是這個邏輯。
其次,從供給層面來看,我們如何從能源,特別是電力的角度來滿足數據中心的用電需求,特別是綠色需求。數據中心的用電需求量大,且在某些時段用電量非常高,這與核電,尤其是中小型、模塊化核電的供電特性非常匹配。在美國,OpenAI、Google、Meta等公司已經在投資核電,以滿足未來的AI數據中心的用電需求。在中國,我們也在探索如何利用可再生能源來滿足數據中心的綠色用電需求。例如,許多數據中心的屋頂上都裝有光伏板,但這只能滿足一小部分電力需求,杯水車薪。為了使用更多的綠色能源,可以考慮建立大型園區,或者利用附近的風電和太陽能,這就需要配置儲能系統來平衡可再生能源的波動性。同時大電網的兜底保障也還是必需的。
此外,如果數據中心附近沒有可再生能源,可以通過購買綠色電力憑證或者通過金融手段來滿足需求。還有一個趨勢是,國家鼓勵將數據中心遷移到可再生能源豐富的地區,如西北地區,這樣可以減少電網傳輸的需求,使得用電需求與清潔電力供給更加接近,用電成本更低,也助力可再生能源就地利用。
第三,數據中心與電網之間的互動。AI大模型的訓練階段和推理階段,用電特性是不同的。包括數據處理方面,冷數據和熱數據的處理需求也有所區別。通過智能調度算力,我們可以決定何時進行計算,這樣就能在一定程度上減輕電網的負擔,甚至在某些時候還能幫上電網的忙,產生互動效應。這種互動不僅能提高電網的安全性,而且可能更加經濟。
數據中心的電價屬于工商業電價。目前,工商業電價的激勵機制還不夠完善,但未來可能會有更多的電價激勵措施。通過與電網的互動,數據中心不僅能出售余熱,還可能通過響應電網需求再賺點錢,對運營效率提升也有好處。
丁肇豪:電力行業看待數據中心的方式很樸素,就是一個負荷。電力系統,特別是新型電力系統,隨著可再生能源比例的增加,電源側的波動性和不確定性也在增加。過去,我們依賴火力發電,美國則是天然氣電廠,來平衡這種波動。但在碳排放目標的約束下,調節性電源,特別是火力發電,正在減少,這意味著舊的解決方案行不通了。
新的解決方案是實現源荷互動,即不再是單向的源隨荷動,而是負荷也能根據電源變化而變化。數據中心作為未來電力負荷的主要部分,我們希望它能跟隨可再生能源的變化而動。怎么做?
對于大模型訓練這樣的離線負載,就像我們給學生布置任務,要求他們在第二天早晨9點前提交,具體是在凌晨2點還是6點完成計算,并不重要。這些計算任務可以由阿里云等云服務提供商來處理,根據風力發電的時段以及碳排放強度來靈活調整和調度算力資源。這類任務通常規模較大,對截止時間不敏感。但許多任務需要大量數據,通常在特定數據中心完成。我們希望將這些任務放在新能源基地附近的數據中心來算,比如沙戈荒基地。
對于在線輕量級任務,如大模型推理,只要滿足時延要求,我們可以在空間上調度這些任務。我們與阿里巴巴以及國家電網華北分部合作過一個算力-電力協同調度實驗。當電網出現新能源消納困難,棄風棄光現象時,我們能否將其他地區的負載調度過去?實驗中,我們將阿里南通數據中心的一些計算任務轉移到張北數據中心,通過算力任務的轉移,南通的負荷降低,而張北的負荷增加,正好消納了當地的新能源。
我們希望這種做法能成為常態,電網能夠向云服務和數據中心企業提供信號,數據中心企業在算力調度時能及時響應,將能源和碳排放作為調度系統的一部分。
楊富強:將碳排放納入考量,使用煤電會產生相應的碳排放,而使用可再生能源則沒有。此外,還可以通過排隊機制來調整電價。例如,在太陽能最佳的中午時分,如果數據中心能夠利用這些“垃圾電”(即過剩的可再生能源),電價可能只有1分錢。而在電力需求高峰時期,電價可能會高達1毛錢。未來可以通過價格機制、市場手段、行政措施以及調度手段來優化能源使用。
工藝節點短期無法突破
楊富強:我們在不斷追求更先進的芯片技術,7納米、5納米、3納米、1納米……那么,能源消耗是否會成為一個考量因素或者關鍵的設計指標?
陳云霽:對于我們芯片人來說,有兩個最核心的指標:速度和能效。速度大家都知道,都希望芯片跑得快。而能效,盡管在上個世紀沒有得到太多關注,但從2000年以后,它已經成為了一個焦點。我們特別關注每次計算所消耗的能量,比特運算與瓦特之間的關系是我們非常重視的。
之所以大家追求更先進的工藝,7納米不夠,還要3納米、1納米的,一方面是因為這樣可以在芯片上集成更多的晶體管,從而提高速度。但更重要的是,使用更先進的工藝可以顯著降低每次計算的能量消耗。例如,5納米工藝相比于7納米工藝,每次計算消耗的能量可以減少幾十個百分點。這也正是為什么半導體技術不斷向更小的納米尺度發展的原因。
李勇:未來,芯片的能耗肯定將變得越來越重要。這與我們今天討論的整體趨勢是一致的。人工智能在社會中所占的工作量比例越來越大,能耗也隨之增長。而能耗的增加,本質上主要是由于計算需求的增長,計算的核心依賴于芯片來處理比特、信息和數據。最終,這個賬要算到芯片上。因此,從能耗角度評估芯片的計算效率,會越來越受大家重視。
楊富強:那我們跟國外相比,處在什么水平?
陳云霽:這個問題大家都非常關注。半導體工藝中的一個重要參數是工藝節點,也就是我們熟知的12納米、7納米、3納米等。目前,國際上如臺積電已經開始量產3納米工藝,并走向1.8納米,甚至1納米的技術路徑也是通的。而國內由于國際形勢的影響,短期內可能還需停留在7納米工藝節點上。但這并不意味著我們就在這里“躺平”了。
中國科學家和美國科學家面臨的挑戰本質上是相似的。我們可能在7納米暫時停一段時間,而美國可能在1.8納米或1納米節點上停留。因此,全球的芯片設計者都在探索同一個問題:在工藝節點無法進一步縮小的情況下,如何通過體系結構的創新來提升性能,尤其是降低能耗。
在這種情況下,一個有前景的技術趨勢是為特定任務定制專用芯片,即走向專用化。依靠通用CPU,這種像瑞士軍刀一樣的多功能但非最優設計,已經越來越難以滿足需求。相反,為特定的大模型、手機或AR/VR設備等定制專用芯片,可能成為在工藝節點不變的情況下降低能耗的重要手段。
楊富強:對于成熟的芯片技術,我們與國際先進水平相比處在什么位置?
陳云霽:在成熟的工藝節點上,中國的芯片設計水平在國際上已經達到了非常先進的水平。雖然不便斷言是排名第一或第二,但絕對位于第一梯隊之中。我舉一個數字,以集成電路領域的重要國際會議國際固態電路會議(ISSCC)為例,這個會議是衡量芯片設計領域研究成果的重要平臺。據我所知,清華大學在該會議上發表的論文數量已經位居世界前列。
這個數字其實變化非常大,十多年前,我們大陸每年在ISSCC上只能發表一篇文章,我記得十多年前我發表了兩篇,在國內已經算是最多的之一了。現在,僅僅是清華大學的一個課題組,一年就能在ISSCC上發表三到五篇論文。從設計角度來看,中國無疑已經進入了國際第一方陣。在成熟工藝節點上,中國的芯片設計工作非常不錯,也有大量出口。
楊富強:中國在很多領域實現了從依賴進口到自給自足的轉變。以空調行業為例,二三十年前,市場上主要是日本、美國的空調品牌,以節能技術領先,但現在,中國的品牌已經超越。我們同樣期待在芯片領域中國也能扮演越來越重要的角色。
更快還是更省?非技術層面的矛盾
楊富強:現在,我們換個角度來討論芯片。雖然芯片常常被貼上高耗能的標簽,但我們也要看到芯片技術的進步對整個電力系統,尤其是在節能和可再生能源消納方面產生了巨大的正面沖擊。
張永平:首先,關于用電量,我們討論了數據中心的能耗占比,不論1%還是2%,即使達到10%,只要都是清潔能源,也是可以接受的。因此,核心問題在于如何滿足數據中心的高能耗需求,同時確保這些能源是清潔的。
其次,能源的使用特性也非常重要。傳統上,我們喜歡穩定的能源供應,但隨著風能和太陽能的波動性,這種偏好受到了挑戰。我們希望數據中心和其他能源負荷能夠與可再生能源的波動相協同,這樣就能最大限度地利用可再生能源。目前,許多工作都在朝著這個方向努力。
核心問題在于需要有一個激勵機制來鼓勵。例如,對于數據中心,目前它們可能不考慮響應電網的需求,但如果我們能提供足夠的經濟激勵,讓它們通過調整算力調度來節省成本或賺取利潤,那么它們可能會更愿意采取行動。
陳云霽:比如,中午開機計算,不要錢。
張永平:對的。許多人可能不太了解電力現貨市場。在電力現貨市場中,電力價格主要影響工商業用戶比較多,普通家庭用戶感受不到,但工商業是敏感的。在一些地區,在可再生能源發電量過剩的時段,比如中午時分,甚至會出現負電價。如果你在這些時段購買電力,理論上不僅不需要花錢,還能賺錢。
如果有設計良好的市場機制和足夠的激勵,就能引導數據中心調整其用電行為。當然,這種激勵需要足夠大,就像電動汽車的V2G(Vehicle to Grid),電動汽車可以充電,還能將電能反饋給電網賺錢。但如果放電一次只能賺8塊、10塊,又給自己帶來很大不便,人們可能就不會去做。我相信,未來如果數據中心的用電量巨大,且其用電特性對電網產生顯著影響,這種矛盾可能會倒逼市場改革,給出更多激勵信號。
丁肇豪:這個問題我們其實深有體會。雖然今天我們討論的數據中心與電網互動、算力調度以及與新能源平衡的概念聽起來都很好,但實際操作中,從最早2004年就有人提出這些概念。然而,即使過去了二十年,實際落地的項目在全球范圍內仍然寥寥無幾,沒有太多可持續應用的案例。
這其中一個很大的問題,是需要電力現貨市場的價格信號來激勵數據中心調整用電行為。但我認為這只是一個方面,因為在算力領域,相關團隊可能更關心產品的交付和服務的可靠性,而不是帶來電費和排放的降低。
陳云霽:我認為目前的情況可能是時機未到。雖然現在人工智能算力只占全球電力消耗的1.6%,但如果有一天這一比例達到20-30%,即便是資金雄厚的互聯網公司可能也付不起如此巨額的電費。以OpenAI為例,盡管其技術領先,但實際上一直在虧損。因為目前OpenAI通過大模型掙到的錢無法補貼其電力成本,因此它一直在虧損。不過,我相信它總有一天要掙錢。
目前,無論是互聯網公司還是大模型創業公司,還沒有真正考慮如何盈利。他們現在的重點不在于考慮成本問題,包括電力成本。但當他們開始真正思考如何掙錢,AI的算力消耗和電力成本就是他們必須面對和解決的問題。
李勇:不是不報,時間未到。在互聯網行業,投資現在主要集中在算力,而電力成本尚未顯著上升。算力基礎設施一旦建成,就會持續運行,其成本實際上是一個相對平穩或逐漸下降的趨勢。相比之下,電力成本卻有可能持續上升。因此,當電力成本變得足夠高,以至于在經濟上成為一個不可忽視的因素時,企業將會發現降低電力消耗是劃算的。
張永平:時間點是一個很有趣的話題。據我了解,至少在美國,像OpenAI這樣的公司,未來的商業模式如果能夠成功并實現盈利,無非兩個:一是AI應用的驅動,特別是使用量和調用量的增加,這是收入的來源;二是降低成本。一方面,他們會切入芯片生產上游的晶圓;另一方面,他們正在投資電力領域,包括核電和其他直接電力供應方式,以省去中間環節,直接獲取電力供應,能節省超過40%的能源成本。他們正在投資未來。
楊富強:我們剛才討論了AI的能源消耗,同時我們也應該看到AI在提高能源效率和減少碳排放方面的潛力。以智能電網為例,我們擔心可再生能源的不穩定性可能導致電網事故。這類事故很少見,可能一年只有一兩次,或者幾年才發生一次,但一旦發生,后果嚴重。有了AI之后,我們可以通過模擬和計算幫助我們預防和解決電網事故。現在,當我們談到AI時,經常提到“AI向善”。人們對AI既感到驚喜,又有些害怕。我們對AI的擔憂是什么,怎樣去克服?
李勇:我們經常討論AI帶來的威脅,比如最初的數據威脅,指的是大語言模型消耗了人類產生的所有文本語料,讓我們面臨數據枯竭的問題。然而,AI雖然消耗了大量數據,但它也能產生更多的數據,比如在視頻創作等領域創造新的內容。今天,我們討論的是AI快速發展可能帶來的能源危機,但討論后我們發現,AI雖然增加了能源消耗,但它也能幫助我們更有效地利用新能源,比如風能和太陽能。這實際上是為我們打開了另一扇窗。
楊富強:傳統上,電網調度需要幾十名工作人員來管理。如果我們引入AI技術,有人提出可以設計一個軟件,讓AI來接管電網調度工作,這樣效率會更高,可能只需要一兩個人來監督。然而,這也帶來了風險。如果AI軟件遭到入侵或者出現故障,可能會導致整個國家電網系統的崩潰。我們應該怎么做?
丁肇豪:在電力系統中,我們經常需要進行方式計算,這是一種考慮各種可能性以確保電力系統安全的方法。過去,國家調度中心進行方式計算需要從各省抽調大量人員,花費數月時間。但隨著電力系統越來越復雜,尤其是風能和太陽能的增加,這種方式計算變得更加困難。這時,人工智能可能提供了一個解決方案。
然而,使用人工智能也帶來了不可靠性和安全隱患。例如,數據投毒、代碼后門等攻擊手段,或者即使沒有惡意攻擊,AI計算出的結果也可能出錯,因為大型模型本質上是概率模型。如果出現問題,誰來負責?在電力調度中的決策都是有人負責。但如果決策是由AI做出的,責任歸屬就變得模糊。這是在使用AI時,尤其是電力行業這樣相對保守的領域,需要特別考慮的問題。我們希望在AI的可解釋性、安全性和效率提升之間找到平衡點。
張永平:之前在電力領域,尤其是在電力調度這個技術含量最高的領域,人工智能更多還是輔助決策的作用,比如更精準地預測電力負荷,比如應用語音、視覺、自然語言處理等技術,幫助調度員做交互,降本增效,這些場景已經變得很常見。
現在,人工智能的應用正越來越多地探索電力系統最核心的領域。例如,因為電網變得越來越復雜,支持電網運行方式的制定;還有實時監控電網運行情況,調度員需要關注大屏幕上的電網狀態,并在出現問題時迅速采取應對措施,以往這些工作依賴于計算機輔助和人的經驗,而人工智能的輔助可以使決策更加精準。
但核心問題在于,人工智能存在不可解釋性。雖然智能涌現帶來了一些好處,但在傳統領域,不可解釋性可能導致安全責任難以界定。以往人做決策時責任明確,而AI做決策時責任歸屬變得模糊。這類似于自動駕駛面臨的社會倫理問題,不僅僅是技術問題,而是涉及到如何在不同情況下做出倫理判斷。隨著技術的進步,我們不僅需要改變技術層面的東西,還需要改變安全文化、社會責任、倫理和法律法規等方面。這些問題可能需要長期解決。
觀眾提問
觀眾1:陳云霽老師提到一個觀點,未來AI的大模型可能會收斂到一個相對特定的大模型,我們將為其提供專用的硬件支持。我自己的研究也與大模型相關,想請教李勇老師,您對AI,包括大模型未來的展望是怎樣的?它應該具備哪些能力?如何融入人類社會?
李勇:大模型發展到今天,已經展示出了許多可能性,特別是在虛擬世界中解決問題的能力,超出了我們的預期。目前,許多研究工作正在進一步探索如何讓大模型在現實世界中發揮作用,比如通過具身智能等研究,讓大模型的能力在現實世界中得到應用,幫助我們解決實際問題。
總體來看,大模型是目前人類探索通用智能的一個可能方向,盡管它可能不是唯一的方向。對于未來,我認為一方面,既然我們已經看到了大模型的潛力,就應該繼續努力探索。但從國內外的發展形勢來看,美國在這一領域的引領作用仍然很明顯,我們還需要認識到跟隨的現狀。另一方面,隨著智能水平的進一步提升,我們也需要探索一些目前尚未被充分開發的、有潛力的新路徑。這樣,我們就能為未來人工智能的安全性和可持續性做出貢獻。
觀眾2:我想問李老師,芯片和大模型的能耗中,有多少是理論上必要的,又有多少是可以通過優化減少的?丁老師,于數據中心來說,電力波動的承受范圍有多大,是否存在一個理論上限?如果數據需要根據新能源的出力不斷調整,客戶可能會擔心多次傳輸帶來的風險,這種風險如何評估和控制?張老師,高可再生能源占比的算力中心是如何實現的?如果我們想建立一個以可再生能源為主的微電網,技術上的突破點和背后的成本可能是什么?
張永平:我們觀察到數據中心目前有兩個發展趨勢:一方面是大型集中式數據中心,另一方面是分布式小型算力中心。這些小型算力中心通常建在需要智能算力的地方,以滿足當地的需求。
目前,完全依賴綠色能源的集中式數據中心相對較少,因為這類數據中心對可靠性的要求非常高。可再生能源,尤其是風能和太陽能,具有較大的波動性。要保證大規模能源供應的穩定性,就需要有調節手段,比如水電(如果有的話),因為它是綠色的。或者配備儲能設施,但從能量密度和成本角度來看,儲能設施可能并不是一個技術、成本效益上劃算的解決方案。因此,大多數大型數據中心至少需要有大電網作為備用,完全離網運行可能比較困難。
對于小型數據中心,靠近智算需求的地方,實現綠色電力供應是可能的。它們可以利用綠色電力加上一些儲能設施,在某些時段滿足供應需求。雖然可能無法保證一天24小時或一周七天都能百分之百使用綠電,但在某些時段是可以實現的。
從企業運營的角度來看,為了滿足綠色能源的需求,如果沒有物理資源,它們可以通過購買綠色電力憑證等方式來實現。雖然這會帶來一些綠色電力的溢價,但這種方式可以被視為消耗綠電的一種方法。這些是目前我們觀察到的一些趨勢。
丁肇豪:關于獨立運行的綠色微電網,這個話題在電力領域已經討論很久了。但如果要將高可靠性結合進來,難度就增加了許多。尤其是對于大型數據中心,比如擁有萬卡或十萬卡集群的數據中心,要實現獨立運行并且保證可靠性,難度就更大了。這種難度既包括技術上的挑戰,也包括經濟實現上的挑戰,比如投入儲能、氫能等的成本和安全問題。雖然技術上不惜代價可能是可行的,但一旦考慮到經濟成本,可能就變得不可行了。
關于數據中心響應速度的問題。我們做過一些模擬實驗,發現數據中心實際上可以提供2秒或4秒的電力系統調頻服務。數據中心的計算速度或控制速度遠高于電網的頻率,因此有很大的操作空間。
關于數據中心負荷與電力消耗是否線性相關。我只能說它們是正相關的,但并非線性關系。在實際測試中,我們明顯看到算力調度的時候,最終展現出的電力負荷波動是一種非線性映射關系。這其中有很多原因,包括任務執行與能耗在服務器層面、機房層面或整個機群層面的非線性映射,以及制冷等的時間常數差異。這些因素共同作用,導致最終的非線性關系。這也是AI可以解決的問題之一,只要我們有足夠的數據,就可以進行優化。
關于數據中心的控制范圍,即上限和下限問題,這并沒有一個統一的答案。它取決于數據中心運行的計算任務類型。如果是大模型的預訓練,那么如果完全停止,變化范圍可能非常大。但如果是一般性的算力中心,運行的是均衡后的負載業務,那么變化范圍會小一些,具體取決于運行的業務類型。因此,這個問題的答案主要取決于我們關注的是什么樣的數據中心以及它運行的業務類型。
李勇:關于芯片能耗的問題,從目前的情況來看,芯片在運行時產生的能耗在一定程度上都是合理的,但確實存在一些可以優化的空間。硬件的能耗主要由幾個部分組成:電源模塊、模數轉換模塊以及核心的數字電路處理模塊。在不同的芯片中,這些模塊的功耗比重各不相同,因此在芯片設計中,優化這些模塊的能耗是一個核心問題。
除了優化現有設計,另一個層面的考慮是芯片架構的創新。我們是否可以從現有的軟硬件分離模式轉變為模仿人腦的工作機制,設計出一種新型的芯片架構。此外,工藝技術的進步也是提升芯片能效的一個重要方向。
觀眾3:丁老師,您剛才提到算力中心的靈活調節需求與其處理的具體任務相關。那么,對于未來的不同應用場景,我們是否能夠做出估計,并據此反推出未來增長曲線的可能形狀?例如,未來的任務將如何增長,其中有多少是可調節的?考慮到未來高比例的可再生能源系統和算力中心所占的比重,它的調節能力將決定我們需要配置多少靈活能源,如儲能等。同時,我也注意到騰訊等公司通過輔助服務市場的價格來指導其算力中心的調節。這種市場機制在未來是否仍然適用?或者當AI消耗了高比例的能源后,輔助服務的價格信號是否不足以進行調節,我們是否需要新的市場或市場機制來應對這種情況。
張老師,我的問題是關于碳中和路徑和能源轉型的。雖然我們已經有了這些路徑,但在設計時并未考慮到新型技術,尤其是像AI算力中心這樣的高耗能技術。現在我們意識到,未來這些技術可能占用20%到30%甚至更高的能源比例,是否有項目在研究這種新技術對未來碳中和路徑的影響?影響范圍會有多大?還是說目前大家仍然認為能源前端的問題,如可再生能源的替代,更為關鍵,而耗能問題相對來說不是主要因素?
丁肇豪:我先來談談算力中心調節能力的問題。這個調節能力實際上取決于我們對業務時延的敏感性和對服務質量的認知。換句話說,這取決于我們對算力需求的緊迫性。例如,如果您使用ChatGPT,并且您是一個非常注重環保的人,您是否愿意讓ChatGPT在回答問題時比別人多花50%的時間?如果您愿意,那么推理任務的靈活性就會增加。如果您更愿意等待,比如增加到100%的時間,那么靈活性就更大,因為它可以在能源供應更充足的地方進行計算。
至于輔助服務機制的問題,中國的電力市場仍在發展變化中。從新一輪電力體制改革開始,現貨電力市場建設正在全面鋪開。目前,數據中心真正參與電力現貨市場的情況還比較少,所以瓶頸并不在于機制層面。如果將來理想情況下,數據中心占電力負荷的30%到40%,并且我們需要它們進行調節,那么我們需要給它們足夠的價格信號。我認為,沿著目前市場機制的設計思路,從輔助服務的角度來看,問題不大。可能更多的是需要在容量機制、現貨能量市場和輔助服務市場之間的匹配關系上做一些調整。這可能是一個更長遠的問題,是未來我們需要面對的。
張永平:關于碳中和的路徑,電力部門脫碳無疑是最核心的部分。不僅電力部門自身需要實現碳中和,其他許多部門也在快速電氣化,這一過程中如果使用的電力都是清潔和綠色的,也能助力其他行業的減排。在進行這類路徑研究時,尤其是從電力角度出發,我們首先關注的是對未來電力需求的預測。未來的需求預測總是充滿挑戰,因為太難預測,所以很多方法都采用了高中低不同情景的分析。在最低和最高的情景中,會進一步細分各個用電部門的需求。
我相信,按照目前數據中心和AI智算的發展,至少在高用電情景中,已經充分考慮了AI對未來電力需求的影響。在這樣的高情景設定下,如何滿足這些需求,尤其是使用綠色清潔的可再生能源,是有相應方案的。我們對這些方案進行了一些分析和測算,發現是有可能實現的,但對電力系統轉型的挑戰巨大。
在可預見的未來,面對AI帶來的電力需求的增長,通過技術、政策和市場的協同努力,盡可能多的用可再生能源去滿足這一需求,還是充滿信心的。
注:科學四十人是一個科學交流公益項目,由北京市海淀區智識前沿科技促進中心(簡稱“智識學研社”,《知識分子》《賽先生》出品方)和浙江省科匯致遠公益基金會共同發起。科學四十人委員會目前包括來自不同學科領域的34位一流學者。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.