公眾號記得加星標??,第一時間看推送不會錯過。
7月16日,第五屆RISC-V中國峰會在上海張江科學會堂成功舉辦。奕行智能聯合創始人、COO楊宜博士在峰會發表了題為《RISC-V與虛擬指令技術結合打造創新的計算架構》的主題演講。
楊宜博士開篇直言:“AI的發展改變了軟件編程的范式。”隨后,他引述OpenAI創始成員Andrej Karpathy此前在一場演講中的觀點“Software 3.0(軟件3.0)時代已經到來”。
楊宜介紹到,Software 1.0 時代是由人類用編程語言編寫機器能懂的代碼的時代,這是過去 70 年軟件開發的主流形態;Software 2.0 則是以神經網絡為核心,我們通過設計神經網絡結構、準備數據集、訓練參數來構建能解決問題的程序。至于軟件3.0,則是在大語言模型的崛起的大背景下,軟件開發范式的根本性變革。
“軟件3.0中,自然語言提示Prompts正在取代傳統編程代碼,LLM成為新的編程接口。這標志著軟件構建、交互和構思方式的根本性轉變。”楊宜總結說,“這也倒逼著硬件3.0階段的加速到來。”
新時代需要新芯片
正如楊宜所說,軟件1.0時,眾所周知,CPU是占主導地位的硬件。
“軟件2.0呢,是神經網絡,從AlexNet到ResNet到transformer-based大模型,編程范式是:定義網絡模型結構、灌輸數據、訓練確定參數;而使用軟件,變成了用網絡模型做具體的推理任務。這種計算范式讓擅長控制的標量計算型的CPU難以應對了,為并行運算而設計的GPU粉墨登場。”楊宜在演講中說道。
在軟件3.0時代,我們看到以transformer為基礎結構的各種大模型的快速發展, 并出現了在此基礎上的各種多專家稀疏算法創新。相之對應的,我們看到為此加速的DSA架構越來越多的成為主流,包括谷歌的TPU…,甚至英偉達的Hopper和Blackwell里的TME,都是用DSA來加速transformer模型及各種融合算子的手段。同時,大模型引入了更大尺寸的矩陣乘加運算,也需要更大的Tensor core。
對于什么是好的硬件3.0,不同的人有不同的觀點。在楊宜看來,硬件3.0首先需要解決一個核心矛盾,就是領域內的專用效率和編程通用性的矛盾。
“AI計算是領域特定范式,但是我們不能只追求它的計算效率或者說算力利用率,因為我們同時還在面臨海量編程客戶以及模型多樣化等挑戰,所以這兩者必須要有平衡,而不能說只是一味的去關注DSA計算效率而忽略了通用性,這也成為了我們首要解決的難題。”楊宜在演講中說。
在弄清楚需求以后,接下來的任務就是去打造適合的AI處理器。這時候,新的問題又產生了。按照楊宜在演講中的總結,這個階段面臨的問題歸納如下幾點:
1
AI計算架構設計耗時長:從零開始構造AI計算架構不但需要需要較長的時間,還涉及復雜的技術決策與優化過程;
2
指令系統打磨時間久:從零開始構造一套經過產品與生態認可的指令系統需要大量時間進行驗證與完善;
3
AI編譯軟件落地周期久:從零開始構造后端編譯軟件并達到成熟可商用水平,需經歷長時間的調試和優化;
4
生態兼容難題:自主構建的指令系統需獲得廣泛生態支持,這一過程也存在較高的門檻與不確定性;
奕行智能的破局之道
在楊宜看來,RISC-V的開放性、模塊化設計、可靈活定制專用AI加速指令集,可以極大的幫助到構建DSA;其精簡架構降低了芯片設計門檻,助力企業快速迭代。因此,奕行智能選擇RISC-V + RVV作為公司的關鍵計算架構。
“奕行智能以RISC-V為架構創新的底座。其開放指令集允許定制AI專用擴展,RVV可變長向量指令可以直接適配張量計算,向量掩碼機制直接支持稀疏矩陣運算。更關鍵的是,日益成熟的生態優勢:LLVM、GCC等主流編譯器已支持RISC-V,主流AI框架正積極適配RISC-V平臺。為我們產品的快速落地提供了有力支撐”,楊宜介紹道。
“同時,指令集是設計計算架構中的核心環節,是發揮硬件性能和保持軟件通用性的關鍵。”
如楊宜所說,最簡單的的方式就是用固化的ASIC,其優勢是針對單一算法專用性強 / 能效高,但劣勢是一旦有新的模型算法產生,ASIC則無法適配或性能較低;我們也可以用帶有領域專用語義的高層次粗顆粒度指令來做這件事情,其優勢是單條指令可完成復雜操作,簡化了軟件設計的復雜度,但伴之而來的算子數量多,若全部指令化的面積開銷大等挑戰也是不容忽視的;我們還可以使用低層次細顆粒度微指令來實現,這種設計的優勢是可圖靈完備、靈活性高,可實現復雜的算法邏輯,但劣勢是指令數量多,調度開銷大,軟件開發周期長。
有見及此,奕行智能推出了一個叫做VISA(Virtual Instruction Set Architecture:虛擬指令集架構),并推出了了一個名為“EVAMIND”的內核。
據介紹,VISA是EVAS獨創的用于AI計算架構里介于AI編譯器與后端編譯之間的中間層,它既是一套軟件的中間層封裝,又是在EVAS內核硬件中真實亂序發射的宏指令,是通過在硬件ISA之上抽象出一套統一的虛擬ISA。
楊宜表示,VISA的作用是AI計算架構的發展中三個難于解決的關鍵問題:
1
硬件與算子及編譯器等軟件棧深度耦合,互相制約演進 ;
2
AI處理器設計過程中難以兼顧通用于專用;
3
AI編譯中的中間表達(IR)下降過程中,從Tensor到細粒度SIMD太過陡峭導致優化機會喪失。
“EVAS的架構中通過在VISA中用細粒度的硬件指令,來實現粗粒度的VISA算子,VISA算子內使用軟件流水、循環展開等方式進行性能優化,對于每個VISA算子,實現優秀性能,而AI編譯的上層部分則只需要關注VISA算子這個層級,減少了指令發射的難度。”楊宜接著說。
通過VISA與RISCV微指令的融合使用,EVAS的架構設計具備了以下特點:
1
在DSA內不同異構的計算與數據操作單元之間是亂序調度的具備Tensor語義的虛擬指令(VISA),保持了在AI領域內的專用屬性;
2
在計算單元內部結合RVV將VISA宏指令的分解與執行成細顆粒且圖靈完備的微指令;
“這里虛擬指令是由標量核硬件真實發射的宏指令,但在其內部是經過高效優化實現的軟內核。通過這種軟硬結合的方式使得在保證AI計算專用效率的同時對提升用戶的編程體驗。”楊宜說。
如上圖所示,奕行智能基于這個架構構建了EVAMIND內核。據介紹,在這個內核中,標量引擎負責整個系統的協調和控制;VISA調度器,能保證粗粒度宏指令的編排和亂序發射;張量引擎則負責專門處理矩陣運算和張量計算;4D加速引擎負責核內外的數據搬運以及隨路激活、reduce及4維矩陣變換與各種轉置操作;此外,RISC-V RVV向量引擎提供了AI專用的硬件擴展,保證細粒度微指令的高效執行。
基于這個內核,奕行智能即將推出新一代的智算產品。
楊宜介紹說,即將將推出的芯片支持了INT4、INT8、FP8、FP16、BF16等多種浮點和定點數據類型,也支持了大模型特需的混合精度計算。尤其是在對FP8/INT4原生支持方面,讓該方案獲得了2到4倍計算吞吐提升。此外,該支持多種并行及流水掩蓋計算方式,實現計算資源的極致利用率。
“作為一家致力于提供前沿的AI計算架構和高效能并行計算解決方案的通用計算芯片設計公司,奕行智能希望能以先進的計算架構、編譯器軟件工具為核心技術,通過RISC-V開放指令集生態提供新一代通用和專用計算加速解決方案,推動自動駕駛、具身智能和其它端-邊-云行業應用的可持續發展,并最終為人類AGI時代的進步貢獻力量。”楊宜在演講最后展望道。
*免責聲明:本文由作者原創。文章內容系作者個人觀點,半導體行業觀察轉載僅為了傳達一種不同的觀點,不代表半導體行業觀察對該觀點贊同或支持,如果有任何異議,歡迎聯系半導體行業觀察。
今天是《半導體行業觀察》為您分享的第4102期內容,歡迎關注。
加星標??第一時間看推送,小號防走丟
求推薦
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.