最近,ChatGPT 迅速引爆 AIGC 領域,依托全網大數據與海量智能模型訓練,一舉成為 Stable Diffusion 之外的 AI 新寵。不同于過往初階聊天機器人,這位“懂王”似乎可以取代大型搜索平臺,與用戶展開高質量同頻對話。網友也特別樂于「調戲」它,還生成出了不少奇怪的神回復。
ChatGPT 奇特之處恰在于其『學習性』,也就是說它具備進化能力,能夠在與人溝通、學習過程中變得更加聰明。在官方介紹里也提到過,它可以指出不正確前提,拒絕回答不適當問題,甚至會承認錯誤。
展開高智商對話的同時,ChatGPT 也能寫出優雅的代碼。如果你告訴他需要創建一個 PHP 程序來掃描主機名上的開放端口,就可以得到一份代碼,雖然目前看來還是比較初級的,但隨著后續的學習和調整,應用前景存在無限可能。
更厲害的是,它還能夠在 ChatGPT 中構建虛擬機,運行 Linux 指令,甚至還可以用 curl 來讓 Chat GPT 和自己做交互。
如果格局打開一點,我們是不是可以說,在跨端開發時候它可以取代election,真的有助于降本增效?盡管目前還不能做到這么高階的玩法,但是依照 ChatGPT 的潛質,這或許只是時間問題。
當然,玩法只是表層,更值得談論的則是其里程碑式意義:AI已然從幕后轉向了臺前。
在過去的兩周里,ChatGPT的熱度一度超過 Alpha Go 的峰值。雖然在過往,像是 AlphaGo 這類 AI 產品確實為用戶所熟知,但是離用戶還是太遠了。而 ChatGPT 更像是「民用級」的產品,真正意義上讓AI技術廣泛破圈應用。
1
大規模模型訓練、海量數據
共同成就 ChatGPT
ChatGPT 的出圈并不是偶然,透視結構,它是一種基于 InstructGPT算法架構開發的大型預訓練語言模型,而在這之中,OpenAI 為這個模型新增了代碼理解和生成能力,這樣就可以極大的拓寬應用場景,甚至在這之中,它還加入了一些道德原則,如此就能夠識別惡意信息,而且還可以拒絕回答等。在使用體驗被拉滿之后,我們所能夠見到的就是不同于原先的、更貼近于「人」的使用感。
如果從技術角度去解讀,我們不難看出,這些產品的背后,都是基于大模型、大數據的不斷訓練。在之前就有報道指出,ChatGPT背后的訓練除了常規的萬億級別語料投喂之外,還依托于其強大的算力。
據數據披露,ChatGPT的總算力消耗約為3640PF-days。事實上這幾件事我們可以認為是相輔相成的,即高質量的人工標注數據+強化學習為底層邏輯,在經過萬億級別的語料投喂后不斷進行學習和迭代,最后依托于強大的算力為產品的學習和輸入輸出進行支撐。
看上去難嗎?不難,但也很難。在過去的很長一段時間里,許多的廠商都是通過本地設備來進行訓練的,甚至在過去,知乎還曾經有人提問「為什么很少有機器學習上云」。
事實上在過往有很多的公司都因為對算力的強需求被拖垮了,這也就是為什么很長一段時間內我們都很難在機器學習領域看到新的產品了。出彩的產品本身就因為算力的桎梏而變得很少,更遑論出圈的呢?
但是,當時間大跨步進入現在以后,這件事就變得截然不同了。在當下,機器學習和深度學習的上云已經相當普遍,而市面上也有很多的產品都在基于大模型的訓練和推理給出更適合個人開發者和企業開發的解決方案,亞馬遜云科技就是其中之一。
2
從高門檻到低成本,
亞馬遜云科技做對了什么?
從剛剛過去不久的2022亞馬遜云科技 re:Invent 全球大會上,我們可以得知ChatGPT 這類基于大模型的訓練和推理,正是未來驅動機器學習發展的關鍵趨勢之一。
首先,大模型的訓練和應用門檻亟須降低。
ChatGPT 相比以往對話機器人,之所以“聰明”,是因為攝入了數以億計的語料庫內容,而如此規模的大模型的訓練和應用成本極高,絕大部分企業都無法承擔,但我們看到越來越多的大模型走向了開源,并允許用戶在此基礎上進行低成本的微調,以更加適配最終用戶的業務場景。如何獲取這些大模型,并快速進行部署和微調,是真正落地大模型應用需要考慮的問題。
Amazon SageMaker JumpStart簡單明了的回答了這個問題,JumpStart提供了超過350個來自TensorFlow、PyTorch、Hugging Face以及MXNet等廣受歡迎的模型中心所提供的最先進的預訓練模型、內置算法以及預置解決方案模板,能為對象檢測、文本分類和文本生成等流行的ML任務提供支持,在re:Invent 2022上,亞馬遜云科技宣布將來自Stability.AI (發布了火出圈的用于AIGC的 stable diffusion模型)和 AI21 公司的大模型集成到SageMaker JumpStart,用戶僅需點點鼠標,即可完成模型的部署和微調,極大的降低了大模型應用的門檻。
沙利文中國及頭豹研究院近期發布了《2022中國 AI 開發平臺報告》,亞馬遜云科技連續第二年被評為中國 AI 開發平臺領導者,在創新指數(橫軸)和增長指數(縱軸)均位列第一,具有明顯的優勢。“亞馬遜云科技具備完備的AI開發軟硬全棧供應水平,從專用基礎設施、AI平臺到各類場景開箱即用的AI服務解決方案,結合亞馬遜云科技的系列云上服務,滿足各類型客戶的不同需求”。
第二,大模型訓練和推理,更需高性能芯片助力。
ChatGPT不僅需要巨量數據源“投喂”訓練模型,而且也需要強有力的算力與芯片支持,而這些都需要巨量的成本。即便是在技術水平相當理想的情況下,成本問題也很驚人。
事實上對于很多個人學習者和初創公司來說,成本都是繞不開的問題。個人學習者其實很難不因為傳統云的價格而感到吃力,但是亞馬遜云科技對這類問題則有了更好的解決方案。
在前段時間,亞馬遜云科技推出了基于 Amazon Trainium 自研芯片的 Amazon EC2 Trn1實例的高性價比解決方案,與基于 GPU 的同類實例相比,Trn1可節省高達50%的訓練成本,不管是從縮短時間、快速迭代模型,還是提升訓練準確率維度來說,都可以助力 ChatGPT 一類 AIGC 應用降本增效,表現更出眾。
值得一提的是,使用 Trn1 實例無需最低消費承諾或預付費用,只需為使用的計算量付費,計費方式十分合理。像是 Stable Diffusion 模型的母公司 Stability AI 就在使用 Trn1 進行模型訓練,持續提升生產效能。
對于大模型的推理,亞馬遜云科技同樣給出了答案,由第二代Amazon Inferentia 加速器支撐的Amazon EC2 Inf2實例。與第一代 Inf1 實例相比,Inf2 實例的計算性能提高了 3 倍,加速器內存提高了 4 倍,吞吐量提高了 4 倍,延遲降低了 10 倍。Inf2 實例經過優化,可以大規模部署日益復雜的模型,例如大型語言模型(LLM)等,其通過加速器之間的超高速連接可支持橫向擴展分布式推理,即使是大如175B 參數模型也可以方便部署并提高高速推理。
第三,基于 NLP 大模型的服務,并非僅有 ChatGPT。
像 ChatGPT 這種基于NLP大模型的服務,亞馬遜云科技也擁有多種 AI 服務。
事實上,NLP大模型的落地是很難的,因為它們普遍需要高效的分布式大模型訓練和快速的在線推理服務才能夠落地,所以對于絕大多數公司來說,不管是從人力成本還是其他層面上來說,都存在一定的阻礙,亞馬遜云科技憑借多年云業務經驗,可以在多條業務線上齊頭并進,協同合作伙伴快速展開生態化創新。
比如 CodeWhisper 就是基于機器學習的代碼開發助手,能夠幫助更多人來加速開發、提高生產力,除此之外還有還有大家都熟知的Alexa語音助手,也是基于包含200億個參數的AlexaTeacher Model(AlexaTM 20B)大模型,而這些都能夠切實地幫助用戶進行降本增效,繼而更好地享受到科技紅利。
3
當我們談論 ChatGPT 時,我們討論的是大模型與大數據創新,強悍的機器學習能力建立于此。整體來看,ChatGPT 同亞馬遜云科技,在邁向未來探索之路殊途同歸,創新落點都是 AI 技術、機器學習、云技術的體系化深入探索。當技術真正作用于人、真正地賦能千行百業一線場景,產生高質量、高效能后,我們所能夠見到的,便能瞭望到嶄新的科技邊界。
12月20日剛結束的亞馬遜云科技 INNOVATE 在線大會 對re:Invent 2022 進行了深度解讀,剖析 re:Invent 2022 的最新發布以及全球觀點與實踐,深度技術詳解端到端的數據戰略及未來基礎架構,點擊閱讀原文觀看直播回放。
茶館君往期精選
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.