在遙遠的史前時代,我們的祖先以刀耕火種的方式,開啟了與大自然的對話,也宣告了工具作為人類文明進步重要基石的誕生。
工具,這個看似簡單卻意義深遠的存在,自誕生之初便與人類的命運緊密相連。從最初的石器、木棍,到后來的銅器、鐵器,再到如今的高科技產品,工具的每一次演變都標志著人類生產力的飛躍,推動著社會文明的進步。它們不僅是人類雙手的延伸,更是智慧的結晶,也是征服自然、改造世界的利器。
AI工具:企業快速發展利器
轉過頭來再看當下,AI已躍升為科技界的璀璨明星,IT和互聯網等領域紛紛將其擁入懷中,基于AI的應用如雨后春筍般涌現,人們也愈發感嘆:現在的APP越來越“聰明”了!
然而,對于眾多傳統行業而言,將AI融入日常業務并非易事,技術門檻高且場景融合仍待深入探索。因此,他們更渴望獲得易于上手、高效實用的AI工具。
亞馬遜云科技大中華區產品部總經理 陳曉建
“亞馬遜云科技構建數據基座的三大核心能力涵蓋從基礎模型訓練到生成式AI應用構建的重要場景,能夠幫助企業輕松應對海量多模態數據,提升基礎模型能力。當前,亞馬遜云科技正在幫助各個行業、各種規模的企業打造強健的數據基座,在確保用戶業務和數據安全的前提下,將數據的獨特價值賦予基礎模型和生成式AI應用,加速企業業務增長。”談到AI與企業應用的結合,亞馬遜云科技大中華區產品部總經理陳曉建給出了這樣的解讀。
顯而易見,除了數據基礎之外,企業還需根據自身應用場景選擇合適的AI工具,方能借助AI的力量推動業務發展。Perplexity公司便是一個典范,它通過融合傳統搜索、客戶數據以及大型語言模型的推理和文本轉換功能,創造了獨一無二的價值。這家公司正在打造全球首個對話式答案引擎,自2022年12月推出以來,其網站和移動應用迅速贏得了用戶的青睞,每月活躍用戶數達到1000萬,僅11月份就吸引了5300萬訪問量。這種快速增長是傳統營銷方式所無法比擬的。
三種方式應對不同應用場景
陳曉建表示:在探索如何將企業的自身數據融入生成式AI的應用中時,我們發現了檢索增強生成(RAG)、微調和持續預訓練這三種方式,可將數據與大型語言模型相結合,以提升業務效果。
在生成式AI中,高質量的輸出通常需要依賴大量的上下文信息。企業可以將自己的知識庫(如數據庫或其他知識文檔)與生成式AI結合,通過向上檢索等方式為大語言模型提供輔助能力。這種方法相對簡便,許多企業已經在使用它來構建應用。這就是檢索增強生成(RAG)。
微調技術涉及利用與特定目標任務相關聯的數據對模型進行額外的訓練,目的是提升模型在特定任務上的表現。微調的難度位于預訓練和RAG(檢索增強生成)之間。它適用于多種場景,如角色理解、輸入內容解析以及輸出格式的控制等。
持續預訓練這種方式門檻較高,需要大量的數據。企業需要將日常業務中產生的數據持續輸入到大模型中進行訓練,以適應業務的變化。與從頭開始構建訓練環境不同,持續預訓練是基于現有的大模型進行的。
亞馬遜云科技的Amazon Bedrock產品已經實現了三種關鍵能力,許多客戶正在使用這些能力來訓練他們業務環境下的定制化大模型。關注模型就是關注業務效果,而堅實的數據基礎是成功的關鍵。因此,亞馬遜云科技有一個重要的觀點:無數據、不模型。
AI應用的基石:數據存儲
在AI時代,可以看到存儲解決方案不僅需要承載海量數據,還必須提供足夠的性能,并要有可控的成本。由于多模態模型的流行,數據類型在規模和形態上存在顯著差異,這要求我們擁有強大的數據存儲能力。
陳曉建表示,Amazon S3是亞馬遜云科技最早推出的數據存儲云服務。它已經發展成為一個能夠完全滿足微調或預訓練基礎模型對數據存儲要求的平臺。Amazon S3擁有超過200萬億個對象,每秒處理超過1億次請求。它還提供了細粒度的控制、合規性審計功能和生命周期管理功能,確保數據的安全性和合法使用。Amazon S3也是構建數據湖的理想選擇,亞馬遜云科技上已有超過20萬個數據湖應用。
Amazon S3可支持高效、經濟地大規模數據分析,適用于人工智能、機器學習和高性能計算等多種應用場景。在生成式AI時代,對數據存儲和處理性能的需求日益增長。為了滿足這一需求,亞馬遜云科技還推出了Amazon S3 Express One Zone,這是一項新的服務,能夠實現低于10毫秒級別的快速訪問,許多客戶已經通過這項服務結合他們的業務實現了顯著的性能提升。
AI時代,無服務器架構助企業快速成長
在現代的數據處理環境中,關系型數據庫只是實現向量檢索能力的一種選擇。隨著搜索功能的廣泛應用,各種數據庫類型如關系型、鍵值、圖數據庫和文檔數據庫等都在各自的領域內發揮著重要作用。然而,當涉及到向量檢索時,專門引入一種全新的向量數據庫可能會帶來學習成本、配置新資源的成本以及數據遷移的復雜性。
在當前的觀察中,許多客戶更傾向于在其現有數據庫中集成向量檢索能力,而非引入全新的數據庫系統。這樣做的好處是避免了額外的學習成本、遷移成本和可能的許可費用。同時,數據的集中存儲和管理有助于縮短響應時間,提高性能。
特別是在GenAI(生成式人工智能)時代,快速上線和占領市場成為許多公司的首要目標。因此,為各種數據庫提供向量檢索能力變得尤為重要。這不僅能夠滿足客戶的性能需求,還能確保數據的統一管理和高效檢索。
此外,隨著對快速開發和部署的需求日益增長,Serverless(無服務器)架構方案因其靈活性和成本效益而受到青睞。對于沒有專人進行運維或DBA工作的公司來說,Serverless方案無需預測未來性能需求,也無需進行繁瑣的運維操作。在業務高峰期,它可以自動擴展以滿足需求,而在業務空閑時,又可以自動回收資源以節省成本。
因此,對于當前階段的客戶來說,為各種數據庫提供向量檢索能力和Serverless能力,是滿足其快速開發和部署需求的關鍵。這不僅能夠提高數據處理效率,還可降低運維成本和復雜性,為公司在競爭激烈的市場中贏得先機。
在AI應用落地方面,Amazon Music利用先進的技術分析用戶和歌曲的特征,將這些信息轉化為向量,以此來提升音樂推薦的準確性。通過使用Amazon OpenSearch,Amazon Music成功地將1億首歌曲轉化為向量,并對它們進行了索引,從而為全球用戶提供了實時的音樂推薦服務。
目前,Amazon Music在Amazon OpenSearch中維護著10.5億個向量,并具備處理每秒高達7,100次查詢的能力,有效地支持了其推薦系統的運行。
生成式AI的構建并非易事,它更像是飛輪的結構,需要一個正向循環來推動其發展。為了實現這一目標,企業需要利用多種云服務來構建一個堅實的數據基礎。這樣,企業就能高效、安全地將海量數據與基礎模型結合,創造出具有獨特價值的生成式AI應用程序,滿足最終客戶的需求,并產生更多數據。
隨著這些應用程序的投入使用,它們會產生新的數據,這些數據反過來又能進一步提升模型的準確度。通過持續的微調或預訓練,模型能夠變得更加智能,更具行業專業性,從而為用戶提供更好的體驗。這種不斷循環的正向反饋機制將為企業帶來源源不斷的動力,推動其業務不斷成功。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.