了解大模型機(jī)理的開發(fā)者都知道,數(shù)據(jù)是大模型訓(xùn)練的基礎(chǔ),其質(zhì)量和數(shù)量很大程度上決定了模型的效果。通用大模型的訓(xùn)練數(shù)據(jù),大多來自公域的網(wǎng)絡(luò)開放數(shù)據(jù),一旦碰到垂直領(lǐng)域的細(xì)分場(chǎng)景,模型效果便大打折扣;而垂直大模型則大多由行業(yè)服務(wù)提供商或行業(yè)標(biāo)桿企業(yè)所主導(dǎo),數(shù)據(jù)來源有一定局限性,同時(shí)由于其應(yīng)用場(chǎng)景對(duì)模型效果的要求更加嚴(yán)格,導(dǎo)致模型效果同樣參差不齊。
試想一下,如果把城市、行業(yè)、企業(yè)等的私域數(shù)據(jù)以合法合規(guī)、安全高效、“可用不可見”的方式共享共用,將會(huì)給大模型帶來怎樣的想象空間?
而實(shí)際上,大模型訓(xùn)練只是當(dāng)前數(shù)據(jù)價(jià)值釋放被壓抑的一個(gè)場(chǎng)景,數(shù)據(jù)價(jià)值釋放面臨的挑戰(zhàn)遠(yuǎn)不止于此。
三個(gè)缺乏:數(shù)據(jù)要素價(jià)值釋放的攔路虎
當(dāng)前,數(shù)據(jù)流通的主要形式正在從“內(nèi)循環(huán)”走向“外循環(huán)”。這意味著,基于主體信任的數(shù)據(jù)安全體系被徹底顛覆,安全風(fēng)險(xiǎn)成為數(shù)據(jù)供給與流通利用的首要顧慮。數(shù)據(jù)要素價(jià)值的釋放,其核心在于流通與應(yīng)用的效能,更確切地說,是取決于數(shù)據(jù)要素參與方之間“聯(lián)合加工”的效能。然而由于信任缺失,數(shù)據(jù)價(jià)值釋放面臨“缺乏加工、缺乏融合、缺乏驗(yàn)證”三大行業(yè)難題:
缺乏加工:大量數(shù)據(jù)仍處于毛坯狀態(tài),數(shù)據(jù)缺乏初級(jí)加工和治理;
缺乏融合:數(shù)據(jù)孤島普遍存在,多源數(shù)據(jù)融合難,難以形成高價(jià)值數(shù)據(jù)產(chǎn)品;
缺乏驗(yàn)證:基于業(yè)務(wù)場(chǎng)景的價(jià)值驗(yàn)證缺乏,海量數(shù)據(jù)價(jià)值不明確,難以快速應(yīng)用。
破解“三個(gè)缺乏”的困境,是數(shù)據(jù)要素產(chǎn)業(yè)化、釋放數(shù)據(jù)價(jià)值亟待解決的問題。
2024年11月,國家數(shù)據(jù)局發(fā)布《可信數(shù)據(jù)空間發(fā)展行動(dòng)計(jì)劃(2024-2028年)》,指出到2028年,我國將建成100個(gè)以上可信數(shù)據(jù)空間,形成一批數(shù)據(jù)空間解決方案和最佳實(shí)踐。這是國家層面首次針對(duì)可信數(shù)據(jù)空間這一新型數(shù)據(jù)基礎(chǔ)設(shè)施進(jìn)行的前瞻布局,為數(shù)據(jù)流通破局指明了方向。
在數(shù)據(jù)安全流轉(zhuǎn)上,隱私計(jì)算、數(shù)據(jù)沙箱、區(qū)塊鏈、智能合約等技術(shù)路線和解決方案齊頭并進(jìn),并取得了一定的成效。但在同時(shí)解決數(shù)據(jù)流通與應(yīng)用的“安全、性能、成本”問題上,這些技術(shù)路線和方案各有優(yōu)劣,技術(shù)探索還有很長(zhǎng)的路要走。
三大優(yōu)勢(shì):全鏈路安全、高性能、低成本
4月28日,在第八屆數(shù)字中國建設(shè)峰會(huì)期間,螞蟻密算發(fā)布了業(yè)內(nèi)首個(gè)基于全棧自研密態(tài)計(jì)算技術(shù)體系的密態(tài)可信數(shù)據(jù)空間產(chǎn)品,為數(shù)據(jù)融合利用加工提供全鏈路安全、高性能、低成本的密態(tài)化保障,覆蓋數(shù)據(jù)融合、研發(fā)和產(chǎn)品交付等關(guān)鍵環(huán)節(jié),支撐城市、行業(yè)、企業(yè)等三大場(chǎng)景低門檻建設(shè)可信數(shù)據(jù)空間。
接下來分別解釋一下上面這段話的六個(gè)關(guān)鍵詞。
密態(tài)計(jì)算:密態(tài)計(jì)算是通過整合密碼技術(shù)、可信硬件與系統(tǒng)安全技術(shù)實(shí)現(xiàn)的下一代隱私保護(hù)計(jì)算范式。其中,密碼技術(shù)如同“安全鎖”,通過同態(tài)加密、多方安全計(jì)算等算法對(duì)數(shù)據(jù)進(jìn)行加密處理,確保計(jì)算過程中原始數(shù)據(jù)不暴露;可信硬件構(gòu)建了“保險(xiǎn)箱”式的可信執(zhí)行環(huán)境(TEE),在硬件層面隔離敏感數(shù)據(jù);系統(tǒng)安全技術(shù)則從整體架構(gòu)角度建立防護(hù)體系,三者協(xié)同形成端到端的安全屏障。
全棧自研:密態(tài)計(jì)算作為密態(tài)可信數(shù)據(jù)空間的核心技術(shù),其軟硬件均由螞蟻密算及其產(chǎn)業(yè)生態(tài)伙伴自主研發(fā),涵蓋安全芯片、可信系統(tǒng)軟件棧(安全操作系統(tǒng)、機(jī)密計(jì)算技術(shù)棧)、隱私計(jì)算框架、數(shù)據(jù)流通樞紐等多個(gè)層面。
全鏈路安全:密態(tài)可信數(shù)據(jù)空間基于可信技術(shù)、密碼技術(shù)、安全編程語言等,能夠有效緩解各類軟硬件攻擊,并確保程序運(yùn)行時(shí)安全,安全強(qiáng)度可達(dá)等保四級(jí)水準(zhǔn),提供數(shù)據(jù)匯集、存儲(chǔ)、計(jì)算、研發(fā)、治理到結(jié)果交付的全生命周期保障。
高性能:密態(tài)可信數(shù)據(jù)空間通過運(yùn)用可信根,將原本的跨網(wǎng)交互變?yōu)橥W(wǎng)交互,消除網(wǎng)絡(luò)瓶頸。通過密碼協(xié)議和密態(tài)編譯器的優(yōu)化,消減計(jì)算瓶頸,整體效率大幅提升,實(shí)現(xiàn)PB級(jí)數(shù)據(jù)分鐘級(jí)計(jì)算,為大規(guī)模數(shù)據(jù)處理提供有力支持。
低成本:傳統(tǒng)隱私保護(hù)技術(shù)的成本相比明文計(jì)算動(dòng)輒千倍以上,通過密態(tài)計(jì)算技術(shù)實(shí)現(xiàn)中安全級(jí)數(shù)據(jù)保護(hù)的全程密態(tài)成本,已低于明文分布式計(jì)算的2倍,高安全級(jí)則低于10倍。而通過技術(shù)優(yōu)化和集中化部署基礎(chǔ)設(shè)施,密態(tài)可信數(shù)據(jù)空間產(chǎn)品可顯著降低計(jì)算與運(yùn)維成本,在提供對(duì)標(biāo)等保四級(jí)的安全保障前提下,全鏈路密態(tài)計(jì)算成本可以低于數(shù)據(jù)流通價(jià)值的5%,能夠有效支撐數(shù)據(jù)跨地域跨行業(yè)規(guī)模化的可信流轉(zhuǎn)。
低門檻。星綻可信系統(tǒng)軟件棧、隱語隱私計(jì)算框架等核心組件已全面開源,企業(yè)可快速搭建應(yīng)用。同時(shí),密態(tài)算力支持跨云、集群及單機(jī)等多種部署方式,大幅降低企業(yè)應(yīng)用門檻。
三層架構(gòu):解構(gòu)密態(tài)可信數(shù)據(jù)空間
從螞蟻密態(tài)可信數(shù)據(jù)空間架構(gòu)圖上可以看出,其架構(gòu)可以分為密態(tài)計(jì)算底層技術(shù)體系、可信管控、價(jià)值共創(chuàng)三層。
螞蟻密態(tài)可信數(shù)據(jù)空間產(chǎn)品架構(gòu)圖
密態(tài)計(jì)算底層技術(shù)體系層由芯片級(jí)安全隔離環(huán)境、星綻開源可信系統(tǒng)軟件棧、隱語開源可信隱私保護(hù)計(jì)算框架組成。
螞蟻?zhàn)灾餮邪l(fā)的可信根芯片“Blade”和高性能密碼芯片,實(shí)現(xiàn)了底層安全硬件的國產(chǎn)化。密態(tài)可信數(shù)據(jù)空間基于國產(chǎn)可信根(TPM/TCM)構(gòu)建芯片級(jí)可信執(zhí)行環(huán)境,支持遠(yuǎn)程驗(yàn)證。即使數(shù)據(jù)流出持有方的管控域,持有方仍然能夠依據(jù)可信根對(duì)可信執(zhí)行環(huán)境進(jìn)行驗(yàn)證和管控,無論該設(shè)備部署在什么地方或者由誰來運(yùn)維,實(shí)現(xiàn)了技術(shù)信任的基礎(chǔ)和雛形。
星綻開源可信系統(tǒng)軟件棧包括星綻OS和星綻機(jī)密計(jì)算兩大項(xiàng)目,分別面向通用執(zhí)行環(huán)境和可信執(zhí)行環(huán)境提供安全原生的系統(tǒng)軟件,為云計(jì)算、數(shù)據(jù)可信流通、人工智能等安全攸關(guān)的計(jì)算場(chǎng)景,構(gòu)建安全可信的技術(shù)底座。其中,作為下一代工業(yè)強(qiáng)度的開源通用OS內(nèi)核,星綻OS實(shí)現(xiàn)了NbSP零越安全范式,兼顧性能和安全,采用首創(chuàng)的框內(nèi)核架構(gòu)和新興的Rust編程語言,支持x86和RISC-V等CPU體系架構(gòu),支持將通用算力平滑升級(jí)為密態(tài)算力,實(shí)現(xiàn)可信根與CPU硬件廠商的解耦,以及可信根的自主可控。它不僅能兼容Linux的應(yīng)用程序,還在安全性方面有望大幅領(lǐng)先于Linux和其他現(xiàn)有主流OS,提供了一個(gè)安全高效普適的可信運(yùn)行環(huán)境。
隱語開源可信隱私計(jì)算框架則集成了現(xiàn)有的主流隱私保護(hù)計(jì)算技術(shù),包括可信執(zhí)行環(huán)境、多方安全計(jì)算、聯(lián)邦學(xué)習(xí)、同態(tài)加密等,通過計(jì)算的相互組合有效地支撐了復(fù)雜和大型的計(jì)算任務(wù)。同時(shí),通過支持分層設(shè)計(jì)和開箱即用的隱私保護(hù)數(shù)據(jù)分析、機(jī)器學(xué)習(xí)功能,有效降低了開發(fā)者應(yīng)用的技術(shù)門檻。
可信管控層基于密態(tài)計(jì)算底層技術(shù)底座,由Spark等眾多工具組成,實(shí)現(xiàn)了數(shù)據(jù)匯聚、算力調(diào)度、跨域管控、分布式可信身份、全鏈路可信審計(jì)等能力,為大數(shù)據(jù)、大模型提供全流程數(shù)據(jù)信任管控,確保任何參與方均無法在授權(quán)范圍外竊取或?yàn)E用數(shù)據(jù),為數(shù)據(jù)提供方提供全鏈路的安全保障。
“這些數(shù)據(jù)加工工具軟件并不是由螞蟻密算從頭自研的,而是基于行業(yè)最常用的開源工具軟件在密態(tài)可信數(shù)據(jù)空間軟硬件基礎(chǔ)設(shè)施上做了密態(tài)化適配或者易用性提升。螞蟻密算的終極目標(biāo)是讓終端用戶在使用過程中感知不到密算的存在,放心使用和共享數(shù)據(jù)。”螞蟻密算CEO王磊這樣解釋。
在可信管控層之上的價(jià)值共創(chuàng)層,密態(tài)可信數(shù)據(jù)空間以“空間連接器+密態(tài)樞紐平臺(tái)”構(gòu)建了基于密鑰管控的虛擬數(shù)字空間邊界,即“密態(tài)管控域”。多方的密態(tài)管控域可以高效融合,同時(shí)不喪失各自的管控能力,從而形成一個(gè)可同時(shí)被多方信任的數(shù)據(jù)融合加工域,支持多場(chǎng)景、多源數(shù)據(jù)的密態(tài)研發(fā),支持多方開展聯(lián)合加工與價(jià)值驗(yàn)證。
從這三層架構(gòu)看下來,螞蟻密算希望構(gòu)建一套數(shù)據(jù)領(lǐng)域的包括芯片、操作系統(tǒng)、計(jì)算引擎在內(nèi)的基礎(chǔ)軟硬件環(huán)境。
三份底氣:長(zhǎng)期堅(jiān)持、開源開放、生態(tài)協(xié)同
追根溯源,螞蟻密態(tài)計(jì)算的布局,始于2016年起在隱私保護(hù)計(jì)算技術(shù)領(lǐng)域的持續(xù)投入。經(jīng)過近十年的堅(jiān)持,螞蟻目前在新興隱私保護(hù)計(jì)算領(lǐng)域的專利數(shù)全球第一、累計(jì)超1200件,發(fā)表相關(guān)國際頂級(jí)學(xué)術(shù)會(huì)議/期刊論文50多篇,主導(dǎo)9項(xiàng)國際標(biāo)準(zhǔn),并多次獲得國家級(jí)會(huì)議獎(jiǎng)項(xiàng)。
2024年,螞蟻集團(tuán)宣布了未來十年的科技戰(zhàn)略,將聚焦人工智能和數(shù)據(jù)要素技術(shù),并成立獨(dú)立運(yùn)營的螞蟻密算作為數(shù)據(jù)要素戰(zhàn)略的實(shí)施主體,提供密態(tài)可信數(shù)據(jù)空間等密態(tài)計(jì)算相關(guān)產(chǎn)品和服務(wù),助力數(shù)據(jù)安全可信流通體系的建設(shè)。
前面提到,螞蟻密態(tài)可信數(shù)據(jù)空間的建設(shè),相當(dāng)于芯片、操作系統(tǒng)、計(jì)算引擎等各自領(lǐng)域一家企業(yè)在做的事情,其難度可想而知。螞蟻也深知這一點(diǎn)。
因此,“密態(tài)可信數(shù)據(jù)空間,從一開始就是要做平臺(tái),而且是開源開放的平臺(tái)、生態(tài)共建的平臺(tái),以基礎(chǔ)技術(shù)開源社區(qū)的建設(shè)與產(chǎn)學(xué)研協(xié)同發(fā)展,促進(jìn)螞蟻密態(tài)可信數(shù)據(jù)空間的繁榮。”螞蟻集團(tuán)副總裁兼首席技術(shù)安全官、螞蟻密算董事長(zhǎng)韋韜表示。
星綻可信系統(tǒng)軟件棧在2024年10月由中關(guān)村實(shí)驗(yàn)室、螞蟻集團(tuán)、北京大學(xué)、南方科技大學(xué)等產(chǎn)學(xué)研機(jī)構(gòu)聯(lián)合向全球開發(fā)者開源;隱語可信隱私計(jì)算框架則早在2022年7月就對(duì)外開源,以安全、開放為核心設(shè)計(jì)理念,支持MPC、FL、TEE等主流隱私計(jì)算技術(shù),融合產(chǎn)學(xué)研生態(tài)共創(chuàng)能力。
由此,在成立不到一年的時(shí)間里面,螞蟻密算已支持杭州建立全國首個(gè)密態(tài)計(jì)算中心,為江西省建立數(shù)據(jù)匯聚流通基礎(chǔ)設(shè)施平臺(tái)提供技術(shù)支持。在本屆數(shù)字中國建設(shè)峰會(huì)期間,螞蟻密算還聯(lián)合浙江大學(xué)、公安三所、福建省大數(shù)據(jù)集團(tuán)、數(shù)字福州集團(tuán)、福州金控集團(tuán)、華為計(jì)算、中國聯(lián)合數(shù)據(jù)、興業(yè)銀行、海峽銀行等產(chǎn)業(yè)鏈上下游機(jī)構(gòu),發(fā)起“可信數(shù)據(jù)流通應(yīng)用產(chǎn)業(yè)鏈共建行動(dòng)”。
數(shù)據(jù)產(chǎn)業(yè)繼續(xù)發(fā)展需要破解“數(shù)據(jù)要素市場(chǎng)化配置改革”這一世界難題,也需要匹配的基礎(chǔ)設(shè)施實(shí)現(xiàn)數(shù)據(jù)價(jià)值安全高效地共享共用。正如韋韜表示,產(chǎn)業(yè)實(shí)踐中依然挑戰(zhàn)嚴(yán)峻,數(shù)據(jù)流通面臨多方位的安全威脅,高價(jià)值高敏感數(shù)據(jù)跨主體融合利用困難,這在很大程度上限制了人工智能等前沿技術(shù)的產(chǎn)業(yè)應(yīng)用。
“我們相信,通過持續(xù)攻克核心技術(shù)、推動(dòng)產(chǎn)業(yè)創(chuàng)新應(yīng)用落地、建設(shè)數(shù)據(jù)標(biāo)準(zhǔn)、優(yōu)化審批流程、釋放政策紅利等多重因素的共同作用,有望在數(shù)據(jù)價(jià)值釋放這一全球性挑戰(zhàn)上,創(chuàng)造出新的中國實(shí)踐。”韋韜說。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.