99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

當貨拉拉面臨 AI 轉型,該如何做大數據存儲?

怎么還真有明星坐貨拉拉下班

0
分享至



文|白 鴿

編|王一粟

當月活千萬的APP面臨AI轉型,該怎么做數據存儲?

2013年成立于大灣區的貨運物流App貨拉拉,目前所積累的數據量已達40PB+,在整個行業中屬于中等規模,“我們現在數據量增速也非常快,每一年還會增加幾PB。”貨拉拉大數據專家章嘯說道。

如此龐大數據量,需要一個既能夠穩定、安全,又能夠提高讀寫能力的數據存儲設施。

“自建的穩定性跟云的穩定性相比,還是差一些。”章嘯說道,“所以我們現在基本99%的數據都存儲在云上,不過也保留了一些自建的基礎設施,屬于自建+云服務的混合架構體系。”


貨拉拉大數據專家章嘯

混合架構增加了管理難度,所以找到一朵適合自己業務的云,更加關鍵。

一年多前,貨拉拉將40PB+數據,進行了一次大規模云上遷移,最終遷移目的地,是騰訊云。

用章嘯的話說,這次遷移可謂是“開著飛機換引擎”,但最終結果是好的,0故障完成了40PB+的大數據基建搬遷。

數據遷移一年后,依托騰訊云Data Platform數據平臺解決方案,貨拉拉實現貨運報表產出提前40分鐘,讓任務提速10%。

而這離不開騰訊云Data Platform數據平臺解決方案旗下的兩個拳頭產品:對象存儲COS、元數據加速器MetadataAccelerator。

隨著AI大模型時代的到來,貨拉拉也在積極擁抱AI,但又面臨著新的難題——AI大模型所需要的海量數據頻繁訪問,拉低了整個數據訪問的速度。

那么,AI大模型時代,貨拉拉該如何面對海量數據爆炸式增長的挑戰?這也是所有面臨AI轉型的公司們,共同的難題。

40PB+數據的云上遷移,開著飛機換引擎

12年時間積攢的數據量,貨拉拉將其一次全部遷移到了騰訊云存儲系統架構中,如此大規模的數據遷移,挑戰相當大。

業內皆知,企業積累的海量數據,就是一座尚未被挖掘的“金礦”,數據不光要存起來,更重要的還要能用,才能夠真正發揮數據的價值。

但往往在使用數據的過程中,一方面存在著數據誤刪、數據勒索、機房災難等導致核心數據丟失的情況,另一方面,海量且持續增長的視頻、圖片等非結構化數據,也面臨著存儲成本增加、傳統存儲架構響應慢,難以滿足企業實時調用等需求。

事實上,當前貨拉拉業務規模已經達到超億級文件數量規模,在此規模下,數據存儲需要保障數據可靠性滿足不丟失需求的同時,還需要實現業務高可用,滿足任務執行期間業務不受損。

針對這些問題,貨拉拉已經形成了自建+混合云服務的大數據存儲架構。

在其大數據存儲架構中,底層接入層是采集用戶數據層,將數據采集之后針對不同時效性要求,會經過批處理和流處理等方式,寫入到在線存儲或提供給業務使用。



其中,批計算主要是處理永久存儲在存儲系統中的數據,流計算則處理實時生成的數據,“批處理的部分我們是部署在騰訊云上,其他的塊則在其他云上。”章嘯說道。

另外,針對數據災備可能出現的核心數據丟失問題,貨拉拉打造了兩套體系化的數據災備架構:

一是元初-元數據管理平臺,針對七天內被誤刪的數據,能夠通過多層防護,快速恢復數據;

二是自研災備系統Kirk,針對數據勒索和機房災難,可實現PB級數據災備,并全鏈路災備;

基于這兩套系統的能力,貨拉拉可以實現數據誤刪的100%召回,核心數據100%災備。

“隨著我們與騰訊云的深入合作,最終決定將整個40PB+規模數據都遷移到了騰訊云上。”章嘯說道,“騰訊云Data Platform數據平臺解決方案能夠提供多種能力和服務,不過我們現階段主要使用了底層存儲和元數據加速能力。”



據章嘯介紹,整個數據遷移大概分為幾個步驟:

首先是基于Kirk系統和數據離線開發平臺做數據遷移和任務遷移,會同時在兩朵云中跑任務,跑完之后會自動進行數據對比,防止數據出錯。對比的結果完成后給到業務做驗收。

當整個數據驗收能持續驗收成功,會對整個開發平臺做封網,在當天把整個鏈路跑完后,再次對比數據準確性,確保準確之后,再將所有系統全部切換,從而完成整個云的遷移。

“我們將數據遷移過來一年多,目前沒有出現由于COS這種存儲所導致的問題,真正做到了0故障率,整體的建立過程也非常平穩。”章嘯說道。

AI時代數據大爆炸,存儲的難題怎么解?

企業面臨AI業務的轉型,帶來了許多對數據的新需求。

最近兩年,貨拉拉落地了許多新的AI業務板塊。

“我們現在AI業務主要有ChatBI、AI客服等相關的內容,在AI方面目前跟騰訊合作得很深入。”章嘯說道。

AI應用在進行模型訓練時,對數據的調用需要有高吞吐、低延時。

這就帶來了新的問題——AI數據和傳統大數據混合。

“我們的數據都在騰訊云上,現在存在一些模型訓練的任務,會把整個桶的下行帶寬持續拉滿,這樣會對我們整個離線鏈路的穩定性有很大影響。”章嘯說道。

企業傳統業務的大數據存儲計算需要高穩定性,而AI大模型的數據訓練卻需要高吞吐、大帶寬,兩個數據存儲需求相互搶占資源,又該如何在一個系統架構中實現共存?

“針對這些問題,我們也跟騰訊交流分享了幾次,最后提出了分桶而治,專項優化的解決方案。”章嘯說道,基于騰訊云對象存儲COS,是在底層做了兩個存儲集群,即COS桶1和COS桶2:

COS桶1,專做大數據存儲,上層支撐整個大數據市場相關業務;

COS桶2,則寫入專做AI大模型訓練的數據,上層對應整個AI項目;



基于此,“存儲層按照應用拆分不同桶,僅遷移單個模型下行帶寬下降8%。”章嘯說道,“不過,我們也明顯感受到AI業務對帶寬吞吐的訴求要比大數據大的多,后續也會逐步把AI業務通過這樣的方式遷移過來,再進行專項優化。”

在底層COS存儲設立兩個桶,雖然緩解了大數據和AI大模型數據在使用時對帶寬需求的壓力,但AI大模型數據存儲桶自身,也仍面臨著需要非常高的帶寬吞吐能力。

針對這一問題,貨拉拉正與騰訊云基于數據加速器GooseFS進行探索。

據介紹,騰訊云數據湖存儲GooseFS可支持Tbps級吞吐、千億級元數據規模、單鏈接速度輕松達到 GBps 級別,相比于行業內百兆級規模提升10倍,大模型分發效率10倍躍升。

而實現數據高速調用的背后,GooseFS主要是通過對數據的親和力調度能力,將數據調度到跟計算相關節點更近的本地磁盤上,提供Tbps級的吞吐性能。

“我們用起來體驗感最好的,就是GooseFS的元數據加速能力。”章嘯坦言。

最后,針對跨云的問題,章嘯也表示,目前基于COS的模式進行訓練,可以實現按需配置,“數據將持久化存儲在COS Data Lake中,訓練數據按需通過GooseFS拉取到云上或者IDC計算端,做到一份Dataset,多地訓練。”

可以看到,COS作為云存儲底座,為貨拉拉40PB+的數據提供統一存儲池,能夠提供安全穩定的數據存儲能力,在大幅度提升系統可用性、可靠性等性能的同時,也還可以大幅降低存儲成本。

而GooseFS則提供元數據的數據緩存加速服務,能夠滿足大規模數據處理和訓練對高性能存儲的需求,幫助貨拉拉落地AI應用業務。

數據萬象助力企業,釋放數據價值

隨著企業非結構化數據不斷增長,帶來了AI識別難,處理速度慢等新難題。

為了讓數據的價值能夠釋放,需要在存儲端就開始做預處理。

而騰訊云數據萬象,能夠有效幫助企業解決這一問題。數據萬象,主要包含兩個功能,一個是數據管理Metalnsight,一個是數據處理Data Engine。



Data Engine,就是數據處理,把計算下沉到存儲端,提供大量標準化的圖片、音視頻的處理能力。比如小紅書用戶上傳圖片,它能在數據層就把圖片進行壓縮+裁剪+上水印,在圖片質量不受損的情況,提升圖片訪問性能,保護知識產權。

MetaInsight,通過智能檢索能力為客戶提供一種高效的數據管理服務,它能讓用戶使用自然語言快速檢索海量非結構化數據(圖片、音視頻等)。比如網盤、手機相冊中的“以文搜圖”,之前找照片只能按時間一張張找,現在可以輸入關鍵字直接搜到。

舉個例子,在電商商品搜索中,基于MetaInsight的以圖搜圖功能,用戶在上傳商品圖片后,系統通過特征提取與索引庫中的商品圖進行相似度對比,快速返回同款或相似款商品信息,解決傳統關鍵詞檢索的局限性。

而在AI大模型訓練場景中,MetaInsight 可對海量非結構化數據進行智能預分類,通過語義檢索(如輸入“雨天”“行人穿行”)快速篩選特定場景數據。相比人工標注,該方案能減少70%以上的預處理時間,同時支持跨模態檢索(如圖像+文本描述),幫助企業在數據清洗階段高效構建高質量訓練集。

“因為非結構化數據的日益增長,云存儲平臺一定要有向量化的能力。”章嘯說道,“數據萬象CI,就可以很好的提升對非結構化數據的管控。”

可以看到,AI大模型時代,存儲不再是之前只做數據的倉庫,而是結合一系列數據處理和計算的能力,成為了數據加速運轉的新引擎。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
大瓜!網友曝光李天一出獄后的奇葩現狀,李雙江欲哭無淚啊!

大瓜!網友曝光李天一出獄后的奇葩現狀,李雙江欲哭無淚啊!

麥大人
2025-07-01 13:40:16
1975年,甘肅5個孩子在大佛寺玩,一孩童藏身佛像時發現一道暗門

1975年,甘肅5個孩子在大佛寺玩,一孩童藏身佛像時發現一道暗門

南權先生
2025-07-14 12:01:54
皇馬官宣今夏第4簽:5000萬歐引進22歲A費+簽6年 曼聯喜提1000萬

皇馬官宣今夏第4簽:5000萬歐引進22歲A費+簽6年 曼聯喜提1000萬

風過鄉
2025-07-15 06:10:15
25上海綜評生源分布,最大黑馬又是東昌?!

25上海綜評生源分布,最大黑馬又是東昌?!

王曉愛體彩
2025-07-15 14:04:43
充電寶將迎新國標,安全技術規范擬升級

充電寶將迎新國標,安全技術規范擬升級

澎湃新聞
2025-07-15 17:24:07
日本作品看多了,偶爾看看烏克蘭Marta E的作品,也很不錯

日本作品看多了,偶爾看看烏克蘭Marta E的作品,也很不錯

說真話的小陳
2025-07-15 15:30:25
褲子那里鼓鼓的,當代都市麗人都被女裝做局了

褲子那里鼓鼓的,當代都市麗人都被女裝做局了

網易上流
2025-07-10 09:32:02
甘肅鉛中毒患兒赴上海就醫,醫生初判:排出要20-30年,影響不可逆

甘肅鉛中毒患兒赴上海就醫,醫生初判:排出要20-30年,影響不可逆

犀利辣椒
2025-07-11 12:11:00
面相全變了!再看41歲王珞丹和41歲白百何,才明白兩人"差別"在哪

面相全變了!再看41歲王珞丹和41歲白百何,才明白兩人"差別"在哪

深析古今
2025-03-23 15:52:30
宗慶后3年前就為私生子鋪路,宗馥莉早已亮劍,原配一番話太戳心

宗慶后3年前就為私生子鋪路,宗馥莉早已亮劍,原配一番話太戳心

遠山行客
2025-07-15 19:53:59
從長征到解放戰爭,幾乎不見朱德身影,他憑什么是十大元帥之首?

從長征到解放戰爭,幾乎不見朱德身影,他憑什么是十大元帥之首?

仆街貓歷史
2025-06-10 16:50:41
亞美尼亞突然撤軍了,俄羅斯還來不及調停,形勢已急劇轉變

亞美尼亞突然撤軍了,俄羅斯還來不及調停,形勢已急劇轉變

Ck的蜜糖
2025-07-15 06:29:37
最低12℃!山西省即將迎來雷陣雨、中雨、大到暴雨......

最低12℃!山西省即將迎來雷陣雨、中雨、大到暴雨......

晉圈
2025-07-15 13:10:12
昆明市政協主席楊皕,主動投案

昆明市政協主席楊皕,主動投案

觀察者網
2025-07-15 19:47:00
中國農村未來長啥樣?廣東已經給出了模板,全國統一?

中國農村未來長啥樣?廣東已經給出了模板,全國統一?

興史興談
2025-07-15 16:06:33
600338,控股股東被證監會立案!

600338,控股股東被證監會立案!

證券時報e公司
2025-07-15 22:55:10
震驚!中方向以色列發出最后通牒,局勢將如何發展?

震驚!中方向以色列發出最后通牒,局勢將如何發展?

舞指飛揚
2025-07-12 08:18:58
老兵駐藏9年沒提干,提出退伍后,次日電話被領導打爆

老兵駐藏9年沒提干,提出退伍后,次日電話被領導打爆

蕭竹輕語
2025-07-14 20:33:41
中看不中用!才30來歲,媳婦含淚吐槽自己的老公,沒法過了。

中看不中用!才30來歲,媳婦含淚吐槽自己的老公,沒法過了。

說點真嘞叭
2025-07-02 02:35:34
女子車禍癱瘓男友發聲:三觀不合,她為錢無所不用其極,接受判決

女子車禍癱瘓男友發聲:三觀不合,她為錢無所不用其極,接受判決

娛樂看阿敞
2025-07-11 09:15:04
2025-07-15 23:47:00
光錐智能 incentive-icons
光錐智能
來這里,看千行百業的數字化、智能化。
699文章數 137關注度
往期回顧 全部

科技要聞

英偉達H20解禁,黃仁勛嚇壞平替?

頭條要聞

36歲男子因糖尿病引發心衰去世 23歲妻子:我不會改嫁

頭條要聞

36歲男子因糖尿病引發心衰去世 23歲妻子:我不會改嫁

體育要聞

在中國效力10年,45歲的傳奇外援退役了

娛樂要聞

董璇自曝再婚了!二婚老公被扒是張維伊?

財經要聞

國貨美妝能否脫下“平替”外衣

汽車要聞

六座布局/深淺配色 仰望U8L內飾亮相

態度原創

健康
教育
數碼
親子
軍事航空

呼吸科專家破解呼吸道九大謠言!

教育要聞

讀書聽講座逛展館……北京推出60余場文化閱讀活動豐富學生暑假生活

數碼要聞

榮耀 Earbuds A Pro 耳機發布:49dB 主動降噪,售價 149 元

親子要聞

上海提升兒童就醫便捷性:鼓勵有條件的醫療機構開設夜門診和周末門診

軍事要聞

特朗普所謂"重大聲明"揭曉:對俄加關稅 對烏"送"導彈

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 通山县| 名山县| 石首市| 竹北市| 大荔县| 大兴区| 滁州市| 客服| 萝北县| 大丰市| 锦州市| 哈密市| 阳新县| 景谷| 清新县| 潜山县| 芦山县| 东台市| 惠东县| 安龙县| 晋州市| 余干县| 阆中市| 保德县| 如皋市| 桐乡市| 安泽县| 星座| 巩留县| 临高县| 黑水县| 乡城县| 荥阳市| 桓台县| 平潭县| 榆社县| 边坝县| 焦作市| 辛集市| 南木林县| 都江堰市|