“OPPO與阿里云的合作,不只是一個項目,而是一個方向。
日益增長的計算和存儲需求,使得越來越多的企業將目光投向——上云。IDC如大陸一樣固定,但是業務的需求,尤其是大數據場景,有著明顯的潮汐模式;云計算的模式猶如海上方舟,任憑潮漲潮落,仍然能從容應對。
將一個龐大且復雜的大數據平臺遷移到云端,遠非簡單的“資源遷移”問題。尤其對于像OPPO這樣的大中型企業來說,涉及到數百PB的數據、近百萬離線計算任務,還要處理不同系統和架構的依賴問題,單純的“lift & shift”(遷移式上云)已經不再適用。
那么,企業的數據平臺為什么要上云?如何上云?需要解決哪些核心挑戰?也許OPPO與阿里云的合作案例,可以給我們帶來一些啟發。
面向未來,
大數據基礎設施上云正在成為共識
大數據平臺上云,正在成為越來越多公司的共識。
過去兩年,這類項目在互聯網、制造、金融等行業已經是常態,但真正推進到數百PB級別的完整數據遷移,并不多見。
OPPO是較早開始這項工程的終端企業之一。決定啟動整個大數據平臺的“搬棧上云”,是因為OPPO意識到,隨著企業的不斷發展壯大,未來的數據體量、任務規模和技術演進路徑,將越來越需要一種全新的基礎設施來支撐。
相比傳統數據中心,云提供的極致彈性資源調度、靈活的存算分離架構以及多維度可觀測能力,是更符合企業中長期演進節奏的選擇。對于OPPO而言,這意味著不需要再為少數高峰業務維持長期過量的算力配置,資源可以根據任務變化在分鐘級完成調度。同時平臺能力從“資源提供”轉為“任務治理”,更多運維規則被固化進系統和策略中。
OPPO和阿里云有多年的合作基礎,雙方在多個系統級項目中已形成協作默契,對阿里云的技術棧和服務交付能力也已經非常熟悉,此次數據搬棧上云,更是雙方協作進行了整個數據平臺資源能力的整合升級,依托阿里云穩定高效的計算、存儲、網絡能力,上云過程充分發揮OPPO大數據基礎架構技術能力。
上云不僅是一個技術問題
很多公司對上云持有一種懷疑的態度,其中一個最關鍵的擔心是:上云后,數據安全是否有保障?OPPO上云前已經對數據安全等級做好分級,高優數據必須加密才可上云,并且,上云數據不涉及用戶數據。另外,阿里云具備工信部信通院頒發的大數據安全評估認證以及可信云安全評估認證,目前已經有多家互聯網公司和一些對數據安全要求最嚴苛的金融公司使用阿里云,說明云上的數據安全保障機制已經得到行業驗證,是值得信賴的。
技術層面看,上云,其中兩部分最為關鍵:海量數據和任務遷移到云上的過程;云上大數據基礎架構建設。
這兩部分決定了上云的進度和穩定性,上云和云上建設方案,需要具備堅實的技術基礎,更重要的是,對集群作業復雜度和云上環境要有清晰的認識。
數百PB數據量,數十萬任務量,涉及公司軟硬件、互聯網服務等多種業務數據,規模大、業務復雜度高。面對上云這個命題,不僅對OPPO大數據本身的技術能力提出考驗,同時也是對阿里云的基礎設施能力的一次考驗。
我們先看一下OPPO在云上大數據基礎架構概覽:
如圖所示,整個實時、離線架構在阿里云的IAAS層,存儲使用阿里云對象存儲OSS,上層的彈性調度、計算引擎、RSS等是OPPO自建。
OPPO是如何做到的
那么,這么難的項目,OPPO和阿里云是如何做成的呢?對于如此體量和復雜度的大數據平臺搬遷,僅靠一個系統或一個團隊并不能完成全鏈條協作。OPPO與阿里云的合作,更像是一次“聯合技術項目”——雙方不是簡單的甲乙方關系,而是在架構目標、任務拆解、問題攻堅上共同推進的團隊。搬遷從一開始就不是“只把數據從A移到B”,而是涉及海量任務、數百PB級數據遷移,為了保證遷移過程中的業務連續性和性能穩定,OPPO承擔了任務識別、架構調整與業務節奏控制,阿里云則在產品能力、底層彈性架構、調度調優等方向提供體系化支撐。
比如在IO調度上,雙方經歷了一個典型“系統級修復”的過程。初期,當一些大任務在云上運行時出現讀寫不均衡、實例打滿等現象,OPPO業務團隊通過內部指標快速定位風險,阿里云則用內核采樣工具追蹤到了IO調度在高吞吐場景下的瓶頸成因。最終通過鏈路優化、架構調整,將最耗資源的任務轉至獨立鏈路,解決了吞吐受限的問題。
還有一個常被提起的協作場景,發生在夜間任務高峰時段。為滿足OPPO快速彈性調度的需求,雙方圍繞ACK組件上線做了多輪優化。從磁盤選型、鏡像緩存策略到操作系統PageSize調整,逐步將節點上線時間從數分鐘縮短至1分鐘內,使得彈性伸縮能真正應用在日常的波峰波谷中,而不僅停留在“理論彈性”。
值得一提的是,雙方在應急處理機制上也建立了快速協同流程。曾有一次規?;瘻y試中,某類任務“水位”陡升,短時間內引發了ACK Coredns的性能瓶頸。OPPO發現問題后,第一時間聯動阿里云技術服務團隊介入,雙方基于實時觀測體系完成診斷,并迅速調整部署架構,異?;謴蜁r間控制在可接受范圍內。這樣的快速反應能力,成為系統級穩定性的保障。
在架構設計上,OPPO與阿里云也選擇了相對一致的“融合平臺”思路:統一的資源調度基座(ACK+倚天ARM)、統一的存儲鏈路(OSS-HDFS+Jindo加速)、統一的可觀測體系(ARMS+CMS+SLS),以及具備趨勢感知的彈性調度機制(Delete Cost+模型預測),共同構建出一個既靈活又可控的云原生調度平臺。這一系列成果的達成,并不依賴某項技術的突破,而是基于雙方在業務理解、架構能力、產品深度上的高匹配程度。OPPO提供了具有工程約束意識的業務拆解邏輯,阿里云則在每一個瓶頸點上提供了穩定的產品與技術服務重保。
這個項目的成功,是兩個團隊在“長期協同”中逐漸建立起的問題共識與節奏同步,是一次面向未來的能力共建。
OPPO正在建設的先進架構
大數據完成上云只是第一步,如何在云上跑得更快、更穩、更省以及更自主,是OPPO大數據團隊接下來要重點攻克的目標。我們先看一下整體架構:
圖:OPPO云上大數據架架構
此前我們提到,OPPO的大數據架構以云上的 Kubernetes(K8s)作為計算資源底座,采用阿里云對象存儲(OSS)作為存儲基礎,并在上層調度與計算引擎層使用了業界主流的開源組件,如YARN、Spark和Flink。
但在這套架構中,還有幾個看似“陌生”的自研組件發揮了關鍵作用:HBO、Curvine Cache 和 MCN。
這些組件分別承擔著什么職責?它們又是如何提升云上大數據平臺能力的?
HBO(History Based Optimizer):顧名思義,這是一款基于歷史任務運行數據的優化器,能夠通過任務運行記錄,智能調整資源參數,提升整體執行效率。
Curvine Cache:基于Rust自研的高性能分布式緩存系統,旨在解決大規模數據處理過程中的 I/O 瓶頸問題。目前已正式開源(見附錄),適用于提升數據訪問速度并降低存儲開銷。
MCN:一個基于HDFS NameNode改造的元數據路由組件,支持與云上對象存儲系統的兼容集成,增強了平臺在云環境下的數據透明遷移能力。
據OPPO介紹,這三個組件從三個維度提升了其云上大數據平臺的能力:
1.更省資源:借助HBO對任務參數的動態優化,有效壓縮云上資源使用。例如,通過任務資源壓實,云上ECS的物理CPU平均利用率可達80%左右。
2.更高穩定性:Curvine提供了高性能的讀寫能力,支持重寫Spark Shuffle的底層邏輯,解決了Spark RSS在云盤下出現的熱點問題,并同時兼容Map Local Shuffle,實現一套方案覆蓋兩種Shuffle模式,提升系統穩定性。
3.更快執行:云上的存算分離架構在一定程度上打破了“大數據移動計算不移動數據”的初心。Curvine作為緩存中間層,在離線計算中承擔熱數據緩存角色,顯著提升了數據讀取速度;在實時計算場景下,也可用于緩存Checkpoint,縮短任務重啟加載時間,加快任務恢復速度,同時還能有效控制OSS的讀請求次數和峰值帶寬成本。
4.更自主:大數據計算基于云上容器化方案實現高可用,核心技術在于大數據所依賴的存儲技術有自有技術能力,如果要保持在云上技術可控自主度,解決不同平臺間數據透明管理是關鍵。
此外,OPPO通過將傳統HDFS的NameNode改造成支持多種對象存儲的元數據節點,既繼承了HDFS在高性能和高可用方面的優勢,又實現了數據的透明化遷移。
這一系列架構增強手段,使得OPPO能夠在云上真正做到算力利用最大化、任務運行更穩定、整體效率更高,并為未來多集群環境下的靈活擴展打下堅實基礎。
這不是一個項目,而是一個方向
需要指出的是,OPPO這次大數據平臺的搬棧上云,不僅是一次系統性遷移工程,也是一次面向未來的基礎設施升級。
從結果看,上云讓任務調度更快了,資源使用更高效了,平臺運維更可觀測了。越來越多企業意識到,數據不只是“一個平臺”,而是“平臺能力的一部分”,必須做好基礎設施的準備。而云原生架構提供的彈性調度、統一資源池和策略化治理,恰恰是這種準備的組成部分。
因此,OPPO的這次搬遷不是終點,而是一個起點:企業如何通過基礎架構調整,為下一代能力體系留出空間。這種空間,不是物理意義上的容量,而是系統演化的余地——當業務需要重構,模型需要上線,鏈路需要重排時,平臺是否能在“不中斷”的前提下完成切換。從IDC到云,從任務調度到策略驅動,從資源使用到能力開放,OPPO選擇的不只是一種部署方式,而是一次架構哲學的轉變。它背后隱含的是一個判斷:未來企業的技術核心,不再是某個系統,而是系統之間能否高效組合與持續演化。
阿里云和OPPO一起做對了什么?
1、阿里云經過多年的技術積累,提供堅實的技術設施支撐,同時,近些年不斷降低云上資源成本,使得云上大規模數據成本逐步接近甚至低于自建IDC,才使得用戶有了將大規模數據存算上云的動機。
2、OPPO主動擁抱云上“技術方舟”,充分利用云上彈性特點,實現降本增效,實現大數據輕量化運營。
也許,這場合作,正預示著行業內大數據上云“奇點"的來臨……
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.