99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

開放表格:大數據已死,亦將永存

0
分享至

去年底的2024 AWS re:Invent大會,新任CEO Matt Garman發布了一眾與AI相關的新服務。在這些新服務中,新的Amazon S3 Tables服務看似不起眼,卻對于未來數據存儲有著深遠影響。

在當時的發布現場,筆者與多位技術專家進行交流,均認為Amazon S3 Tables的發布是以Apache Iceberg為代表的開放表格發展歷程的重要時刻,不僅僅標志著AI時代下基于對象存的開放表格在湖倉一體的霸主地位,更意味著對象存儲作為主存儲的時代正加速到來。

那么,開放表格目前市場情況如何?三大開放表格彼此之間的競爭情況如何?為什么開放表格格式是對象存儲的理想選擇?開放表格的流行為什么會像當初Hadoop的崛起一樣,在未來的AI世界中占據數據分析的霸主地位?

近日,數據庫和數據湖技術專家Brenna Buuck對此進行了深度分析。對此,大數據在線進行編譯與解讀。

開放表格:湖倉一體的關鍵組件

現代化的湖倉一體架構建立在三個關鍵組件之上:存儲層、開放表格式式和計算引擎。

這其中,開放表格格式(Open Table Formats)和對象存儲(Object Storage)正在重新定義構建數據系統的方式,成為可擴展、高效且面向未來的現代化湖倉一體架構的基石。

現代化湖倉一體架構采用模塊化設計,且充分利用對象存儲的可擴展性、靈活性和成本效益等優勢,以及開放表格的高級元數據管理功能和跨不同計算引擎的互操作性,幫助企業與組織滿足現代工作負載的需求。

在存儲層,現代化湖倉一體架構通常采用對象存儲作,以方便存儲結構化、半結構化和非結構化數據。而開放表格則充當元數據抽象層,提供類似數據庫的功能,包括 Schema、分區和版本控制,以及 ACID 事務、Schema 演變和時間旅行等高級功能。最后,Spark、Presto、Trino 和 Dremio 等計算引擎與開放表格式交互,以大規模處理和分析數據,使用戶能夠靈活地選擇最適合其工作負載的工具。


現代化湖倉一體架構的核心設計思路是算和存儲的分解,充分利用對象存儲、開放表格和各種計算引擎進行交互,既滿足大規模處理和分析數據的需求,又具備足夠的靈活性和擴展性,不會受制于供應商。

在AI應用蓬勃發展和高級分析需求日漸增多的大趨勢下,打造現代的湖倉一體架構依然成為企業與組織在數字化轉型中的必選項。

數據架構的演變

企業的數據架構最早要追溯到在線事務處理 (OTLP) 數據庫等早期系統。由于OLTP數據并不具備分析功能,所以在線分析處理 (OLAP) 系統隨后開始出現,針對查詢結構化數據進行優化,但無法有效處理半結構化和非結構化數據。

隨著互聯網、移動互聯網的快速發展,半結構化、非結構化數據成為數據增長的主力軍,如何在數據分析中納入半結構化、非結構化數據就成為很多企業與組織的必須,這推動了數據湖的出現,數據湖為各種數據類型提供可擴展的存儲和 Schema-on-Read 功能,但數據湖也缺乏事務保證。


最終,數據湖與數據倉庫開始走向融合,推動了湖倉一體的數據架構發展,將數據湖和數據倉庫的優勢集中到統一架構之中。Lakehouse 基于開放表格式和對象存儲構建,并且完全解耦,這意味著它們由模塊化組件構成。這種分解式架構既提供了數據庫的事務一致性,又提供了對象存儲的可擴展性。

如果想詳細了解數據倉庫、數據湖、湖倉一體的區別與特點,可以參考大數據在線之前發布的技術稿件《》,技術專家張友東詳細解讀了數據倉庫、數據湖和湖倉一體的演進過程。

為什么開放表格是對象存儲的理想選擇

湖倉一體的數據架構架構經過專門設計,旨在利用對象存儲系統的可擴展性和成本效益,例如 Amazon Web Services (AWS) S3、Google Cloud Storage 和 Azure Blob Storage。這種集成支持在一個統一的平臺中無縫管理各種數據類型(結構化、半結構化和非結構化)。

對象存儲上的數據湖倉一體架構的主要功能包括:

01

統一存儲層:通過利用對象存儲,數據湖倉一體可以以其原生格式存儲大量數據,無需在存儲前進行復雜的數據轉換。這種方法簡化了數據攝取,并實現了與各種數據源的兼容性。

02

可擴展性:對象存儲系統本質上具有可擴展性,使數據湖倉一體能夠容納不斷增長的數據量,而無需對基礎設施進行重大更改。這種可擴展性使組織能夠有效地管理不斷擴大的數據集和不斷變化的分析要求。

03

靈活性:一流的對象存儲可以部署在任何地方 - 本地、私有云、公共云、主機托管設施、數據中心和邊緣。這種靈活性使組織能夠根據特定的運營和地理需求定制其數據基礎設施。

通過集成這些元素,數據湖倉一體架構提供了一個全面的解決方案,結合了數據湖和數據倉庫的優勢。這種設計有助于高效的數據存儲、管理和分析,所有這些都建立在可擴展且靈活的對象存儲系統的基礎上。

開放表格格式的定義

開放表格格式(Open Table Formats)是一種標準化的開源框架,旨在高效管理大規模分析數據集。它作為數據文件之上的元數據層運行,促進跨各種處理引擎的無縫數據管理和訪問。在目前的市場中,主要有以下三種開放表格式(Iceberg、Delta Lake 和 Hudi):

Apache Iceberg

Apache Iceberg 是一種高性能表格格式,專為海量數據集而設計。其架構優先考慮高效的讀取操作和可擴展性,使其成為現代分析工作負載的基石。其定義功能之一是將元數據與數據分離,從而允許基于快照的高效隔離和規劃。這種設計消除了成本高昂的元數據操作,支持跨大型數據集的并行查詢規劃。


Iceberg 生態系統的最新進展凸顯了它在整個行業的日益普及。S3 表使查詢引擎能夠直接訪問存儲在 S3 兼容系統中的表元數據和數據文件,從而減少延遲并提高互操作性,從而簡化數據管理。與此同時,Databricks 對 Tabular 的收購凸顯了 Iceberg 在開放式湖倉一體平臺中的首要作用,并強調了其對性能和治理的關注。

此外,Snowflake 將 Polaris 開源的決定表明了該行業對開放性和互操作性的承諾,進一步鞏固了 Iceberg 作為領先表格格式的地位。

目前Apache Iceberg的主要支持者包括Snowflake、Databricks、Cloudera、Google Cloud、AWS、阿里云、微軟等。

Delta Lake

Delta Lake 最初由 Databricks 開發,與 Apache Spark 密切相關。它與 Spark API 完全兼容,并與 Spark 的結構化流式處理集成,允許批處理和流式處理操作。

Delta Lake 的一個關鍵功能是它使用事務日志來記錄對數據所做的所有更改,從而確保一致的視圖和寫入隔離。此設計支持并發數據操作,使其適用于高吞吐量環境。

目前Delta Lake主要支持者包括Databricks、微軟、SAP等。

Apache Hudi

Apache Hudi 旨在應對實時數據攝取和分析的挑戰,尤其是在需要頻繁更新的環境中。其架構支持用于高效數據攝取的寫入優化存儲 (WOS) 和用于查詢的讀取優化存儲 (ROS),從而實現數據集的最新視圖。


通過逐步處理數據流中的更改,Hudi 促進了大規模實時分析。篩選條件和全局索引等功能可優化 I/O 操作,從而提高查詢和寫入性能。此外,Hudi 還包括用于集群、壓縮和清理的工具,這些工具有助于維護表的組織和性能。它處理記錄級更新和刪除的能力使其成為高速數據流和需要合規性和嚴格數據管理的場景的實用選擇。

目前Apache Hudi主要支持者包括:騰訊云、阿里云、華為云等。

三大開放表格的不同

Apache Iceberg、Delta Lake 和 Apache Hudi 都為數據湖倉一體架構帶來了獨特的優勢。以下是基于主要特征的這些格式的比較概述:

  • ACID 事務:所有三種格式都符合 ACID 要求,確保可靠的數據操作。Iceberg 采用快照隔離來實現事務完整性,Delta Lake 利用事務日志實現一致的視圖和寫入隔離,Hudi 為高并發場景提供文件級并發控制。

  • 架構演變:每種格式都支持架構更改,允許添加、刪除或修改列。Iceberg 提供靈活的架構演變,而無需重寫現有數據,Delta Lake 在運行時強制執行架構以保持數據質量,而 Hudi 提供預提交轉換以提高靈活性。

  • 分區演變:Iceberg 支持分區演變,無需重寫現有數據即可無縫更新分區方案。Delta Lake 允許分區更改,但可能需要手動干預才能獲得最佳性能,而 Hudi 提供精細集群作為傳統分區的替代方案。

  • 時間旅行:這三種格式都提供時間旅行功能,允許用戶查詢歷史數據狀態。此功能對于審計和調試目的非常有用。

  • 廣泛采用:Iceberg 是數據社區最廣泛采用的開放表格式。從 Databricks 到 Snowflake 再到 AWS,許多大型平臺都投資了 Iceberg。如果您已經是這些生態系統的一部分或正在考慮加入它們,那么 Iceberg 可能會自然而然地脫穎而出。

  • 索引:Hudi 提供多模式索引功能,包括 Bloom 過濾器和記錄級索引,可以提高查詢性能。Delta Lake 和 Iceberg 依賴于元數據優化,但不提供相同級別的索引靈活性。

  • 并發和流式處理:Hudi 專為實時分析而設計,具有高級并發控制和內置工具(如 DeltaStreamer)用于增量攝取。Delta Lake 支持通過更改數據源進行流式處理,而 Iceberg 提供基本的增量讀取功能。

這些區別突出表明,雖然這三種格式都為現代數據架構提供了強大的基礎,但最佳選擇取決于特定的工作負載要求和組織需求。

性能預期

在數據湖倉一體架構中實現最佳性能對于充分利用開放表格式的功能至關重要。這種性能取決于存儲層和計算層的效率。

存儲層必須提供低延遲和高吞吐量,以滿足大規模分析需求。對象存儲解決方案應有助于快速訪問數據并支持高速傳輸,即使在高工作負載下也能確保平穩運行。此外,高效的IOPS對于處理大量并發數據請求至關重要,可實現無瓶頸的響應式數據交互。


計算層性能同樣重要,它直接影響數據處理和查詢執行速度。計算引擎必須可擴展,才能在不影響性能的情況下管理不斷增長的數據量和用戶查詢。采用優化的查詢執行計劃和資源管理策略可以進一步提高處理效率。此外,計算引擎需要與開放表格式無縫集成,以充分利用 ACID 事務、架構演變和時間旅行等高級功能。

開放式表格式還包含旨在提高性能的功能。這些也需要正確配置并用于完全優化的堆棧。其中一項功能是高效的元數據處理,其中元數據與數據分開管理,從而可以更快地進行查詢規劃和執行。數據分區將數據組織成子集,通過減少操作期間掃描的數據量來提高查詢性能。對架構演變的支持使表格式能夠適應數據結構的變化,而無需進行大量的數據重寫,從而確保靈活性,同時最大限度地減少處理開銷。

通過關注存儲和計算層的這些性能方面,組織可以確保其數據湖倉一體環境高效、可擴展,并且能夠滿足現代分析和 AI 工作負載的需求。這些考慮因素使開放式表格格式能夠充分發揮其潛力,提供實時洞察和決策所需的高性能。

開放數據湖倉一體和互操作性

數據湖倉一體架構基于開放表格式構建,可提供統一的數據管理方法。但是,實現真正的開放性需要的不僅僅是采用開放的表格格式。開放數據湖倉一體必須集成模塊化、可互操作的開源組件,例如存儲引擎、目錄和計算引擎,以實現跨不同平臺的無縫運行。

開放表格式是開放標準,并且根據其設計,支持整個堆棧的互操作性和開放性。然而,實際挑戰仍然存在,例如確保目錄互操作性和避免依賴專有服務進行表管理。最近推出的 Apache XTable 等工具展示了通用兼容性的進展,為一次編寫、隨處查詢的系統提供了一條途徑。需要注意的是,XTable 不允許你以多種開放的表格格式寫入,只允許讀取。希望未來互操作性的創新將繼續建立在這些項目和其他圍繞開放表格格式的項目之上。

開放表格的未來

隨著數據湖倉一體的不斷發展,一些新的趨勢開始顯現。

一個重要的發展趨勢就是將 AI 和機器學習 (ML) 工作負載直接集成到湖倉一體架構中。對于存儲層,這可能看起來像是與 Hugging Face 和 OpenAI 等關鍵 AI 平臺直接集成的平臺。對于計算層,AI 集成可能會導致創建針對 ML 算法優化的專用計算引擎,從而提高湖倉一體生態系統中訓練和推理過程的效率。


另一個重要的發展領域回是開源社區。當 Databricks、Snowflake 和 AWS 等大型公司開始大展拳腳時,人們很容易忘記開放表格格式是真正的開放標準。Iceberg、Hudi 和 Delta Lake 可供任何貢獻者、協作或集成到開源工具和平臺中。換句話說,它們是充滿活力且不斷發展的開放標準數據生態系統的一部分,開源應用程序、附加組件、目錄和創新等會持續激增。

最后,隨著企業與組織為 AI 和其他高級分析應用構建大規模、高性能的數據湖倉一體,開放表格式的采用率將繼續上升。一些行業專業人士已經將開放表的流行等同于十多年前Hadoop 的崛起,開放表格未來有望實現大數據的霸主地位。隨著Hadoop逐漸走向沒落,開放表格的崛起,正所謂是大數據已死、亦將永存。

大數據在線是聚焦人工智能、大數據、云計算等前沿科技領域深度觀察的深度媒體。目前,大數據在線在微信公眾號、今日頭條號、新浪財經、36氪、雪球號、觀察號等主流自媒體平臺均有入駐,積累粉絲超過20W;并榮獲今日頭條十大科技新銳媒體、商業新知十大人工智能媒體等多項殊榮。商務聯系請添加微信:Owen_Inter,添加請備注具體信息。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
人社部突發:7月31日前,勞務派遣全面整頓,派遣公司將面臨清洗

人社部突發:7月31日前,勞務派遣全面整頓,派遣公司將面臨清洗

詩詞中國
2025-06-16 12:54:02
沈伯洋喊“大陸再好都沒意義” ,館長嗆:你應回家跟你爸爸聊

沈伯洋喊“大陸再好都沒意義” ,館長嗆:你應回家跟你爸爸聊

金牛傳音
2025-06-16 13:40:20
美國關閉GPS,導彈依舊精準轟炸以色列,誰干的?中國還是俄羅斯

美國關閉GPS,導彈依舊精準轟炸以色列,誰干的?中國還是俄羅斯

高山非凡創作
2024-05-09 05:48:13
半場崩盤!亞歷山大15+5統治攻防,哈利受傷+0分,步行者落后14分

半場崩盤!亞歷山大15+5統治攻防,哈利受傷+0分,步行者落后14分

球童無忌
2025-06-17 09:58:30
45歲聶遠帶女兒回老家鎮遠!12歲天天美上熱搜,網友:最美星二代

45歲聶遠帶女兒回老家鎮遠!12歲天天美上熱搜,網友:最美星二代

跳跳歷史
2025-06-16 14:41:49
可能性為零!詹姆斯親承絕不成為教練 此前多次表態想當球隊老板

可能性為零!詹姆斯親承絕不成為教練 此前多次表態想當球隊老板

羅說NBA
2025-06-17 06:25:41
中超2大豪門交易曝光!克雷桑加盟申花,山東泰山得到潛力國腳

中超2大豪門交易曝光!克雷桑加盟申花,山東泰山得到潛力國腳

璞玉話體壇
2025-06-17 07:05:58
茅臺庫存7億瓶,飛天茅臺“塌房”!年輕人不買賬,炒家全套牢

茅臺庫存7億瓶,飛天茅臺“塌房”!年輕人不買賬,炒家全套牢

爆角追蹤
2025-06-16 10:02:34
意外!上海精致白領蜂擁而至,突然開始“自討苦吃”,每年要花上千元,有人直呼:太貴了

意外!上海精致白領蜂擁而至,突然開始“自討苦吃”,每年要花上千元,有人直呼:太貴了

上觀新聞
2025-06-16 22:48:35
以色列上當,被伊朗打下來3架F-35,內塔尼亞胡政府或將走到盡頭

以色列上當,被伊朗打下來3架F-35,內塔尼亞胡政府或將走到盡頭

大道無形我有型
2025-06-16 11:43:38
中美談完,美方還沒喘口氣,中方就亮出長沙宣言,反將美方一軍

中美談完,美方還沒喘口氣,中方就亮出長沙宣言,反將美方一軍

律便利
2025-06-17 09:01:56
你無意中看到了什么不該看的東西?網友:每一個都是炸裂的存在

你無意中看到了什么不該看的東西?網友:每一個都是炸裂的存在

美好客棧大掌柜
2024-11-03 05:55:57
美國出兵了,超過26架加油機正穿越大西洋

美國出兵了,超過26架加油機正穿越大西洋

極目新聞
2025-06-16 15:56:26
“規模空前,大量美國軍機正穿越大西洋”

“規模空前,大量美國軍機正穿越大西洋”

環球時報新聞
2025-06-16 14:31:16
郭濤兒子畢業照曝光:18歲少年帥如年輕版江德福,中戲北電雙錄取

郭濤兒子畢業照曝光:18歲少年帥如年輕版江德福,中戲北電雙錄取

師維
2025-06-14 20:18:51
新帥定了!伊萬下課三天不到,傳出主帥人選的重磅消息

新帥定了!伊萬下課三天不到,傳出主帥人選的重磅消息

寒士之言本尊
2025-06-16 19:07:24
沙溢父親節曬健身照,衣服被汗水打濕,渾身腱子肉,不留胡子真帥

沙溢父親節曬健身照,衣服被汗水打濕,渾身腱子肉,不留胡子真帥

心靜物娛
2025-06-16 10:52:15
凌晨5點!李夢發文,回擊宮魯鳴,徹底撕破臉,最后一句意味深長

凌晨5點!李夢發文,回擊宮魯鳴,徹底撕破臉,最后一句意味深長

三哥搞笑侃球
2025-06-17 08:55:10
那爾那茜被同學送上熱搜,為其發聲大翻車,逆天發言讓網友炸鍋

那爾那茜被同學送上熱搜,為其發聲大翻車,逆天發言讓網友炸鍋

央小北
2025-06-16 16:51:20
李夢事件反轉!宮魯鳴表態,名記9字暗示“不可說”真相!

李夢事件反轉!宮魯鳴表態,名記9字暗示“不可說”真相!

硯底沉香
2025-06-17 02:17:40
2025-06-17 10:36:49
dobigdata incentive-icons
dobigdata
科技推動商業
719文章數 305關注度
往期回顧 全部

科技要聞

為保住200億融資,奧特曼或將引爆"核選項"

頭條要聞

由于中東局勢 特朗普將提前離開G7峰會并返回美國

頭條要聞

由于中東局勢 特朗普將提前離開G7峰會并返回美國

體育要聞

被偷走的世界杯資格 他們用20年搶回來了

娛樂要聞

該管管了!楊坤篡改革命紅歌遭痛批

財經要聞

618國補貼錢反漲價 美的深陷價格魔術漩渦

汽車要聞

2500km續航 風云A9L將于6月25日預售7月上旬上市

態度原創

教育
親子
旅游
家居
公開課

教育要聞

機械專業收入不高,但是就業機會多,未來3個發展方向

親子要聞

孩子想長高別再盲目補鈣,三大誤區要小心!

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

家居要聞

輕奢簡約 大戶型三代之家

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 和平县| 泽普县| 射阳县| 邯郸县| 那坡县| 无锡市| 盐边县| 翁源县| 彭州市| 扎囊县| 南木林县| 循化| 视频| 桐柏县| 包头市| 运城市| 白城市| 黑龙江省| 巴彦县| 二连浩特市| 亳州市| 南雄市| 绥化市| 江城| 乌拉特中旗| 新密市| 浦东新区| 宕昌县| 井研县| 漳平市| 瓦房店市| 屏东县| 且末县| 天门市| 东辽县| 织金县| 栖霞市| 昌江| 南昌市| 灵台县| 清流县|