基于 Apache Hudi 極致查詢優化的探索實踐

摘要:本文主要介紹 Presto 如何更好的利用 Hudi 的數據布局、索引信息來加速點查性能 。
本文分享自華為云社區《華為云基于 Apache Hudi 極致查詢優化的探索實踐!》,作者:FI_mengtao 。
背景湖倉一體(LakeHouse)是一種新的開放式架構,它結合了數據湖和數據倉庫的最佳元素 , 是當下大數據領域的重要發展方向 。
華為云早在2020年就開始著手相關技術的預研,并落地在華為云 FusionInsight MRS智能數據湖解決方案中 。
目前主流的三大數據湖組件 Apache Hudi、Iceberg、Delta各有優點 , 業界也在不斷探索選擇適合自己的方案 。
華為湖倉一體架構核心基座是 Apache Hudi,所有入湖數據都通過 Apache Hudi 承載 , 對外通過 HetuEngine(Presto增強版)引擎承擔一站式SQL分析角色,因此如何更好的結合 Presto 和 Hudi 使其查詢效率接近專業的分布式數倉意義重大 。查詢性能優化是個很大的課題,包括索引、數據布局、預聚合、統計信息、引擎 Runtime優化等等 。本文主要介紹 Presto 如何更好的利用 Hudi 的數據布局、索引信息來加速點查性能 。預聚合和統計信息我們將在后續分享 。
數據布局優化大數據分析的點查場景一般都會帶有過濾條件 , 對于這種類型查詢,如果目標結果集很小,理論上我們可以通過一定手段在讀取表數據時大量跳過不相干數據,只讀取很小的數據集,進而顯著的提升查詢效率 。我們可以把上述技術稱之為 DataSkipping 。
好的數據布局可以使相關數據更加緊湊(當然小文件問題也一并處理掉了)是實現 DataSkipping的關鍵一步 。日常工作中合理設置分區字段、數據排序都屬于數據布局優化 。當前主流的查詢引擎 Presto/Spark 都可以對Parquet文件做 Rowgroup 級別過濾,最新版本甚至支持 Page 級別的過濾;選取合適的數據布局方式可以使引擎在讀取上述文件可以利用列的統計信息輕易過濾掉大量 Rowgroup/Page,進而減少IO 。
那么是不是 DataSkipping僅僅依賴數據布局就好了?其實不然 。上述過濾還是要打開表里每一個文件才能完成過濾,因此過濾效果有限,數據布局優化配合 FileSkipping才能更好的發揮效果 。
當我們完成數據布局后,對每個文件的相關列收集統計信息,下圖給個簡單的示例,數據經過排序后寫入表中生成三個文件,指定點查 where a < 10 下圖可以清楚的看出 a < 10的結果集只存在于 parquet1文件中,parquet2/parquet3 中 a 的最小值都比10大,顯然不可能存在結果集,所以直接裁剪掉 parquet2和 parquet3即可 。
基于 Apache Hudi 極致查詢優化的探索實踐

文章插圖
這就是一個簡單 FileSkipping,FileSkipping的目的在于盡最大可能裁剪掉不需要的文件,減少掃描IO,實現 FileSkipping有很多種方式,例如
min-max統計信息過濾、BloomFilter、Bitmap、二級索引等等,每種方式都各有優缺點 , 其中 min-max 統計信息過濾最為常見 , 也是 Hudi/Iceberg/DeltaLake 默認提供的實現方式 。
Apache Hudi核心能力ClusteringHudi早在 0.7.0 版本就已經提供了 Clustering 優化數據布局,0.10.0 版本隨著 Z-Order/Hilbert高階聚類算法加入,Hudi的數據布局優化日趨強大,Hudi 當前提供以下三種不同的聚類方式 , 針對不同的點查場景,可以根據具體的過濾條件選擇不同的策略
基于 Apache Hudi 極致查詢優化的探索實踐

文章插圖
關于 Z-Order、Hilbert 具體原理可以查閱相關Wiki,https://en.wikipedia.org/wiki/Z-order 本文不再詳細贅述 。
Metadata Table(MDT)Metadata Table(MDT):Hudi的元數據信息表,是一個自管理的 Hudi MoR表,位于 Hudi 表的 .hoodie目錄,開啟后用戶無感知 。同樣的 Hudi 很早就支持 MDT,經過不斷迭代 0.12版本 MDT 已經成熟,當前 MDT 表已經具備如下能力
(1)Column_stats/Bloomfilter
上文我們介紹了數據布局優化,接下來說說 Hudi 提供的 FileSkipping能力 。當前 Hudi 支持對指定列收集包括min-max value , null count , total count 在內的統計信息,并且 Hudi 保證這些信息收集是原子性,利用這些統計信息結合查詢引擎可以很好的完成 FileSkipping大幅度減少IO 。BloomFilter是 Hudi 提供的另一種能力 , 當前只支持對主鍵構建 BloomFilter 。BloomFilter判斷不存在就一定不存在的特性 , 可以很方便進行 FileSkipping , 我們可以將查詢條件直接作用到每個文件的 BloomFilter 上,進而過濾點無效的文件,注意 BloomFilter 只適合等值過濾條件例如where a = 10,對于 a > 10這種就無能為力 。

推薦閱讀