基于 Apache Hudi 極致查詢優化的探索實踐( 三 )

最終一共產生了8個文件 , 結合 BloomFilter Skipping掉了7 個,效果非常明顯 。
后續工作后續關于點查這塊工作會重點關注 Bitmap 以及二級索引 。最后總結一下 DataSkipping 中各種優化技術手段的選擇方式 。

  1. Clustering中各種排序方式需要結合 Column statistics 才能達到更好的效果 。
  2. BloomFilter 適合等值條件點查,不需要數據做排序,但是要選擇高基字段,低基字段 BloomFIlter 用處不大;另外超高基也不要選 BloomFilter,產出的 BloomFilter 結果太大 。
點擊關注,第一時間了解華為云新鮮技術~
【基于 Apache Hudi 極致查詢優化的探索實踐】

推薦閱讀