漸變維度 使用 Apache Hudi 實現 SCD-2( 五 )

實施過程中需要考慮的幾點

  • 對于現有記錄的每次更新,parquet 文件將在存儲中重新寫入/移動,這可能會影響寫入時的性能
  • 在查詢數據期間,根據代表主要過濾器的屬性對目標表進行分區總是一個更好的主意 。例如:銷售表中的銷售日期,注冊產品目錄的賣家 。上述示例中選擇了 actv_ind ,因為我們希望使其易于解釋并將所有活動記錄保存在一個分區中 。
結論隨著我們持續使用 Apache Hudi 編寫 Spark 應用程序,我們將繼續改進加載數據的策略,上述嘗試只是用 Hudi 實現 SCD-2 功能的一個開始 。

推薦閱讀