分享以下大數據處理工具 大數據處理工具有哪些?( 四 )


Apache Griffin官網:http://griffin.apache.org/

分享以下大數據處理工具 大數據處理工具有哪些?

文章插圖
數據質量管理是數據系統中不可或缺的一環,初期的時候我們往往在ETL的各個階段,加入一些簡單的腳本來對生成的數據進行檢查,而Apache Griffin也是一款這樣的產品,它是由eBay開發的一個數據質量監控平臺,后上升為Apache頂級項目 。 它提供了數據校驗和報警的功能,也支持一些參數的可視化展現,相關的配置步驟都可以在Griffin的頁面上完成 。 除了能完成一些最基本最簡單的諸如是否存在異常值的數據檢查,也能完成一些諸如最值、中值的數據統計需求等等,并且提供了專業的圖表報告 。
Apache Zeppelin官網:http://zeppelin.apache.org/
Zeppelin是一款非常方便的在線筆記本,使用體驗有點像Python的Jupyter NoteBook,可以從圖中看到使用者可以在線執行,并繪制簡單的圖表 。 并且Zeppelin有了用戶的概念,使得多人協同工作更加方便 。 Zeppelin支持了非常多的數據源,通過該平臺,可以調用Hive、Cassandra、R、Kylin、Flink、Spark、ElasticSearch、HBase、Python、Shell等等 。
我在使用時出現了Spark連接不穩的情況,需要使用者反復登錄才可以 。 但總之我還是非常喜歡這款工具的 。
Apache Superset官網:http://superset.apache.org/
Superset是一款開源的可視化工具,使用該工具可以方便快速的創建數據Dashboard,同類型的產品還有Redash、Metabase,但調研過后個人還是更喜歡Superset一些 。 不過因為同期引入了Tableau,Superset并沒有在實際項目中使用 。
Tableau官網:https://www.tableau.com/
和介紹的其它軟件不同,Tableau是一款商用軟件,根據購買的賬號數量按年付費,之所以這里提到它,也是因為Tableau在BI領域內的名氣著實有點高 。 Tableau分為Server端和本地客戶端,使用者通過在客戶端上的拖拽,即可快速生成一個數據Dashboard,使得Dashboard的開發工作從開發側下放到了需求方 。 并且Tableau也提供了完備的用戶管理功能,還支持了非常多的數據源 。 商業軟件和開源軟件比起來,無論功能完備性上還是使用體驗上,的確都有明顯的提升 。 我覺得唯一的難度可能就是如何把這個開發維護的工作在需求方落地吧,畢竟它還是有一些學習成本的 。
TPCx-BB官網:http://www.tpc.org/
TPC全稱是事務處理性能委員會,是由數十家公司組成的非盈利性組織,負責訂制各個行業的基準測試規范,阿里巴巴的MaxCompute和OceanBase都參加過該項測試,并取得了非常好的成績 。 TPCx-BB是一個大數據基準測試工具,該工具模擬了一個網上零售的場景,首先工具會先向被測系統中插入預定好的表和數據,然后經過一系列的SQL操作,來對大數據集群的性能進行評估 。 TPC針對不同的被測場景,提供了很多現成的工具,可以供大家下載使用:
http://www.tpc.org/tpc_documents_current_versions/current_specifications5.asp

推薦閱讀