Ignite實戰( 九 )


Ignite實戰

文章插圖
1.零 ETL 和大規模可擴展性Ignite 機器學習依賴于 Ignite 以內存為中心的存儲 , 它為 ML 和 DL 任務帶來了巨大的可擴展性,并消除了 ETL 在不同系統之間施加的等待 。例如 , 它允許用戶直接在 Ignite 集群中跨內存和磁盤存儲的數據上運行 ML/DL 訓練和推理 。接下來,Ignite 提供了大量針對 Ignite 的并置分布式處理進行優化的 ML 和 DL 算法 。當針對大量數據集或增量針對傳入數據流運行時 , 這些實現提供內存速度和無限的水平可擴展性,而無需將數據移動到另一個存儲中 。通過消除數據移動和較長的處理等待時間
2.容錯和持續學習Apache Ignite 機器學習可以容忍節點故障 。這意味著在學習過程中出現節點故障的情況下,所有的恢復過程對用戶都是透明的,學習過程不會中斷,我們會在類似于所有節點都正常工作的情況下得到結果 。
3.算法和適用性3.1 分類根據訓練集識別新觀察屬于哪個類別 。
  • 適用性:垃圾郵件檢測、圖像識別、信用評分、疾病識別 。
  • 算法: 邏輯回歸、線性 SVM(支持向量機)、k-NN 分類、樸素貝葉斯、決策樹、隨機森林、多層感知器、梯度提升、ANN(近似最近鄰)
3.2 回歸對標量因變量 (y) 與一個或多個解釋變量或自變量 (x) 之間的關系進行建模 。
  • 適用性:藥物反應、股票價格、超市收入 。
  • 算法:線性回歸、決策樹回歸、k-NN 回歸 。
3.3 聚類以這樣一種方式對一組對象進行分組,即同一組(稱為集群)中的對象彼此之間(在某種意義上)比其他組(集群)中的對象更相似 。
  • 適用性:客戶細分、實驗結果分組、購物項目分組 。
  • 算法: K-Means 聚類、高斯混合 (GMM) 。
3.4 推薦構建推薦系統,它是信息過濾系統的子類 , 旨在預測用戶對項目的“評分”或“偏好” 。
  • 適用性: 視頻和音樂服務的播放列表生成器,服務的產品推薦器
  • 算法: 矩陣分解 。
3.5 預處理特征提取和歸一化 。
  • 適用性:轉換輸入數據(例如文本)以用于機器學習算法,以提取我們需要適應的特征,對輸入數據進行規范化 。
  • 算法: Apache Ignite ML 支持使用基于分區的數據集功能進行自定義預處理,并具有默認預處理器,例如規范化預處理器、one-hot-encoder、min-max 縮放器等 。
3.總結Ignite和Hadoop解決的是不同業務場景的問題,即使在一定程度上可能應用了類似的底層基礎技術 。Ignite是一種多用途,和OLAP/ OLTP內存中數據結構相關的,而Hadoop僅僅是Ignite原生支持的諸多數據來源之一 。
Spark是一個和Ignite類似的項目 。但是Spark聚焦于OLAP , 而Ignite憑借強大的事務處理能力在混合型的OLTP/ OLAP場景中表現能力更好 。特別是針對Hadoop,Ignite將為現有的MapReduce框架,Hive作業提供即插即用模式的加速,避免了推倒重來的做法,而Spark需要先做數據ETL,更適合開發新的分析應用 。
4.結束語這篇博客就和大家分享到這里,如果大家在研究學習的過程當中有什么問題,可以加群進行討論或發送郵件給我,我會盡我所能為您解答,與君共勉!
另外 , 博主出書了《Kafka并不難學》和《Hadoop大數據挖掘從入門到進階實戰》,喜歡的朋友或同學,可以在公告欄那里點擊購買鏈接購買博主的書進行學習,在此感謝大家的支持 。關注下面公眾號 , 根據提示,可免費獲取書籍的教學視頻 。

推薦閱讀