Ignite實戰( 九 )

2026-05-10 生活百科 Ignite實戰

文章插圖
1.零 ETL 和大規模可擴展性Ignite 機器學習依賴于 Ignite 以內存為中心的存儲，它為 ML 和 DL 任務帶來了巨大的可擴展性，并消除了 ETL 在不同系統之間施加的等待。例如，它允許用戶直接在 Ignite 集群中跨內存和磁盤存儲的數據上運行 ML/DL 訓練和推理。接下來，Ignite 提供了大量針對 Ignite 的并置分布式處理進行優化的 ML 和 DL 算法。當針對大量數據集或增量針對傳入數據流運行時，這些實現提供內存速度和無限的水平可擴展性，而無需將數據移動到另一個存儲中。通過消除數據移動和較長的處理等待時間
2.容錯和持續學習Apache Ignite 機器學習可以容忍節點故障。這意味著在學習過程中出現節點故障的情況下，所有的恢復過程對用戶都是透明的，學習過程不會中斷，我們會在類似于所有節點都正常工作的情況下得到結果。
3.算法和適用性3.1 分類根據訓練集識別新觀察屬于哪個類別。

適用性：垃圾郵件檢測、圖像識別、信用評分、疾病識別。
算法：邏輯回歸、線性 SVM（支持向量機）、k-NN 分類、樸素貝葉斯、決策樹、隨機森林、多層感知器、梯度提升、ANN（近似最近鄰）

3.2 回歸對標量因變量 (y) 與一個或多個解釋變量或自變量 (x) 之間的關系進行建模。

適用性：藥物反應、股票價格、超市收入。
算法：線性回歸、決策樹回歸、k-NN 回歸。

3.3 聚類以這樣一種方式對一組對象進行分組，即同一組（稱為集群）中的對象彼此之間（在某種意義上）比其他組（集群）中的對象更相似。

適用性：客戶細分、實驗結果分組、購物項目分組。
算法： K-Means 聚類、高斯混合 (GMM) 。

3.4 推薦構建推薦系統，它是信息過濾系統的子類，旨在預測用戶對項目的“評分”或“偏好” 。

適用性：視頻和音樂服務的播放列表生成器，服務的產品推薦器
算法：矩陣分解。

3.5 預處理特征提取和歸一化。

適用性：轉換輸入數據（例如文本）以用于機器學習算法，以提取我們需要適應的特征，對輸入數據進行規范化。
算法： Apache Ignite ML 支持使用基于分區的數據集功能進行自定義預處理，并具有默認預處理器，例如規范化預處理器、one-hot-encoder、min-max 縮放器等。

3.總結Ignite和Hadoop解決的是不同業務場景的問題，即使在一定程度上可能應用了類似的底層基礎技術。Ignite是一種多用途，和OLAP/ OLTP內存中數據結構相關的，而Hadoop僅僅是Ignite原生支持的諸多數據來源之一。
Spark是一個和Ignite類似的項目。但是Spark聚焦于OLAP ，而Ignite憑借強大的事務處理能力在混合型的OLTP/ OLAP場景中表現能力更好。特別是針對Hadoop，Ignite將為現有的MapReduce框架，Hive作業提供即插即用模式的加速，避免了推倒重來的做法，而Spark需要先做數據ETL，更適合開發新的分析應用。
4.結束語這篇博客就和大家分享到這里，如果大家在研究學習的過程當中有什么問題，可以加群進行討論或發送郵件給我，我會盡我所能為您解答，與君共勉！
另外，博主出書了《Kafka并不難學》和《Hadoop大數據挖掘從入門到進階實戰》，喜歡的朋友或同學，可以在公告欄那里點擊購買鏈接購買博主的書進行學習，在此感謝大家的支持。關注下面公眾號，根據提示，可免費獲取書籍的教學視頻。

推薦閱讀

上一篇：.net core Blazor+自定義日志提供器實現實時日志查看器

下一篇：【日志系統】Loki日志監控 - 入門初體驗