彈性分布式數據集 RDD及常用算子

2026-05-09 生活百科

RDD(彈性分布式數據集)及常用算子RDD（Resilient Distributed Dataset）叫做彈性分布式數據集，是 Spark 中最基本的數據
處理模型。代碼中是一個抽象類，它代表一個彈性的、不可變、可分區、里面的元素可并行
計算的集合。
彈性

存儲的彈性：內存與磁盤的自動切換；
容錯的彈性：數據丟失可以自動恢復；
計算的彈性：計算出錯重試機制；
分片的彈性：可根據需要重新分片。

【彈性分布式數據集 RDD及常用算子】分布式：數據存儲在大數據集群不同節點上
數據集：RDD 封裝了計算邏輯，并不保存數據
數據抽象：RDD 是一個抽象類，需要子類具體實現
不可變：RDD 封裝了計算邏輯，是不可以改變的，想要改變，只能產生新的 RDD，在

新的 RDD 里面封裝計算邏輯

可分區、并行計算
五大特性:A list of partitionsA function for computing each splitA list of dependencies on other RDDsOptionally, a Partitioner for key-value RDDsOptionally, a list of preferred locations to compute each split on

彈性分布式數據集 RDD及常用算子

文章插圖
基礎編程RDD 創建從集合中創建 RDD，Spark 主要提供了兩個方法：parallelize 和 makeRDD

val conf = new SparkConf().setMaster("local").setAppName("spark")val sc = new SparkContext(conf)val rdd1 = sc.parallelize( List(1,2,3,4))val rdd2 = sc.makeRDD( List(1,2,3,4))rdd1.collect().foreach(println)rdd2.collect().foreach(println)sc.stop()

從外部存儲（文件）創建 RDD

val conf = new SparkConf().setMaster("local").setAppName("spark")val sc = new SparkContext(conf)val fileRDD: RDD[String] = sc.textFile("input")fileRDD.collect().foreach(println)sc.stop()

RDD 轉換算子RDD 根據數據處理方式的不同將算子整體上分為 Value 類型、雙 Value 類型和 Key-Value
類型

/*** 在Spark所有的操作可以分為兩類：* 1、Transformation操作（算子）* 2、Action操作（算子）** 轉換算子是懶執行的，需要由Action算子觸發執行* 每個Action算子會觸發一個Job** Spark的程序的層級劃分：* Application --> Job --> Stage --> Task** 怎么區分Transformation算子和Action算子？* 看算子的返回值是否還是RDD，如果是由一個RDD轉換成另一個RDD，則該算子是轉換算子* 如果由一個RDD得到其他類型（非RDD類型或者沒有返回值），則該算子是行為算子** 在使用Spark處理數據時可以大體分為三個步驟：* 1、加載數據并構建成RDD* 2、對RDD進行各種各樣的轉換操作，即調用轉換算子* 3、使用Action算子觸發Spark任務的執行*/

map算子

/*** map算子：轉換算子* 需要接受一個函數f* 函數f：參數的個數只有一個，類型為RDD中數據的類型 => 返回值類型自己定義* 可以將函數f作用在RDD中的每一條數據上 ， 需要函數f必須有返回值，最終會得到一個新的RDD* 傳入一條數據得到一條數據*/	def main(args: Array[String]): Unit = {val conf: SparkConf = new SparkConf()conf.setAppName("Demo03map")conf.setMaster("local")val sc: SparkContext = new SparkContext(conf)val linesRDD: RDD[String] = sc.textFile("Spark/data/words.txt")linesRDD.map(line => {println("執行了map方法")line}).foreach(println)linesRDD.map(line => {println("執行了map方法")line}).foreach(println)linesRDD.map(line => {println("執行了map方法")line}).foreach(println)linesRDD.map(line => {println("執行了map方法")line}).foreach(println)List(1,2,3,4).map(line=>{println("List的map方法不需要什么Action算子觸發")line})}

flatMap:轉換算子

def main(args: Array[String]): Unit = {/*** flatMap:轉換算子* 同map算子類似 ， 只不過所接受的函數f需要返回一個可以遍歷的類型* 最終會將函數f的返回值進行展開（扁平化處理），得到一個新的RDD* 傳入一條數據 會得到 多條數據*/val conf: SparkConf = new SparkConf()conf.setAppName("Demo04flatMap")conf.setMaster("local")val sc: SparkContext = new SparkContext(conf)// 另一種構建RDD的方式：基于Scala本地的集合例如Listval intRDD: RDD[Int] = sc.parallelize(List(1, 2, 3, 4, 5))intRDD.foreach(println)val strRDD: RDD[String] = sc.parallelize(List("java,java,scala", "scala,scala,python", "python,python,python"))strRDD.flatMap(_.split(",")).foreach(println)}

filter:轉換算子

def main(args: Array[String]): Unit = {/*** filter:轉換算子* 用于過濾數據，需要接受一個函數f* 函數f：參數只有一個，類型為RDD中每一條數據的類型 => 返回值類型必須為Boolean* 最終會基于函數f返回的Boolean值進行過濾，得到一個新的RDD* 如果函數f返回的Boolean為true則保留數據* 如果函數f返回的Boolean為false則過濾數據*/val conf: SparkConf = new SparkConf()conf.setAppName("Demo05filter")conf.setMaster("local")val sc: SparkContext = new SparkContext(conf)val seqRDD: RDD[Int] = sc.parallelize(1 to 100, 4)println(seqRDD.getNumPartitions) // getNumPartitions并不是算子，它只是RDD的一個屬性//seqRDD.foreach(println)// 將奇數過濾出來seqRDD.filter(i => i % 2 == 1).foreach(println)// 將偶數過濾出來seqRDD.filter(i => i % 2 == 0).foreach(println)}
上一頁
1
2
3
4
下一頁
		  	

    
    




    
    
    


推薦閱讀

           
                  
              
                  李廣的生平事跡 李廣人物介紹 
                
                   
                
              
            

                  
              
                  四個木念什么 四個木念什么呀 
                
                   
                
              
            

                  
              
                  淡豆豉煮水喝有什么作用與功效 淡豆豉煮水喝有什么作用 
                
                   
                
              
            

                  
              
                  2021年正月初六出生的寶寶名字如何取,簡約大氣旺生肖 
                
                   
                
              
            

                  
              
                  關于跑跑姜餅人簡述 跑跑姜餅人 
                
                   
                
              
            

                  
              
                  交通事故索賠需要準備哪些誤工費證據 
                
                   
                
              
            

                  
              
                  報考的c1考了科目一可以改成c2嗎 報的是c1,考了科一,想換成c2可以不 
                
                   
                
              
            

                  
              
                  當一個女人不愛你了會有什么表現 
                
                   
                
              
            

                  
              
                  職場女強人的星座女巨蟹女 
                
                   
                
              
            

                  
              
                  宋媽后來怎么樣了 宋媽后來怎樣了 
                
                   
                
              
            

                  
              
                  2006年屬狗的是什么命五行屬什么 
                
                   
                
              
            

                  
              
                  知名女星李羲兒車禍縫54針！一臉血跡躺倒在地，車子翻轉掉落田溝 ... 
                
                   
                
              
            

                  
              
                  保衛蘿卜深海16攻略 保衛蘿卜深海攻略2關 
                
                   
                
              
            

                  
              
                  平凡的世界讀書心得初二優秀作文700字 
                
                   
                
              
            

                  
              
                  光遇12月3日復刻旅行先祖兌換物品要多少蠟燭,高手進階 
                
                   
                
              
            

                  
              
                  vivox21耗電快怎么辦 vivox21耗電快怎么解決 
                
                   
                
              
            

                  
              
                  關于閃長巖簡述 閃長巖 
                
                   
                
              
            

                  
              
                  飛機托運酒水規定2022 國內飛機能帶酒嗎？ 
                
                   
                
              
            

                  
              
                  造夢西游4手機版龍幣怎么得到 
                
                   
                
              
            

                  
              
                  今日查詢價格3011元，今日查詢價格3011元寶？ 
                
                   
                
              
            

          

Redis系列8：Bitmap實現億萬級數據計算 

數據科學學習手札146 geopandas中拓撲非法問題的發現、診斷與修復 

小樣本利器4. 正則化+數據增強 Mixup Family代碼實現 

python3使用libpcap庫進行抓包及數據處理 

分布式ID生成方案總結整理 

Python數據分析：實用向 

.NET API 接口數據傳輸加密最佳實踐 

SQL分層查詢 

京東云開發者｜京東云RDS數據遷移常見場景攻略 

華為手機怎么連接電腦方法（華為usb數據線接電腦)


          
    
      上一篇：沒有了 
      下一篇：webRTC demo


    
      
        更多...
        
          
               
            
              webRTC demo
            
          

               
            
              彈性分布式數據集 RDD及常用算子
            
          

               
            
              精簡docker的導出鏡像
            
          

               
            
              二 【性能測試】Loadrunner12.55-飛機訂票系統-腳本錄制
            
          

               
            
              Workflow，要不要了解一下
            
          

               
            
              蘋果iOS App上架流程，非iOS開發人員上架教程
            
          

               
            
              PyGame做了一個掃雷
            
          

               
            
              含源碼 【YOLOv5】手把手教你使用LabVIEW ONNX Runtime部署 TensorRT加速，實現YOLOv5實時物體識別
            
          

               
            
              天地劫：幽城再臨魔化皇甫申的技能是什么
            
          

               
            
              迷你世界9月4日禮包兌換方式



  
    
       
      
        
          生活百科
        
        
          Copyright © 2017-2022 浙江龍網 京ICP備14049044號-12