彈性分布式數據集 RDD及常用算子( 二 ) _生活百科

sample：轉換算子def main(args: Array[String]): Unit = {/*** sample：轉換算子* 用于對數據進行取樣* 總共有三個參數：* withReplacement：有無放回* fraction：抽樣的比例（這個比例并不是精確的，因為抽樣是隨機的）* seed：隨機數種子*/val conf: SparkConf = new SparkConf()conf.setAppName("Demo06sample")conf.setMaster("local")val sc: SparkContext = new SparkContext(conf)val stuRDD: RDD[String] = sc.textFile("Spark/data/students.txt")stuRDD.sample(withReplacement = false, 0.1).foreach(println)// 如果想讓每次抽樣的數據都一樣，則可以將seed進行固定stuRDD.sample(withReplacement = false, 0.01, 10).foreach(println)}mapValues：轉換算子def main(args: Array[String]): Unit = {/*** mapValues：轉換算子* 同map類似，只不過mapValues需要對KV格式的RDD的Value進行遍歷處理*/val conf: SparkConf = new SparkConf()conf.setAppName("Demo07mapValues")conf.setMaster("local")val sc: SparkContext = new SparkContext(conf)val kvRDD: RDD[(String, Int)] = sc.parallelize(List("k1" -> 1, "k2" -> 2, "k3" -> 3))// 對每個Key對應的Value進行平方kvRDD.mapValues(i => i * i).foreach(println)// 使用map方法實現kvRDD.map(kv => (kv._1, kv._2 * kv._2)).foreach(println)}join:轉換算子def main(args: Array[String]): Unit = {/*** join:轉換算子* 需要作用在兩個KV格式的RDD上，會將相同的Key的數據關聯在一起*/val conf: SparkConf = new SparkConf()conf.setAppName("Demo08join")conf.setMaster("local")val sc: SparkContext = new SparkContext(conf)// 加載學生數據，并轉換成KV格式，以ID作為Key，其他數據作為Valueval stuKVRDD: RDD[(String, String)] = sc.textFile("Spark/data/students.txt").map(line => {val id: String = line.split(",")(0)// split 指定分割符切分字符串得到Array// mkString 指定拼接符將Array轉換成字符串val values: String = line.split(",").tail.mkString("|")(id, values)})// 加載分數數據，并轉換成KV格式，以ID作為Key，其他數據作為Valueval scoKVRDD: RDD[(String, String)] = sc.textFile("Spark/data/score.txt").map(line => {val id: String = line.split(",")(0)val values: String = line.split(",").tail.mkString("|")(id, values)})// join : 內連接val joinRDD1: RDD[(String, (String, String))] = stuKVRDD.join(scoKVRDD)//joinRDD1.foreach(println)//stuKVRDD.leftOuterJoin(scoKVRDD).foreach(println)//stuKVRDD.rightOuterJoin(scoKVRDD).foreach(println)stuKVRDD.fullOuterJoin(scoKVRDD).foreach(println)}union：轉換算子，用于將兩個相類型的RDD進行連接def main(args: Array[String]): Unit = {// union：轉換算子，用于將兩個相類型的RDD進行連接val conf: SparkConf = new SparkConf()conf.setAppName("Demo09union")conf.setMaster("local")val sc: SparkContext = new SparkContext(conf)val stuRDD: RDD[String] = sc.textFile("Spark/data/students.txt")val sample01RDD: RDD[String] = stuRDD.sample(withReplacement = false, 0.01, 1)val sample02RDD: RDD[String] = stuRDD.sample(withReplacement = false, 0.01, 1)println(s"sample01RDD的分區數：${sample01RDD.getNumPartitions}")println(s"sample02RDD的分區數：${sample02RDD.getNumPartitions}")// union 操作最終得到的RDD的分區數等于兩個RDD分區數之和println(s"union后的分區數：${sample01RDD.union(sample02RDD).getNumPartitions}")val intRDD: RDD[Int] = sc.parallelize(List(1, 2, 3, 4, 5))//sample01RDD.union(intRDD) // 兩個RDD的類型不一致無法進行union// union 等同于SQL中的union allsample01RDD.union(sample02RDD).foreach(println)// 如果要進行去重即等同于SQL中的union 則可以在 union后再進行distinctsample01RDD.union(sample02RDD).distinct().foreach(println)}groupBy：按照某個字段進行分組def main(args: Array[String]): Unit = {/*** groupBy：按照某個字段進行分組*/val conf: SparkConf = new SparkConf()conf.setAppName("Demo10groupBy")conf.setMaster("local")val sc: SparkContext = new SparkContext(conf)val stuRDD: RDD[String] = sc.textFile("Spark/data/students.txt")// 統計班級人數stuRDD.groupBy(s => s.split(",")(4)).map(kv => s"${kv._1},${kv._2.size}").foreach(println)}groupByKey：轉換算子，需要作用在KV格式的RDD上 def main(args: Array[String]): Unit = {/*** groupByKey：轉換算子，需要作用在KV格式的RDD上*/val conf: SparkConf = new SparkConf()conf.setAppName("Demo11groupByKey")conf.setMaster("local")val sc: SparkContext = new SparkContext(conf)val stuRDD: RDD[String] = sc.textFile("Spark/data/students.txt")// 使用groupByKey統計班級人數// 將學生數據變成KV格式的RDD，以班級作為Key，1作為Valueval clazzKVRDD: RDD[(String, Int)] = stuRDD.map(s => (s.split(",")(4), 1))val grpRDD: RDD[(String, Iterable[Int])] = clazzKVRDD.groupByKey()grpRDD.map(kv => s"${kv._1},${kv._2.size}").foreach(println)}reduceByKey：轉換算子，需要作用在KV格式的RDD上，不僅能實現分組，還能實現聚合def main(args: Array[String]): Unit = {/*** reduceByKey：轉換算子，需要作用在KV格式的RDD上，不僅能實現分組，還能實現聚合* 需要接受一個函數f* 函數f：兩個參數，參數的類型同RDD的Value的類型一致，最終需要返回同RDD的Value的類型一致值* 實際上函數f可以看成一個聚合函數* 常見的聚合函數（操作）：max、min、sum、count、avg* reduceByKey可以實現Map端的預聚合，類似MR中的Combiner* 并不是所有的操作都能使用預聚合，例如avg就無法實現*/val conf: SparkConf = new SparkConf()conf.setAppName("Demo11groupByKey")conf.setMaster("local")val sc: SparkContext = new SparkContext(conf)val stuRDD: RDD[String] = sc.textFile("Spark/data/students.txt")// 使用reduceByKey統計班級人數// 將學生數據變成KV格式的RDD ，以班級作為Key，1作為Valueval clazzKVRDD: RDD[(String, Int)] = stuRDD.map(s => (s.split(",")(4), 1))clazzKVRDD.reduceByKey((i1: Int, i2: Int) => i1 + i2).foreach(println)// 簡寫形式clazzKVRDD.reduceByKey((i1, i2) => i1 + i2).foreach(println)clazzKVRDD.reduceByKey(_ + _).foreach(println)}


上一頁
1
2
3
4
下一頁
		  	

    
    




    
    
    


推薦閱讀

           
                  
              
                  報考的c1考了科目一可以改成c2嗎 報的是c1,考了科一,想換成c2可以不 
                
                   
                
              
            

                  
              
                  淡豆豉煮水喝有什么作用與功效 淡豆豉煮水喝有什么作用 
                
                   
                
              
            

                  
              
                  李廣的生平事跡 李廣人物介紹 
                
                   
                
              
            

                  
              
                  關于跑跑姜餅人簡述 跑跑姜餅人 
                
                   
                
              
            

                  
              
                  保衛蘿卜深海16攻略 保衛蘿卜深海攻略2關 
                
                   
                
              
            

                  
              
                  光遇12月3日復刻旅行先祖兌換物品要多少蠟燭,高手進階 
                
                   
                
              
            

                  
              
                  宋媽后來怎么樣了 宋媽后來怎樣了 
                
                   
                
              
            

                  
              
                  四個木念什么 四個木念什么呀 
                
                   
                
              
            

                  
              
                  當一個女人不愛你了會有什么表現 
                
                   
                
              
            

                  
              
                  職場女強人的星座女巨蟹女 
                
                   
                
              
            

                  
              
                  平凡的世界讀書心得初二優秀作文700字 
                
                   
                
              
            

                  
              
                  vivox21耗電快怎么辦 vivox21耗電快怎么解決 
                
                   
                
              
            

                  
              
                  飛機托運酒水規定2022 國內飛機能帶酒嗎？ 
                
                   
                
              
            

                  
              
                  2006年屬狗的是什么命五行屬什么 
                
                   
                
              
            

                  
              
                  關于閃長巖簡述 閃長巖 
                
                   
                
              
            

                  
              
                  知名女星李羲兒車禍縫54針！一臉血跡躺倒在地，車子翻轉掉落田溝 ... 
                
                   
                
              
            

                  
              
                  造夢西游4手機版龍幣怎么得到 
                
                   
                
              
            

                  
              
                  今日查詢價格3011元，今日查詢價格3011元寶？ 
                
                   
                
              
            

                  
              
                  2021年正月初六出生的寶寶名字如何取,簡約大氣旺生肖 
                
                   
                
              
            

                  
              
                  交通事故索賠需要準備哪些誤工費證據 
                
                   
                
              
            

          

Redis系列8：Bitmap實現億萬級數據計算 

數據科學學習手札146 geopandas中拓撲非法問題的發現、診斷與修復 

小樣本利器4. 正則化+數據增強 Mixup Family代碼實現 

python3使用libpcap庫進行抓包及數據處理 

分布式ID生成方案總結整理 

Python數據分析：實用向 

.NET API 接口數據傳輸加密最佳實踐 

SQL分層查詢 

京東云開發者｜京東云RDS數據遷移常見場景攻略 

華為手機怎么連接電腦方法（華為usb數據線接電腦)

彈性分布式數據集 RDD及常用算子( 二 )

推薦閱讀

報考的c1考了科目一可以改成c2嗎報的是c1,考了科一,想換成c2可以不

淡豆豉煮水喝有什么作用與功效淡豆豉煮水喝有什么作用

李廣的生平事跡李廣人物介紹

關于跑跑姜餅人簡述跑跑姜餅人

保衛蘿卜深海16攻略保衛蘿卜深海攻略2關

光遇12月3日復刻旅行先祖兌換物品要多少蠟燭,高手進階

宋媽后來怎么樣了宋媽后來怎樣了

四個木念什么四個木念什么呀

當一個女人不愛你了會有什么表現

職場女強人的星座女巨蟹女

平凡的世界讀書心得初二優秀作文700字

vivox21耗電快怎么辦 vivox21耗電快怎么解決

飛機托運酒水規定2022 國內飛機能帶酒嗎？

2006年屬狗的是什么命五行屬什么

關于閃長巖簡述閃長巖

知名女星李羲兒車禍縫54針！一臉血跡躺倒在地，車子翻轉掉落田溝 ...

造夢西游4手機版龍幣怎么得到

今日查詢價格3011元，今日查詢價格3011元寶？

2021年正月初六出生的寶寶名字如何取,簡約大氣旺生肖

交通事故索賠需要準備哪些誤工費證據