Spark簡單介紹,Windows下安裝Scala+Hadoop+Spark運行環境,集成到IDEA中

一、前言近幾年大數據是異常的火爆,今天小編以java開發的身份來會會大數據,提高一下自己的層面!大數據技術也是有很多:

  • Hadoop
  • Spark
  • Flink
小編也只知道這些了,由于Hadoop , 存在一定的缺陷(循環迭代式數據流處理:多并行運行的數據可復用場景效率不行) 。所以Spark出來了,一匹黑馬,8個月的時間從加入 Apache,直接成為頂級項目?。?
選擇Spark的主要原因是:
Spark和Hadoop的根本差異是多個作業之間的數據通信問題 : Spark多個作業之間數據通信是基于內存,而 Hadoop 是基于磁盤 。
二、Spark介紹官網地址
Spark 是用于大規模數據處理的統一分析引擎 。它提供了 Scala、Java、Python 和 R 中的高級 API,以及支持用于數據分析的通用計算圖的優化引擎 。它還支持一組豐富的高級工具,包括用于 SQL 和 DataFrames 的 Spark SQL、用于 Pandas 工作負載的 Spark 上的 Pandas API、用于機器學習的 MLlib、用于圖形處理的 GraphX 和用于流處理的結構化流 。
spark是使用Scala語言開發的,所以使用Scala更好?。?
三、下載安裝1. Scala下載Scala官網
點擊安裝
Spark簡單介紹,Windows下安裝Scala+Hadoop+Spark運行環境,集成到IDEA中

文章插圖
下載自己需要的版本
Spark簡單介紹,Windows下安裝Scala+Hadoop+Spark運行環境,集成到IDEA中

文章插圖
點擊自己需要的版本:小編這里下載的是2.12.11
點擊下載Windows二進制:
Spark簡單介紹,Windows下安裝Scala+Hadoop+Spark運行環境,集成到IDEA中

文章插圖
慢的話可以使用迅雷下載!
2. 安裝【Spark簡單介紹,Windows下安裝Scala+Hadoop+Spark運行環境,集成到IDEA中】安裝就是下一步下一步 , 記住安裝目錄不要有空格,不然會報錯的?。。?
3. 測試安裝win+R輸入cmd:輸入:
scala必須要有JDK環境哈,這個學大數據基本都有哈?。?
Spark簡單介紹,Windows下安裝Scala+Hadoop+Spark運行環境,集成到IDEA中

文章插圖
4. Hadoop下載一個小技巧:Hadoop和Spark版本需要一致,我們先去看看spark,他上面名字就帶著和他配套的Hadoop版本?。?
spark3.0對照
Spark簡單介紹,Windows下安裝Scala+Hadoop+Spark運行環境,集成到IDEA中

文章插圖
得出我們下載Hadoop的版本為:3.2
Hadoop下載地址
Spark簡單介紹,Windows下安裝Scala+Hadoop+Spark運行環境,集成到IDEA中

文章插圖
5. 解壓配置環境解壓到即可使用,為了使用方便,要想jdk一樣配置一下環境變量!
新建HADOOP_HOME值為安裝目錄:D:\software\hadoop-3.2.1Path里添加:%HADOOP_HOME%\bin
cmd輸入:hadoop:提示
系統找不到指定的路徑 。Error: JAVA_HOME is incorrectly set.這里先不用管,咱們只需要Hadoop的環境即可!
6. 下載SparkSpark官網
點擊找到歷史版本:
Spark簡單介紹,Windows下安裝Scala+Hadoop+Spark運行環境,集成到IDEA中

文章插圖
點擊下載:
Spark簡單介紹,Windows下安裝Scala+Hadoop+Spark運行環境,集成到IDEA中

文章插圖
7. 解壓環境配置新建:SPARK_HOMED:\spark\spark-3.3.1-bin-hadoop3Path添加:%SPARK_HOME%\bin
8. 測試安裝win+R輸入cmd:輸入:
spark-shell
Spark簡單介紹,Windows下安裝Scala+Hadoop+Spark運行環境,集成到IDEA中

文章插圖
四、集成Idea1. 下載插件scala
Spark簡單介紹,Windows下安裝Scala+Hadoop+Spark運行環境,集成到IDEA中

文章插圖
2. 給項目添加Global Libraries打開配置:
Spark簡單介紹,Windows下安裝Scala+Hadoop+Spark運行環境,集成到IDEA中

文章插圖
新增SDK
Spark簡單介紹,Windows下安裝Scala+Hadoop+Spark運行環境,集成到IDEA中

文章插圖
下載你需要的版本:小編這里是:2.12.11
Spark簡單介紹,Windows下安裝Scala+Hadoop+Spark運行環境,集成到IDEA中

文章插圖
右擊項目,添加上scala
Spark簡單介紹,Windows下安裝Scala+Hadoop+Spark運行環境,集成到IDEA中

文章插圖
3. 導入依賴<dependency><groupId>org.apache.spark</groupId><artifactId>spark-core_2.12</artifactId><version>3.0.0</version></dependency>4. 第一個程序
Spark簡單介紹,Windows下安裝Scala+Hadoop+Spark運行環境,集成到IDEA中

推薦閱讀