环境搭建
- hadoop-2.7.5
- scala-2.12.7
- spark-3.3.0
- JDK 1.8.0
定制网站官网下载安装 和 并配置windows环境变量:
定制网站下载后解压,定制网站然后配置环境变量,定制网站版本要适配不然运行程定制网站序时可能会报错
scala下载:
定制网站本帖所安装的版本为scala-2.12.7
可自行安装其他版本
进入自己所选择的版本,滑到下边,选择Windows版
下载到随便一个没有中文字符的目录并解压出来
右键属性此电脑,打开高级设置添加系统环境变量
打开命令提示符小黑窗,输入
scala -version
- 1
出现版本号说明已经安装配置成功
下载:
本帖所安装的版本为spark-3.3.0-bin-hadoop2
可自行安装其他版本
进入所选的版本,再次选择自己所需要下载的文件
下载到随便一个没有中文字符的目录并解压出来
右键属性此电脑,打开高级设置添加系统环境变量
配置完后打开命令提示符小黑窗,输入
spark-shell
- 1
出现版本号说明已经安装配置成功
创建Scala项目
Scala SDK:点击创建—>浏览—>选择自己Scala目录—>确定
安装Scala插件,这里我已经下载过了 没下载的直接点Install等待下载安装完成再操作
导入spark的jar包
创建一个Scala类
运行第一个WordCount程序:
对spark1.txt文件进行筛选,将A或者包含A的字母筛选出来并统计个数,然后输出到dome1文件中。
#数据如下id 编号 内容A B CAB A BC A BAB AB AB
- 1
- 2
- 3
- 4
- 5
- 6
import org.apache.spark.{SparkConf, SparkContext}object demo { def main(args: Array[String]): Unit = { var sparkConf = new SparkConf().setAppName("demo1").setMaster("local") var sc = new SparkContext(sparkConf)// 文件输入路径 var filepath = "F:\\test\\spark_work\\input\\spark1.txt" //获取第一行 var fileFirst = sc.textFile(filepath).first() sc.textFile(filepath).filter(!_.equals(fileFirst)).flatMap(_.split("\t")).filter(_.contains("A"))// 文件输出路径,该目录自主创建会导致报错,程序运行后它会自动创建该目录 .map((_,1)).reduceByKey(_+_).saveAsTextFile("F:\\test\\spark_work\\output") }}
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
- 11
- 12
- 13
- 14
- 15
- 16