![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
潇洒哥WH3
华中科技大学计算机科学与技术学院在读研究生
展开
-
简单的Spark案例——课程学习量统计
需求:如下图的文件中有很多访问记录,第一列表示访问站点的时间戳,第二列表示访问的站点,中间用制表符分割。这里相当于学习的不同课程,如java,ui,bigdata,android,h5等,其中每门课程又分为子课程,如h5课程分为teacher,course等。现在需要统计每门课程,学习量最高的两门子课程并降序排列。测试数据下载地址链接:https://pan.baidu.com/s/1D...原创 2018-10-12 00:16:40 · 2949 阅读 · 3 评论 -
启动Spark在UI界面上看不到worker节点的信息
问题描述作者是在centos上安装spark-2.3.0-bin-hadoop2.7.tgz,当配置好spark-env.sh,改好slaves文件之后,在sbin/目录下运行命令./start-all.sh来启动Spark时,发现没有报错,以为启动成功,但是在Spark的UI界面上看不到worker的信息。此时第一反应都是worker节点启动失败,然后会用jps命令去查看,但是惊喜地发现Wo...原创 2018-10-09 19:13:13 · 8517 阅读 · 3 评论 -
Spark WordCount 两种运行方式
用Scala编写WordCount程序,在IDEA中可以通过(1)新建maven项目,在pom文件中引入Spark,Scala,Hadoop相关的依赖包来开发;(2)新建普通的Scala项目,然后将相关的jar包导入到项目中,同样可以来开发。一般来说,采用maven的方式来进行开发会比较方便,Spark WordCount的pom文件如下:<project xmlns="http:...原创 2018-10-10 00:17:12 · 3008 阅读 · 1 评论