自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 Spark Streaming单词统计操作

解决方法:①在slave1 8888端口上(nc -l 8888)输入数据,运行就不会报错,要是没有安装nc要使用命令 yum install -y nc安装在进行操作。②端口号没有写对Spark默认的HDFS端口与Hadoop中core.site.xml配置一样的端口号都是9000,所以启动连接到master节点HDFS中端口号为9000。

2023-04-23 14:38:41 663 1

原创 Speak-RDD基本操作

2.将数据转换成(ID,score)的键值对,通过reduceByKey的方法统计总成绩并输出结果。2.通过filter操作过滤出成绩为100分的学生数据,并且通过map操作提取学生ID。(二)RDD转换找出单科成绩为100的学生ID,最终的结果需要集合到一个RDD中。(三)RDD转换输出每位学生的总成绩,要求将两个成绩表中学生ID相同的成绩相加。5.通过sortBy对元组中的成绩列降序排序,排序位置是每个元组的第3位的成绩。6.通过take操作取出每个RDD的前5个值就是成绩排在前5的学生。

2023-03-31 18:39:23 519

原创 搭建Spark伪分布式

基于MapReduce的计算引擎通常会将中间结果输出到磁盘上,进行存储和容错。出于任务管道承接的考虑,当一些查询翻译到MapReduce任务时,往往会产生多个Stage,而这些串联的Stage又依赖于底层文件系统(如HDFS)来存储每一个Stage的输出结果。Spark是MapReduce的替代方案,而且兼容HDFS、Hive,可融入Hadoop的生态系统,以弥补MapReduce的不足。

2023-03-29 13:10:49 890

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除