自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(2)
  • 收藏
  • 关注

原创 大数据技术——RDD编程初级实践

RDD编程初级实践1、 需求描述2、 环境介绍3、 数据来源描述4、 数据上传及上传结果查看5、 数据处理过程描述1.pyspark交互式编程2.编写独立应用程序实现数据去重3.编写独立应用程序实现求平均值问题6、 经验总结1、 需求描述在当今社会,随着大数据的快速发展情况下,大数据已经完全融入到我们的生活中。为了适应各种信息化技术的快速发展,我作为计算机专业的学生,学习大数据这项技术是必不可少的。这次的实验是RDD编程初级实践,我们需要熟悉Spark的RDD基本操作和键值对操作同时还要熟悉使用RDD编

2021-06-19 16:21:06 1863 1

原创 调用MapReduce对文件中各个单词出现次数进行统计

调用MapReduce对文件中各个单词出现次数进行统计一、安装Linux在Linux系统各个发行版中,CentOS系统和Ubuntu系统在服务端和桌面端使用占比最高,网络上资料最是齐全,所以我们建议使用CentOS系统或Ubuntu。一般来说,如果要做服务器,我们选择CentOS或者Ubuntu Server;如果做桌面系统,我们选择Ubuntu Desktop。但是在学习Hadoop方面,虽然两个系统没有多大区别,但是我们强烈推荐新手读者使用Ubuntu操作系统。(以Ubuntu Kylin 20.0

2020-12-20 20:33:27 288

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除