自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(2)
  • 收藏
  • 关注

原创 RDD编程初级实践

RDD编程初级实践 文章目录RDD编程初级实践前言一、数据来源、环境介绍二、实验步骤1.复制所有数据文件到系统中2.配置pyspark环境3.数据处理过程与结果实验一:处理data.txt文件实验二:合并A.txt,B.txt数据集实验三:求Algorithm.txt; Database.txt; Python.txt平均数总结 前言 现在这个网络大环境,每个人每天都要产生海量的数据,处理存储这些数据是每个互联网公司不得不面对的难题,在这种需求下,人们创造了hadoop来解决存储的问题,而Spark就

2021-06-05 20:22:35 1867 1

原创 基于Ubuntu Kylin系统在Hadoop的环境下调用MapReduce进行单词WordCount计数

在Ubuntu Kylin系统Hadoop的环境下调用MapReduce进行WordCount单词计数 准备工作 安装好Ubuntu Kylin系统,以下演示是在安装VirtualBox虚拟机中 准备JAVA环境包、Hadoop安装包,hadoop-eclipse-plugin以及一个需要WordCount的万字英语作文 没有系统镜像或安装包的,可以点击这里下载,提取码:123z 一、创建Hadoop用户(非必须,可选) 在终端中创建名为hadoop的用户,使用 /bin/bash 作为 shell。

2020-12-19 20:04:33 231 1

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除