RDD编程初级实践
一、pyspark交互编程
1.该系总共有多少学生
(1).进入spark路径下创建一个sparksqldata的文件
mkdir sparksqldata
(2).进入下载文件夹查看data.txt文件
cd /home/hadoop/下载
ls
(3).cp拷贝命令,将data.txt文件拷贝到sparksqldata目录下
cp data.txt /usr/local/spark/sparksqldata/
(4).进入sparksqldata目录查看data.txt文件
cd /usr/local/spark/sparksqldata/
ls
(5)启动pyspark
pyspark
(6).加载数据集,获取每行数据的第1列;去重操作;取元素总个数
lines = sc.textFile('file///usr/local/spark/sparksqldata/data.txt')
res = lines.map(lambda x:x.split(",")).map(lambda x:x[0])
distinst_res = res.distinct()
distinct_res.count()
2.该系共开设了多少门课程
lines = sc.textFile('file///usr/local/spark/sparksqldata/data.txt')
res = lines.map(lambda x:x.split(",")).map(lambda x:x[1])
distinst_res = res.distinct()
distinct_res.count()
3.Tom同学的总成绩平均分是多少
lines = sc.textFile('file///usr/local/spark/sparksqldata/data.txt')
res = lines.map(lambda x:x.