题目:统计文本中性别为“男”的用户数。
1.训练要点
(1)创建RDD的方法。
(2) map转换方法。
(3 ) filter的用法。
(4) count的用法。
2.需求说明
文档test.txt需要自己下载,一个用户 的信息存储为一行数据,现在要求过滤出其中性别为“男”的用户,并且统计有多少行符合要求。
3.实现思路及步骤:
全部代码展示:
hdfs dfs -put test.txt /user/root
val testdata=sc.textFile("hdfs://node1:8020/user/root/test.txt").map{x=>val line=x.split(",");(line(0),line(3))}
val testdata_man=testdata.filter(x=>x.toString.contains("男"))
testdata_man.take(10)