使用Flume采集流式数据发送到Kafka，再由Flink消费Kafka数据，实现电话号码统计本地文件读取

最新推荐文章于 2022-12-01 17:27:36 发布

yiyiqi123

最新推荐文章于 2022-12-01 17:27:36 发布

阅读量296

点赞数

分类专栏：随机文章标签： kylin flink

本文链接：https://blog.csdn.net/yiyiqi123/article/details/105497494

版权

随机专栏收录该内容

21 篇文章 0 订阅

订阅专栏

def main(args: Array[String]): Unit = {

val env = ExecutionEnvironment.getExecutionEnvironment
env.setParallelism(1)

val log: DataSet[String] = env.readTextFile("D:\\Mywork\\workspace\\IdeaProjects\\baway2019\\flink-1707E\\src\\main\\resources\\log.txt")

val dataset: DataSet[(String, String, String, String, String, Long)] = log.map(data => {
  val dataArr: Array[String] = data.split("\t")
  (dataArr(0).trim, dataArr(1).trim, dataArr(2).trim, dataArr(3).trim, dataArr(4).trim, 1L)
})
//统计每天的访问量

// dataset.groupBy(0).sum(5).map(t =>(t._1, t._6)).print()
//统计每个“userid”的访问量
// dataset.groupBy(3).sum(5).map(t =>(t._4, t.6)).print()
//统计2019/8/18日访问的IP地址（要求去重）
// dataset.filter(._1 == “2019/8/18”).map(t => (t._1,t.2)).distinct().print()
//统计2019/8/18日访问的username（要求去重）
// dataset.filter(.1 == “2019/8/18”).map(.3).distinct().print()
//统计2019/8/18日访问2次及以上的IP地址
dataset.filter(._1 == “2019/8/18”)
.groupBy(1)
.sum(5)
.map(t => (t._2,t._6))
.filter(t => t.2 >= 2)
// .print()
//统计IP地址为10.3.9.18的访问日期（要求去重）
// dataset.filter(.2 == “10.3.9.18”).map(.1).distinct().print()
//统计2019/8/18日访问返回值（return）为warning的IP地址
dataset.filter(.1 == “2019/8/18”).filter(.5 == “warning”).map(._2).print()

}

yiyiqi123

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
使用Flume采集流式数据发送到Kafka，再由Flink消费Kafka数据，实现电话号码统计本地文件读取

def main(args: Array[String]): Unit = {val env = ExecutionEnvironment.getExecutionEnvironmentenv.setParallelism(1)val log: DataSet[String] = env.readTextFile("D:\\Mywork\\workspace\\IdeaProjects\\...
复制链接

扫一扫

专栏目录