使用Flume采集流式数据发送到Kafka,再由Flink消费Kafka数据,实现电话号码统计

def main(args: Array[String]): Unit = {

//创建flink执行环境
val env = StreamExecutionEnvironment.getExecutionEnvironment
//设置并行度
env.setParallelism(1)
//设置时间语义
env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime)

val properties = new Properties()
properties.setProperty("bootstrap.servers", "hdp111:9092,hdp222:9092,hdp333:9092")
properties.setProperty("key.serializer", "org.apache.kafka.common.serialization.StringSerializer")
properties.setProperty("value.serializer", "org.apache.kafka.common.serialization.StringSerializer")
properties.setProperty("group.id", "test")
val dataStream = env.addSource(new FlinkKafkaConsumer[String]("mykafka", new SimpleStringSchema(), properties))
//val dataStream = env.readTextFile("C:\\Intel\\day0411\\input\\ww.txt")
  .map(data=>{
    val strings = data.split("\t")
    LongEv(strings(0).toLong,strings(1).toLong)
  }).assignTimestampsAndWatermarks(new BoundedOutOfOrdernessTimestampExtractor[LongEv](Time.seconds(1)) {
  override def extractTimestamp(element: LongEv): Long = element.elTime*1000
})

// 6. 统计出5s内电话号码出现的总次数并打印到控制台
// dataStream.map(x=>(“电话号码总数”,1)).keyBy(0).timeWindow(Time.seconds(5)).sum(1).print(“五秒内出现的总次数”)
// 7. 统计出5s内电话号码是偶数的电话并打印到控制台
// dataStream.filter(.phone % 2 == 0).map(x=>(x.phone, 1)).timeWindowAll(Time.seconds(5)).sum(1).print(“五秒内出现的偶数车牌”)
// 8. 统计出10s内同一电话号码出现次数超过2次及以上的电话号码并打印到控制台
// dataStream.map(x=>(x.phone,1)).keyBy(
.1).timeWindow(Time.seconds(10)).sum(1).filter(._2>=2).print(“手机号出现次数超过2的”)
env.execute()
}

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值