pyflink统计单词

本文介绍如何使用ApacheFlink进行实时流处理,通过Python编程从服务器接收文本数据,然后对每个消息进行分词并计算单词出现次数,以LogEvent类的形式展示统计结果。
摘要由CSDN通过智能技术生成

import json
import re
import logging
import sys
from collections import Counter

from pyflink.datastream import DataStream, StreamExecutionEnvironment
from pyflink.datastream.functions import RuntimeContext, FlatMapFunction, MapFunction
from pyflink.common.typeinfo import Types


s_env = StreamExecutionEnvironment.get_execution_environment()
data = DataStream(s_env._j_stream_execution_environment.socketTextStream('192.168.137.200', 8899))
    #data.print()
def get_key():
        return '999'
class LogEvent:
    world=None

    def __init__(self,world,count):
        self.world = world
        self.count = count
    def to_dict(self):
        return {
            "world": str(self.world),
            "count": str(self.count)

        }

class MyMapFunction(FlatMapFunction):
    def open(self, runtime_context: RuntimeContext):
        pass
    def flat_map(self, raw_message):
        raw_message=raw_message.split('\s')
        word_counts = Counter(raw_message)
        print(word_counts)
        for word in word_counts: 
          word_counts = Counter(word)
        log_event = LogEvent(raw_message,word_counts)
        yield log_event.to_dict()

data.flat_map(MyMapFunction()).print()
s_env.execute('data')

Counter({'a a bb a': 1})
2> {'world': "['a a bb a']", 'count': "Counter({'a': 3, ' ': 3, 'b': 2})"}
Counter({'a b a c a d c f d': 1})
3> {'world': "['a b a c a d c f d']", 'count': "Counter({' ': 8, 'a': 3, 'c': 2, 'd': 2, 'b': 1, 'f': 1})"}

  • 4
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

scan724

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值