Flink 时间语义与 Wartermark

最新推荐文章于 2024-07-23 16:23:28 发布

大雄编程

最新推荐文章于 2024-07-23 16:23:28 发布

阅读量108

点赞数

文章标签： python pandas 数据分析

本文链接：https://blog.csdn.net/xiaoxiong092620/article/details/126241488

版权

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档

文章目录

前言
一、Flink 中的时间语义
二、EventTime 的引入
三、Watermark
- 1.基本概念
- 2.Watermark 的引入
总结

前言

例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。

一、Flink 中的时间语义

在 Flink 的流式处理中，会涉及到时间的不同概念，如下图所示：

Event Time ：是事件创建的时间。它通常由事件中的时间戳描述，例如采集的

日志数据中，每一条日志都会记录自己的生成时间， Flink 通过时间戳分配器访问事

件时间戳。

Ingestion Time ：是数据进入 Flink 的时间。

Processing Time ：是每一个执行基于时间操作的算子的本地系统时间，与机器

相关，默认的时间属性就是 Processing Time 。

例如，一条日志进入 Flink 的时间为 2017-11-12 10:00:00.123 ，到达 Window 的

系统时间为 2017-11-12 10:00:01.234 ，日志的内容如下：

2017-11-02 18:37:15.624 INFO Fail over to rm2

对于业务来说，要统计 1min 内的故障日志个数，哪个时间是最有意义的？——

eventTime ，因为我们要根据日志的生成时间进行统计。

二、EventTime 的引入

在 Flink 的流式处理中，绝大部分的业务都会使用 eventTime ，一般只在

eventTime 无法使用时，才会被迫使用 ProcessingTime 或者 IngestionTime 。

如果要使用 EventTime ，那么需要引入 EventTime 的时间属性，引入方式如下所

示：

二、EventTime 的引入

1.基本概念

代码如下（示例）：

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')
import  ssl
ssl._create_default_https_context = ssl._create_unverified_context

2.读入数据

代码如下（示例）：

data = pd.read_csv(
    'https://labfile.oss.aliyuncs.com/courses/1283/adult.data.csv')
print(data.head())

该处使用的url网络请求的数据。

总结

提示：这里对文章进行总结：
例如：以上就是今天要讲的内容，本文仅仅简单介绍了pandas的使用，而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。

大雄编程

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
2
评论
Flink 时间语义与 Wartermark

例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。提示：这里对文章进行总结：例如：以上就是今天要讲的内容，本文仅仅简单介绍了pandas的使用，而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。
复制链接

扫一扫