提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档
前言
例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。
一、Flink 中的时间语义
在 Flink 的流式处理中,会涉及到时间的不同概念,如下图所示:
Event Time
:是事件创建的时间。它通常由事件中的时间戳描述,例如采集的
日志数据中,每一条日志都会记录自己的生成时间,
Flink
通过时间戳分配器访问事
件时间戳。
Ingestion Time
:是数据进入
Flink
的时间。
Processing Time
:是每一个执行基于时间操作的算子的本地系统时间,与机器
相关,默认的时间属性就是
Processing Time
。
例如,一条日志进入
Flink
的时间为
2017-11-12 10:00:00.123
,到达
Window
的
系统时间为
2017-11-12 10:00:01.234
,日志的内容如下:
2017-11-02 18:37:15.624 INFO Fail over to rm2
对于业务来说,要统计
1min
内的故障日志个数,哪个时间是最有意义的?——
eventTime
,因为我们要根据日志的生成时间进行统计。
二、EventTime 的引入
在
Flink
的流式处理中,绝大部分的业务都会使用
eventTime
,一般只在
eventTime
无法使用时,才会被迫使用
ProcessingTime
或者
IngestionTime
。
如果要使用
EventTime
,那么需要引入
EventTime
的时间属性,引入方式如下所
示:
二、EventTime 的引入
1.基本概念
代码如下(示例):
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')
import ssl
ssl._create_default_https_context = ssl._create_unverified_context
代码如下(示例):
data = pd.read_csv(
'https://labfile.oss.aliyuncs.com/courses/1283/adult.data.csv')
print(data.head())
该处使用的url网络请求的数据。
总结
提示:这里对文章进行总结:
例如:以上就是今天要讲的内容,本文仅仅简单介绍了pandas的使用,而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。