- 博客(43)
- 资源 (1)
- 收藏
- 关注
原创 Flink小计(九)----- Table API 和 Flink SQL
摘要: Flink 的 Table API 和 SQL 提供了统一的批流处理上层 API。Table API 是内嵌在 Java/Scala 中的查询接口,支持关系运算符组合查询;Flink SQL 基于 Apache Calcite 实现标准 SQL。通过 TableEnvironment 可创建不同执行模式(流/批)的环境,并连接外部系统注册表。示例展示了如何从文件创建表,使用 Table API 进行查询转换,支持流批一体化处理。
2021-09-13 15:15:08
12
原创 Flink小计(八)----- Flink 的状态一致性
摘要: 本文探讨了流处理中的状态一致性,重点介绍了Flink如何通过检查点(checkpoint)机制实现内部状态一致性,确保数据不丢失、不重复计算。端到端一致性需协调数据源、处理器和输出系统,其级别取决于最弱组件。Flink提供精确一次(exactly-once)保证:幂等写入(简单但可能短暂不一致)和事务写入(通过预写日志或两阶段提交实现严格一致性)。结合Kafka时,Flink利用两阶段提交SinkFunction,协调检查点与Kafka事务,确保数据从消费到输出的原子性提交,最终实现端到端精确一次处
2021-09-13 12:11:19
14
原创 Flink小计(七)----- Flink 的容错机制
Flink的容错机制主要基于一致性检查点(checkpoint)和保存点(save points)。检查点是所有任务状态在某个时间点的快照,当所有任务处理完相同输入数据时触发。故障恢复时,系统从检查点读取状态并重置,确保精确一次(exactly-once)的一致性。Flink采用异步检查点算法,通过分界线(barrier)将数据流分隔,实现不暂停应用的检查点保存。保存点则用于有计划的状态备份。API支持配置检查点间隔、模式、超时等参数,并提供了多种重启策略选择,如固定间隔重启和失败率重启,确保系统可靠性。
2021-09-12 16:50:05
13
原创 Flink小计(六)-----Flink中的ProcessFunction API(底层 API)
Flink 提供了 8 个 Process Function:ProcessFunctionKeyedProcessFunctionCoProcessFunctionProcessJoinFunctionBroadcastProcessFunctionKeyedBroadcastProcessFunctionProcessWindowFunctionProcessAllWindowFunction
2021-09-12 10:49:38
14
原创 Flink小计(五)-----Flink中的状态管理
一、Flink中的状态由一个任务维护,并且用来计算某个结果的所有数据,都属于这个任务状态可以认为状态就是一个本地变量,可以被任务的业务逻辑访问Flink 会进行状态管理,包括状态一致性、故障处理以及高效存储和访问,以便开发人员可以专注于应用程序的逻辑在 Flink 中,状态始终与特定算子相关联为了使运行时的 Flink 了解算子的状态,算子需要预先注册其状态➢ 总的说来,有两种类型的状态:算子状态(Operator State)• 算子状态的作用范围限定为算子任务
2021-09-11 19:42:41
13
原创 Flink小计(四)-----Flink中的Window
目录一、Window 类型二、window API2.1 创建不同类型的窗口一、Window 类型Window 可以分成两类:➢ CountWindow:按照指定的数据条数生成一个 Window,与时间无关。➢ TimeWindow:按照时间生成 Window。可以根据窗口实现原理的不同分成三类:滚动窗口(TumblingWindow)、滑动窗口(Sliding Window)和会话窗口(Session Window)。TimeWindow这三类都有,CountWindow没有 会话窗口(Ses
2021-09-06 17:51:21
12
原创 Flink小计(三)-----Flink流处理API(source、transform、sink)
目录一、Environment二、Source2.1 从集合读取数据2.2 从文件读取数据2.3 以 kafka 消息队列的数据作为来源2.4 自定义 Source三、Transform3.1 基本算子3.2 滚动聚合算子(Rolling Aggregation)3.3 分流与合流 处理四、数据类型一、Environment创建运行环境getExecutionEnvironment创建一个执行环境,表示当前执行程序的上下文。 如果程序是独立调用的,则此方法返回本地执行环境;如果从命令行客户端
2021-09-05 14:31:53
12
原创 Flink小计(二)-----Flink运行架构
目录一、Flink 运行时的组件二、任务提交流程三、任务调度原理四、思考4.1 并行度(Parallelism)4.2 TaskManager 和 Slots4.3 并行子任务的分配4.4 程序与数据流(DataFlow)4.5 执行图(ExecutionGraph)4.6 数据传输形式4.7 任务链(Operator Chains)一、Flink 运行时的组件作业管理器(JobManager)任务管理器(TaskManager)资源管理器(ResourceManager)
2021-09-04 13:26:58
14
原创 Flink小计(一)-----什么是Flink?
目录一、什么是Flink二、为什么选择 Flink三、哪些行业需要处理流数据四、传统数据处理架构五、有状态的流式处理六、流处理的演变七、Flink的主要特点八、Flink vs Spark Streaming一、什么是FlinkApache Flink is a framework and distributed processing engine for stateful computations over unbounded and bounded data streams.Apache Fli
2021-09-03 15:17:28
11
原创 Failed to execute goal org.apache.maven.plugins:maven-resources-plugin:3.2.0
问题idea打包jar包时一直报这个错java Failed to execute goal org.apache.maven.plugins:maven-resources-plugin:3.2.0解决尝试在pom.xml中添加了如下依赖<plugin> <groupId>org.apache.maven.plugins</groupId> <artifactId>maven-resources-plugin</arti
2021-08-19 15:56:32
1471
原创 HDFS的Java API操作
目录引言API实操1、连接hdfs(一)2、连接hdfs(二)3、创建文件夹4、上传文件5、遍历文件夹6、下载文件7、重命名文件或者文件夹8、删除文件或者文件夹9、小文件合并引言HDFS在生产应用中主要是客户端的开发,其核心步骤是从HDFS提供的API中构造一个HDFS的访问客户端对象,然后通过该客户端对象操作(增删改查)HDFS上的文件。API介绍: 1. API(Application Programming Interface,应用程序接口)是一些预先定义的接口(如函数、HTTP接口),或指
2021-08-16 12:02:00
1929
原创 Spark的任务提交和调度
目录1、Spark简介2、Spark核心组件3、运行流程概述4、任务提交流程4.1 SparkSubmit进程解析4.2 YARN Cluster 模式4.3 YARN Client 模式5、任务调度机制5.1 任务调度概述5.2 Spark Stage 级调度5.3 Spark Task 级调度1、Spark简介Spark 是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。2009年诞生于加州大学伯克利分校AMPLab,2010年开源,2013年6月成为Apache孵化项目,2014年2月成为A
2021-08-07 12:30:24
919
原创 即席查询(Ad Hoc)入门(Kylin)
目录1、什么是即席查询2、前置概念3、Kylin3.1 Kylin简介2.2 Kylin架构1、什么是即席查询即席查询(Ad Hoc)是用户根据自己的需求,灵活的选择查询条件,系统能够根据用户的选择生成相应的统计报表。即席查询与通常查询从SQL语句上来说,并没有本质的差别。它们之间的差别在于:通常的查询在系统设计和实施时是已知的,是定制开发的;所以我们可以在系统实施时通过建立索引、分区等技术来优化这些查询,使这些查询的效率很高。而即席查询是用户在使用时临时生产的,是用户自定义查询条件的;系统无法
2021-08-04 17:31:50
12718
原创 superset安装和简单入门
目录1、概述2、安装MiniConda3、创建python3.6环境4、部署superset5、操作superset6、使用superset 1、概述Apache Superset是一个开源的、现代的、轻量级BI分析工具,能够对接多种数据源、拥有丰富的图标展示形式、支持自定义仪表盘,且拥有友好的用户界面,十分易用。由于Superset能够对接常用的大数据分析工具,如Hive、Kylin、Druid等,且支持自定义仪表盘,故可作为数仓的可视化工具。查看详细的所支持数据库,请点这 compatibl
2021-07-25 13:26:39
1601
原创 Centos7下使用yum安装pip,提示没有可用的软件包。
问题:在Linux下,Miniconda创建了一个python3.6环境,然后使用yue下载pip,出现下列报错原因:pip不在centos官方yum源里面解决使用epel源,安装epel-release软件包。EPEL (Extra Packages for Enterprise Linux)是基于Fedora的一个项目,为“红帽系”的操作系统提供额外的软件包,适用于RHEL、CentOS等系统。可以在下面的网址上找到对应的系统版本,架构的软件包。执行下列命令,安装epel-rel..
2021-07-24 14:17:33
2824
2
原创 CondaHTTPError: HTTP 000 CONNECTION FAILED for url <https://mirrors.tuna.tsinghua.edu.cn/anaconda/pk
在Linux中,使用Miniconda创建 Python 3.6 环境时报以下错误[evil@hadoop102 ~]$ conda create --name superset python=3.6Collecting package metadata (current_repodata.json): failedCondaHTTPError: HTTP 000 CONNECTION FAILED for url <https://mirrors.tuna.tsinghua.edu.cn/a
2021-07-23 17:27:55
638
2
原创 FAILED: ParseException line 5:29 missing EOF at ‘)‘ near ‘1‘
FAILED: ParseException line 5:29 missing EOF at ')' near '1'看是不是\t,只需在sql前按删除键。若一下子删除了多格就是/t了,需要换成空格;否则不用换。
2021-07-22 16:40:04
19116
原创 shell中单引号(‘‘)、双引号(““)、反引号(``)的区别
shell中单引号(’’)、双引号("")、反引号(``)的区别脚本#!/bin/bashdo_date=$1echo '$do_date'echo "$do_date"echo "'$do_date'"echo '"$do_date"'echo `date`echo ${date}结果[evil@hadoop102 bin]$ vim test.sh [evil@hadoop102 bin]$ chmod 777 test.sh [evil@hadoop102 bin]$
2021-07-20 13:16:52
398
原创 Duplicated tag: ‘properties‘ (position: START_TAG seen ...<!--\u7248\u672c\u53f7\u7edf\u4e00 -->\n
Duplicated tag: ‘properties’ (position: START_TAG seen …\n … @17:17)
2021-07-18 13:51:19
11265
原创 INFO ipc.Client: Retrying connect to server: hadoop103/192.168.1.103:8032. Already tried 1
INFO ipc.Client: Retrying connect to server: hadoop103/192.168.1.103:8032. Already tried 1 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep第一、yarn没有开启第二、防火墙没有关闭
2021-07-18 13:50:07
1213
原创 Cannot find hadoop installation: $HADOOP_HOME or $HADOOP_PREFIX must be set or hadoop must be in th
问题:Cannot find hadoop installation: $HADOOP_HOME or $HADOOP_PREFIX must be set or hadoop must be in the path原因:hive的hive-env.sh没有配置hadoop环境变量
2021-07-18 13:48:14
663
原创 快速入门Hive语法
DDL1、数据库创建: creat database [if not exists] database_name; //若所创的数据库已存在,[if not exists]可确保不报错 2、显示数据库: show databases [like 'str*']; //like进行正则匹配 show databases databaseName; show databases extended databaseName; //更详细地查看信息
2021-07-07 18:55:12
3222
4
原创 Hive(一)---- 简介和安装部署
目录1、什么是Hive2、Hive的优缺点3、Hive架构原理4、Hive和数据库比较5、Hive的部署5.1 Hive安装5.2 mysql安装和mysql存放metastone 1、什么是Hive1)hive 简介Hive:由 Facebook 开源用于解决海量结构化日志的数据统计工具。Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类 SQL 查询功能。2) Hive 本质:将 HQL 转化成 MapReduce 程序Hive 处理的数据
2021-07-06 17:02:04
1034
原创 Hadoop--MapReduce详解(Map、Shuffle、Reduce)
目录1、MapReduce概述1.1 MapReduce是什么1.2 MapReduce核心思想和简单过程1.3 MapReduce的优缺点2、MapReduce工作机制2.1 MapReduce常用数据序列化类型2.2 MapReduce简单过程图示2.2.1 MapReduce进程2.2.2 数据切片与MapTask并行度2.2.3 分区机制与ReduceTask并行度2.2.4 排序2.2.5 MapReduce过程描述2.3 MapReduce工作机制2.3.1 MapTask工作机制2.3.2 S
2021-07-05 17:04:35
13298
原创 Hadoop--NN和2NN工作机制
目录1、NameNode元数据的存储2、NameNode工作机制3、NN和2NN工作机制 1、NameNode元数据的存储Fsimage 和 Edits 文件Fsimage 和 Edits 文件都存储在磁盘中Fsimage文件:HDFS文件系统元数据的一个永久性的检查点,其中包含HDFS文件系统的所有目录和文件inode的序列化信息。Edits文件:存放HDFS文件系统的所有更新操作的路径,文件系统客户端执行的所有写操作首先会被记录到Edits文件中。说白了就是,Fsimage存放一定时间
2021-06-19 18:40:09
821
2
原创 Hadoop--HDFS读写数据流程
目录1、HDFS概述2、文件块大小3、HDFS写数据流程3.1 流程详解3.2 节点距离计算3.3 机架感知(副本存储节点选择)4、HDFS读数据流程 1、HDFS概述HDFS产生背景随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS 只是分布式文件管理系统中的一种。HDFS定义HDFS (Hadoop Distibuted File System),
2021-06-19 16:28:34
611
原创 Linux下mysql导入csv文件
直接上语句mysql>load data infile '/var/lib/mysql/ct/contact.csv' >into table Order character set utf8 >fields terminated by ',' optionally enclosed by '"' escaped by '"' >lines terminated by '\r\n';指令功能load d
2021-05-21 09:37:26
3033
1
原创 ssh免密登入失败(Authentication refused: bad ownership or modes for directory)
现象:配置完免密登入后,部分机器仍需要输入密码才能登入通过命令 /var/log/secure查看日志出现问题的机器Apr 26 22:58:47 hadoop102 sshd[58994]: Authentication refused: bad ownership or modes for directory /home/evil/.sshApr 26 22:58:52 hadoop102 sshd[58994]: Accepted password for evil from 192.1
2021-04-27 00:15:08
3381
原创 分布式系统搭建(CentOS7虚拟机)
VM版本:15.0.4 build-12990004Linux: 7.9.2009 (Core)Hadoop: hadoop-2.8.0JDK: jdk1.8.0_161目录1、创建一台虚拟机进行基本配置2、 安装jdk和hadoop3、克隆两台虚拟机4、分布式系统配置5、启动分布式系统1、创建一台虚拟机进行基本配置这里就不进行虚拟机的创建了。这里额外创建了一个evil用户,之后利用evil用户进行hadoop的相关操作。网络配置命令:vim /etc/sysconfi.
2021-03-09 14:09:26
849
原创 Linux入门
记录和分享最近所学的Linux,巩固基础和便于日后查找。文中有不对之处,欢迎指出。VM版本:15.0.4 build-12990004Linux:7.9.2009 (Core)这里的知识点主要是基于一个尚硅谷Linux课程所总结的。感兴趣的小伙伴可以点这里 尚硅谷韩老师Linux课程目录一、Linux介绍1、Linux简介2、Linux的特点3、Linux和其他操作系统的区别二、虚拟机和Linux系统安装1、虚拟机安装三、Linux的文件系统四、远程登入(Xshell XFtp)五、vi和vim
2021-02-03 08:02:53
1007
1
原创 字符编码
字符编码一、ASCII码二、扩展的ASCLII码三、GB2312和GBK一、ASCII码计算机内部,所有信息最终都是一个二进制值。每一个二进制位(bit)有0和1两种状态,因此八个二进制位就可以组合出256种状态,这被称为一个字节(byte)。也就是说,一个字节一共可以用来表示256种不同的状态,每一个状态对应一个符号,就是256个符号,从00000000到11111111。美国制定的标准ASCII码一共规定了128个字符的编码,一个字节表示一个字符。比如大写的字母A是65(二进制01000001),
2021-01-23 22:16:12
1439
原创 missingno库---缺失值可视化分析
最近发现一个用于缺失值可视化的库,十分的方便、直观。missingno 下载可以用pip install missingno 即可下载该库导入库import missingno as msno下面开始举一些栗子1.条形密度图msno.matrix(data.sample(1000),labels=True)#data表示类型为dataframe的表格,#sample(1000)表示抽取表格中1000个样本。#labels为True表示显示标签,默认不显示图是可视化的结果,白线.
2020-11-10 10:37:23
2118
原创 OperationalError: unrecognized token: “:“
我在使用python中的sqlite3库时,向数据库插入数据时出现OperationalError: unrecognized token: ":"这个错误#3.2保存数据def saveDataDB(dbpath,datalist): init_db(dbpath)#创建数据库 conn = sqlite3.connect(dbpath) cursor = conn.cursor() for data in datalist: for i in da.
2020-10-06 20:48:28
1756
原创 SVM分类算法
1.基本概念支持向量机(SVM)的基本模型是在特征空间上找到最佳的分离超平面使得训练集上正负样本间隔最大。SVM是用来解决二分类问题的有监督学习算法,在引入了核方法之后SVM也可以用来解决非线性问题。 实际应用中一般要解决觉得是多分类问题,SVM也可以用了来解决多分类,可以通过多个二类支持向量机的组合来解决。主要有一对多组合模式、一对一组合模式等。一般SVM有下面三种:硬间隔支持向量机(线性可分支持向量机):当训练数据线性可分时,可通过硬间隔最大化学得一个线性可分支持向量机。软间隔支持向量机:当训
2020-08-28 17:01:27
12663
3
原创 决策树分类算法
1.算法概要决策树2.重点分析划分处理1、ID3算法划分 信息增益最大的属性做为最有划分属性2、C4.5算法划分(为了解决ID3算法对取值数目较多的属性有所偏好的问题) 增益率最大的属性做为最有划分属性3、基尼系数划分 基尼系数最小的属性做为最有划分属性剪枝处理防止过拟合1、预剪枝 (树生成的过程中进行处理)2、后剪枝 (树生成以后进行处理)3.代码实现...
2020-08-14 19:58:21
5220
原创 BP神经网络算法
1.基本思想先上一个图Layer1为输入层,x1,x2,x3表示一个样本里的每个特征;Layer2为隐藏层当然,隐藏层可以不止一层,在神经网络中,输入层与输出层之间的层称为隐含层或隐层,隐层和输出层的神经元都是具有激活函数的功能神经元;Layer3为输出层,输出值更大的对于类别作为预测label。人工神经网络结构有以下特点:每层神经元与下一层神经元之间完全互连神经元之间不存在同层连接神经元之间不存在跨层连接wLij中,L表示第几层,i表示第L层第i个神经元,j表示第L层第i个神经
2020-07-31 19:13:39
3097
Windows版hadoop winutils-master.zip文件大全
2021-06-21
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅