words8-CSDN博客

原创 C语言指针小计

2、通过指针引用数组3、指针和const4、指针的类型转换5、二位数组a的有关指针

2022-07-08 23:29:08 1643

原创 Flink小计（九）----- Table API 和 Flink SQL

摘要： Flink 的 Table API 和 SQL 提供了统一的批流处理上层 API。Table API 是内嵌在 Java/Scala 中的查询接口，支持关系运算符组合查询；Flink SQL 基于 Apache Calcite 实现标准 SQL。通过 TableEnvironment 可创建不同执行模式（流/批）的环境，并连接外部系统注册表。示例展示了如何从文件创建表，使用 Table API 进行查询转换，支持流批一体化处理。

2021-09-13 15:15:08 15

原创 Flink小计（八）----- Flink 的状态一致性

摘要：本文探讨了流处理中的状态一致性，重点介绍了Flink如何通过检查点（checkpoint）机制实现内部状态一致性，确保数据不丢失、不重复计算。端到端一致性需协调数据源、处理器和输出系统，其级别取决于最弱组件。Flink提供精确一次（exactly-once）保证：幂等写入（简单但可能短暂不一致）和事务写入（通过预写日志或两阶段提交实现严格一致性）。结合Kafka时，Flink利用两阶段提交SinkFunction，协调检查点与Kafka事务，确保数据从消费到输出的原子性提交，最终实现端到端精确一次处

2021-09-13 12:11:19 16

原创 Flink小计（七）----- Flink 的容错机制

Flink的容错机制主要基于一致性检查点(checkpoint)和保存点(save points)。检查点是所有任务状态在某个时间点的快照，当所有任务处理完相同输入数据时触发。故障恢复时，系统从检查点读取状态并重置，确保精确一次(exactly-once)的一致性。Flink采用异步检查点算法，通过分界线(barrier)将数据流分隔，实现不暂停应用的检查点保存。保存点则用于有计划的状态备份。API支持配置检查点间隔、模式、超时等参数，并提供了多种重启策略选择，如固定间隔重启和失败率重启，确保系统可靠性。

2021-09-12 16:50:05 15

原创 Flink小计（六）-----Flink中的ProcessFunction API（底层 API）

Flink 提供了 8 个 Process Function：ProcessFunctionKeyedProcessFunctionCoProcessFunctionProcessJoinFunctionBroadcastProcessFunctionKeyedBroadcastProcessFunctionProcessWindowFunctionProcessAllWindowFunction

2021-09-12 10:49:38 16

原创 Flink小计（五）-----Flink中的状态管理

一、Flink中的状态由一个任务维护，并且用来计算某个结果的所有数据，都属于这个任务状态可以认为状态就是一个本地变量，可以被任务的业务逻辑访问Flink 会进行状态管理，包括状态一致性、故障处理以及高效存储和访问，以便开发人员可以专注于应用程序的逻辑在 Flink 中，状态始终与特定算子相关联为了使运行时的 Flink 了解算子的状态，算子需要预先注册其状态➢ 总的说来，有两种类型的状态：算子状态（Operator State）• 算子状态的作用范围限定为算子任务

2021-09-11 19:42:41 14

原创 Flink小计（四）-----Flink中的Window

目录一、Window 类型二、window API2.1 创建不同类型的窗口一、Window 类型Window 可以分成两类：➢ CountWindow：按照指定的数据条数生成一个 Window，与时间无关。➢ TimeWindow：按照时间生成 Window。可以根据窗口实现原理的不同分成三类：滚动窗口（TumblingWindow）、滑动窗口（Sliding Window）和会话窗口（Session Window）。TimeWindow这三类都有，CountWindow没有会话窗口（Ses

2021-09-06 17:51:21 13

原创 Flink小计（三）-----Flink流处理API（source、transform、sink）

目录一、Environment二、Source2.1 从集合读取数据2.2 从文件读取数据2.3 以 kafka 消息队列的数据作为来源2.4 自定义 Source三、Transform3.1 基本算子3.2 滚动聚合算子（Rolling Aggregation）3.3 分流与合流处理四、数据类型一、Environment创建运行环境getExecutionEnvironment创建一个执行环境，表示当前执行程序的上下文。如果程序是独立调用的，则此方法返回本地执行环境；如果从命令行客户端

2021-09-05 14:31:53 14

原创 Flink小计（二）-----Flink运行架构

目录一、Flink 运行时的组件二、任务提交流程三、任务调度原理四、思考4.1 并行度（Parallelism）4.2 TaskManager 和 Slots4.3 并行子任务的分配4.4 程序与数据流（DataFlow）4.5 执行图（ExecutionGraph）4.6 数据传输形式4.7 任务链（Operator Chains）一、Flink 运行时的组件作业管理器（JobManager）任务管理器（TaskManager）资源管理器（ResourceManager）

2021-09-04 13:26:58 17

原创 Flink小计（一）-----什么是Flink？

目录一、什么是Flink二、为什么选择 Flink三、哪些行业需要处理流数据四、传统数据处理架构五、有状态的流式处理六、流处理的演变七、Flink的主要特点八、Flink vs Spark Streaming一、什么是FlinkApache Flink is a framework and distributed processing engine for stateful computations over unbounded and bounded data streams.Apache Fli

2021-09-03 15:17:28 13

原创 Failed to execute goal org.apache.maven.plugins:maven-resources-plugin:3.2.0

问题idea打包jar包时一直报这个错java Failed to execute goal org.apache.maven.plugins:maven-resources-plugin:3.2.0解决尝试在pom.xml中添加了如下依赖<plugin> <groupId>org.apache.maven.plugins</groupId> <artifactId>maven-resources-plugin</arti

2021-08-19 15:56:32 1471

原创 HDFS的Java API操作

目录引言API实操1、连接hdfs（一）2、连接hdfs（二）3、创建文件夹4、上传文件5、遍历文件夹6、下载文件7、重命名文件或者文件夹8、删除文件或者文件夹9、小文件合并引言HDFS在生产应用中主要是客户端的开发，其核心步骤是从HDFS提供的API中构造一个HDFS的访问客户端对象，然后通过该客户端对象操作（增删改查）HDFS上的文件。API介绍：　　1. API（Application Programming Interface，应用程序接口）是一些预先定义的接口（如函数、HTTP接口），或指

2021-08-16 12:02:00 1930

原创 Spark的任务提交和调度

目录1、Spark简介2、Spark核心组件3、运行流程概述4、任务提交流程4.1 SparkSubmit进程解析4.2 YARN Cluster 模式4.3 YARN Client 模式5、任务调度机制5.1 任务调度概述5.2 Spark Stage 级调度5.3 Spark Task 级调度1、Spark简介Spark 是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。2009年诞生于加州大学伯克利分校AMPLab，2010年开源，2013年6月成为Apache孵化项目，2014年2月成为A

2021-08-07 12:30:24 924

原创即席查询（Ad Hoc）入门（Kylin）

目录1、什么是即席查询2、前置概念3、Kylin3.1 Kylin简介2.2 Kylin架构1、什么是即席查询即席查询（Ad Hoc）是用户根据自己的需求，灵活的选择查询条件，系统能够根据用户的选择生成相应的统计报表。即席查询与通常查询从SQL语句上来说，并没有本质的差别。它们之间的差别在于：通常的查询在系统设计和实施时是已知的，是定制开发的；所以我们可以在系统实施时通过建立索引、分区等技术来优化这些查询，使这些查询的效率很高。而即席查询是用户在使用时临时生产的，是用户自定义查询条件的；系统无法

2021-08-04 17:31:50 12751

原创 superset安装和简单入门

目录1、概述2、安装MiniConda3、创建python3.6环境4、部署superset5、操作superset6、使用superset 1、概述Apache Superset是一个开源的、现代的、轻量级BI分析工具，能够对接多种数据源、拥有丰富的图标展示形式、支持自定义仪表盘，且拥有友好的用户界面，十分易用。由于Superset能够对接常用的大数据分析工具，如Hive、Kylin、Druid等，且支持自定义仪表盘，故可作为数仓的可视化工具。查看详细的所支持数据库，请点这 compatibl

2021-07-25 13:26:39 1603

原创 Centos7下使用yum安装pip，提示没有可用的软件包。

问题：在Linux下，Miniconda创建了一个python3.6环境，然后使用yue下载pip，出现下列报错原因：pip不在centos官方yum源里面解决使用epel源,安装epel-release软件包。EPEL (Extra Packages for Enterprise Linux)是基于Fedora的一个项目，为“红帽系”的操作系统提供额外的软件包，适用于RHEL、CentOS等系统。可以在下面的网址上找到对应的系统版本，架构的软件包。执行下列命令，安装epel-rel..

2021-07-24 14:17:33 2827 2

原创 CondaHTTPError: HTTP 000 CONNECTION FAILED for url ＜https://mirrors.tuna.tsinghua.edu.cn/anaconda/pk

在Linux中，使用Miniconda创建 Python 3.6 环境时报以下错误[evil@hadoop102 ~]$ conda create --name superset python=3.6Collecting package metadata (current_repodata.json): failedCondaHTTPError: HTTP 000 CONNECTION FAILED for url <https://mirrors.tuna.tsinghua.edu.cn/a

2021-07-23 17:27:55 639 2

原创 FAILED: ParseException line 5:29 missing EOF at ‘)‘ near ‘1‘

FAILED: ParseException line 5:29 missing EOF at ')' near '1'看是不是\t，只需在sql前按删除键。若一下子删除了多格就是/t了，需要换成空格；否则不用换。

2021-07-22 16:40:04 19124

原创 shell中单引号(‘‘)、双引号(““)、反引号(``)的区别

shell中单引号(’’)、双引号("")、反引号(``)的区别脚本#!/bin/bashdo_date=$1echo '$do_date'echo "$do_date"echo "'$do_date'"echo '"$do_date"'echo `date`echo ${date}结果[evil@hadoop102 bin]$ vim test.sh [evil@hadoop102 bin]$ chmod 777 test.sh [evil@hadoop102 bin]$

2021-07-20 13:16:52 398

原创 Duplicated tag: ‘properties‘ (position: START_TAG seen ...＜!--\u7248\u672c\u53f7\u7edf\u4e00 --＞\n

Duplicated tag: ‘properties’ (position: START_TAG seen …\n … @17:17)

2021-07-18 13:51:19 11267

原创 INFO ipc.Client: Retrying connect to server: hadoop103/192.168.1.103:8032. Already tried 1

INFO ipc.Client: Retrying connect to server: hadoop103/192.168.1.103:8032. Already tried 1 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep第一、yarn没有开启第二、防火墙没有关闭

2021-07-18 13:50:07 1215

原创 Cannot find hadoop installation: $HADOOP_HOME or $HADOOP_PREFIX must be set or hadoop must be in th

问题：Cannot find hadoop installation: $HADOOP_HOME or $HADOOP_PREFIX must be set or hadoop must be in the path原因：hive的hive-env.sh没有配置hadoop环境变量

2021-07-18 13:48:14 665

原创快速入门Hive语法

DDL1、数据库创建： creat database [if not exists] database_name; //若所创的数据库已存在，[if not exists]可确保不报错 2、显示数据库： show databases [like 'str*']; //like进行正则匹配 show databases databaseName; show databases extended databaseName; //更详细地查看信息

2021-07-07 18:55:12 3224 4

原创 Hive（一）---- 简介和安装部署

目录1、什么是Hive2、Hive的优缺点3、Hive架构原理4、Hive和数据库比较5、Hive的部署5.1 Hive安装5.2 mysql安装和mysql存放metastone 1、什么是Hive1）hive 简介Hive：由 Facebook 开源用于解决海量结构化日志的数据统计工具。Hive 是基于 Hadoop 的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类 SQL 查询功能。2） Hive 本质：将 HQL 转化成 MapReduce 程序Hive 处理的数据

2021-07-06 17:02:04 1044

原创 Hadoop--MapReduce详解（Map、Shuffle、Reduce）

目录1、MapReduce概述1.1 MapReduce是什么1.2 MapReduce核心思想和简单过程1.3 MapReduce的优缺点2、MapReduce工作机制2.1 MapReduce常用数据序列化类型2.2 MapReduce简单过程图示2.2.1 MapReduce进程2.2.2 数据切片与MapTask并行度2.2.3 分区机制与ReduceTask并行度2.2.4 排序2.2.5 MapReduce过程描述2.3 MapReduce工作机制2.3.1 MapTask工作机制2.3.2 S

2021-07-05 17:04:35 13358

原创 Hadoop--NN和2NN工作机制

目录1、NameNode元数据的存储2、NameNode工作机制3、NN和2NN工作机制 1、NameNode元数据的存储Fsimage 和 Edits 文件Fsimage 和 Edits 文件都存储在磁盘中Fsimage文件：HDFS文件系统元数据的一个永久性的检查点，其中包含HDFS文件系统的所有目录和文件inode的序列化信息。Edits文件：存放HDFS文件系统的所有更新操作的路径，文件系统客户端执行的所有写操作首先会被记录到Edits文件中。说白了就是，Fsimage存放一定时间

2021-06-19 18:40:09 822 2

原创 Hadoop--HDFS读写数据流程

目录1、HDFS概述2、文件块大小3、HDFS写数据流程3.1 流程详解3.2 节点距离计算3.3 机架感知（副本存储节点选择）4、HDFS读数据流程 1、HDFS概述HDFS产生背景随着数据量越来越大，在一个操作系统存不下所有的数据，那么就分配到更多的操作系统管理的磁盘中，但是不方便管理和维护，迫切需要一种系统来管理多台机器上的文件，这就是分布式文件管理系统。HDFS 只是分布式文件管理系统中的一种。HDFS定义HDFS (Hadoop Distibuted File System)，

2021-06-19 16:28:34 612

原创 Hadoop框架和四大组件简介

+

2021-06-18 23:46:49 2860 2

原创 Linux下mysql导入csv文件

直接上语句mysql>load data infile '/var/lib/mysql/ct/contact.csv' >into table Order character set utf8 >fields terminated by ',' optionally enclosed by '"' escaped by '"' >lines terminated by '\r\n';指令功能load d

2021-05-21 09:37:26 3034 1

原创 ssh免密登入失败（Authentication refused: bad ownership or modes for directory）

现象：配置完免密登入后，部分机器仍需要输入密码才能登入通过命令 /var/log/secure查看日志出现问题的机器Apr 26 22:58:47 hadoop102 sshd[58994]: Authentication refused: bad ownership or modes for directory /home/evil/.sshApr 26 22:58:52 hadoop102 sshd[58994]: Accepted password for evil from 192.1

2021-04-27 00:15:08 3385

原创分布式系统搭建（CentOS7虚拟机）

VM版本：15.0.4 build-12990004Linux： 7.9.2009 (Core)Hadoop: hadoop-2.8.0JDK: jdk1.8.0_161目录1、创建一台虚拟机进行基本配置2、安装jdk和hadoop3、克隆两台虚拟机4、分布式系统配置5、启动分布式系统1、创建一台虚拟机进行基本配置这里就不进行虚拟机的创建了。这里额外创建了一个evil用户，之后利用evil用户进行hadoop的相关操作。网络配置命令：vim /etc/sysconfi.

2021-03-09 14:09:26 850

原创 Linux入门

记录和分享最近所学的Linux，巩固基础和便于日后查找。文中有不对之处，欢迎指出。VM版本：15.0.4 build-12990004Linux：7.9.2009 (Core)这里的知识点主要是基于一个尚硅谷Linux课程所总结的。感兴趣的小伙伴可以点这里尚硅谷韩老师Linux课程目录一、Linux介绍1、Linux简介2、Linux的特点3、Linux和其他操作系统的区别二、虚拟机和Linux系统安装1、虚拟机安装三、Linux的文件系统四、远程登入（Xshell XFtp）五、vi和vim

2021-02-03 08:02:53 1008 1

原创字符编码

字符编码一、ASCII码二、扩展的ASCLII码三、GB2312和GBK一、ASCII码计算机内部，所有信息最终都是一个二进制值。每一个二进制位（bit）有0和1两种状态，因此八个二进制位就可以组合出256种状态，这被称为一个字节（byte）。也就是说，一个字节一共可以用来表示256种不同的状态，每一个状态对应一个符号，就是256个符号，从00000000到11111111。美国制定的标准ASCII码一共规定了128个字符的编码，一个字节表示一个字符。比如大写的字母A是65（二进制01000001），

2021-01-23 22:16:12 1441

Windows版hadoop winutils-master.zip文件大全

空空如也