自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 收藏
  • 关注

原创 mysql数据备份还原(全量备份)

请注意,确保在执行还原操作之前,你已经停止了MySQL服务器的写入操作,以避免数据冲突或损坏。此外,确保你有足够的权限来执行上述操作,并且备份文件没有损坏。如果遇到任何问题或错误消息,请检查备份文件和服务器配置是否正确。执行上述命令后,备份文件中的数据将被导入到MySQL服务器中。输入 exit 退出MySQL命令行界面。

2024-01-11 11:34:39 406

原创 kafka常用命令

说明:在${KAFKA_HOME}/config/server.properties中配置 delete.topic.enable 为 true,这样才能生效,删除指定的 topic主题。参数 --topic 指定 Topic 名,–partitions 指定分区数,–replication-factor 指定备份(副本)数。LOG-END-OFFSET: 当前最高水位偏移量,也就是最近一个读取消息的偏移量,同时也是最近一个提交到集群的偏移量。删除名为 test_kafka_topic 的 Topic。

2024-01-11 10:17:58 1395

原创 Flink面试题

异常值: 宝宝的年龄的数据,例如对于母婴行业来讲,一个宝宝的年龄是一个至关重要的数据,可以说是最重要的,因为宝宝大于3岁几乎就不会在母婴上面购买物品。Flink 中的watermark机制是用来处理乱序的,flink的时间必须是event time ,有一个简单的例子就是,假如窗口是5秒,watermark是2秒,那么 总共就是7秒,这个时候什么时候会触发计算呢,假设数据初始时间是1000,那么等到6999的时候会触发5999窗口的计算,那么下一个就是13999的时候触发10999的窗口。

2024-01-10 15:44:35 485

原创 HDFS组成及架构

当用户访问数据文件时,为了保证能够读取到每一个数据块, HDFS有一个专门 负责保存文件属性信息的节点,这个节点就是 NameNode 节点(即 名称节点 )。因此,NameNode节点上并不会永久保存DataNode节点上的数据块信息,而是通过与DataNode节点心跳联系的方式,来更新节点上的映射表,以此减轻负担。HDFS首先把大文件切分成若干个小的数据块,再把这些数据块写入不同的节点,这个 负责保存文件数据的节点就是 DataNode 节点(即 数据节点 )。(传统数据块只有512个字节)

2024-01-10 15:23:28 1209

原创 mysql数据通过Kibana实时展示

需要注意的是,MySQL中的数据需要通过定期同步或者实时同步的方式导入到Elasticsearch中,才能在Kibana中进行实时展示。Logstash是一个开源的数据收集、处理和传输工具,它可以从多种数据源获取数据,并将数据转换和传输到目标存储或分析系统。通过以上步骤,Logstash可以将MySQL中的数据实时传输到Elasticsearch,再通过Kibana进行实时展示和分析。Logstash介绍。

2023-07-28 17:20:46 396 1

原创 flink数据实时传入mysql

在上述代码中,我们使用了Flink的`RichSinkFunction`作为sink连接器,并在`open`方法中创建了MySQL的连接,`invoke`方法中执行了插入数据的SQL语句。以上代码将创建一个Flink的作业,将输入数据实时写入到MySQL数据库中。你可以根据自己的需求对JDBC连接进行配置,并根据具体的数据表结构修改SQL语句。要将Flink数据实时传入MySQL,可以使用Flink的JDBC sink连接器。

2023-07-28 17:16:58 498 1

原创 Flink窗口分配器

除了以上窗口分配器,Flink还提供了一些其他的窗口分配器,如Global Windows(全局窗口,将所有数据划分到同一个窗口中)、Processing Time Windows(基于处理时间的窗口)等。.window(SlidingEventTimeWindows.of(Time.seconds(5), Time.seconds(2))) // 使用滑动窗口分配器。.window(TumblingEventTimeWindows.of(Time.seconds(5))) // 使用滚动窗口分配器。

2023-07-27 13:32:34 170 1

原创 Flink窗口计算

DataStream result = input .keyBy(0) // 根据键值进行分组 .timeWindow(Time.minutes(1)) // 定义1分钟的时间窗口 .sum(1);首先根据键值进行分组(keyBy),然后定义一个1分钟的时间窗口(timeWindow),最后对窗口内的数据进行求和(sum)。注意,Flink还支持更复杂的窗口计算,如会话窗口(Session Windows)和全局窗口(Global Windows)。

2023-07-27 13:29:31 225 1

原创 Flume命令

在上面的命令中,需要将"/path/to/flume/conf"替换为您的Flume配置文件所在的目录,将"/path/to/flume/conf/flume.conf"替换为您的Flume配置文件的路径,将"agentName"替换为您指定的代理名称。请注意,Flume的命令行界面的确切用法和选项可能会因Flume的版本而有所不同。如果您使用的是较旧的Flume版本,请参考您的Flume文档以获取相应的命令和选项。此外,您还可以使用其他选项来定制Flume的行为,例如设置日志级别、指定其他配置文件等。

2023-07-27 11:08:01 1131 1

原创 sqoop数据导入导出

它提供了一组命令行接口,用于导入数据到Hadoop中或将数据导出到关系型数据库中。这个命令将从MySQL数据库中的mytable表中导入数据,并将数据存储在Hadoop的指定目录下。这个命令将从Hadoop的指定目录中导出数据,并将数据存储到MySQL数据库的mytable表中。这个命令将从MySQL数据库中的mytable表中导入指定的列,并使用制表符作为字段分隔符。这个命令将从MySQL数据库中的mytable表中导入满足指定条件的数据。

2023-07-27 10:55:58 437 1

原创 Hbase体系架构及工作原理

3. 写入操作:当用户执行写入操作时,客户端首先将数据发送给HBase Master,Master根据Row Key确定数据所属的Region,并将数据转发给对应的Region Server。4. 读取操作:当用户执行读取操作时,客户端发送请求给HBase Master,Master确定数据所在的Region,并将请求转发给对应的Region Server。通过HBase,用户可以实现快速的数据存储和访问,支持高并发的读写操作,并且可以方便地进行水平扩展,适用于大规模的数据存储和分析场景。

2023-07-27 10:42:25 328 1

原创 Sqoop体系架构及工作原理

通过Sqoop,用户可以方便地将关系型数据库中的数据导入到Hadoop中进行分析和处理,也可以将Hadoop中的数据导出到关系型数据库中进行查询和分析。1. Sqoop Client:Sqoop的客户端,提供了命令行接口和API,用于用户与Sqoop交互,并指定数据传输的相关参数和配置。4. Mapper任务将转换后的数据写入Hadoop集群中的目标位置,可以是HDFS中的文件或HBase中的表。5. 当所有的Mapper任务完成后,Sqoop会进行数据的校验和验证,确保数据的完整性和准确性。

2023-07-27 10:38:48 227 1

原创 Flume体系架构及工作原理

Flume是一个可靠、可扩展的分布式日志收集和聚合系统,用于将大量的日志数据从各种数据源(如Web服务器、应用程序日志等)传输到集中式数据存储系统(如HDFS、HBase等)中。Flume提供了多种类型的Sink,如HDFS Sink、HBase Sink、Kafka Sink等,用于将数据传输到不同的数据存储系统。Flume的工作原理允许用户根据实际需求配置不同的Source、Channel和Sink,并以灵活的方式组合它们,实现定制化的日志收集和传输方案。

2023-07-27 10:35:27 259 1

原创 HDFS及各组件功能介绍

Backup Node的作用类似于Secondary NameNode,但它可以在实时和连续的基础上备份NameNode的元数据,从而提供更快的故障恢复能力。6. 数据写入:当客户端需要向一个文件写入数据时,它会将数据分成固定大小的数据包,并与最近的数据节点建立连接。5. 数据读取:当客户端需要读取一个文件时,它会向NameNode发送请求,获取文件的元数据和数据块的位置信息。通过数据的切分、副本选择、数据块存储和复制等步骤,HDFS实现了高可靠性、高可用性和高性能的分布式数据存储。

2023-07-27 10:29:19 1741 1

原创 Hive及各组件功能介绍

4. Hive SerDe(序列化和反序列化):Hive SerDe是Hive的序列化和反序列化组件,用于将数据在Hive和Hadoop之间进行转换。1. Hive Metastore(元数据存储):Hive Metastore是Hive的元数据存储组件,它负责管理Hive中创建的表、分区、列和数据位置等元数据信息。2. 查询解析和优化:当用户提交一个查询时,Hive首先会解析查询语句,并根据元数据来确定查询涉及的表、列和分区。然后,Hive会对查询进行优化,以尽量减少查询的开销。

2023-07-27 10:24:46 1126 1

原创 flink工作原理

Checkpoint是将流处理任务的中间状态(即数据流的状态)定期保存到持久化存储系统中,以便在发生故障时能够恢复任务的状态。- 快照生成:当触发Checkpoint时,Flink会将任务的状态数据(包括操作符的状态和数据流的元数据)保存到持久化存储系统中,通常是分布式文件系统(如HDFS)或对象存储(如S3)。- 状态保存:当触发Savepoint时,Flink会将任务的状态数据保存到指定的存储系统中,通常是分布式文件系统(如HDFS)或对象存储(如S3)。

2023-07-26 11:13:48 87 1

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除