思旭�-CSDN博客

原创 mysql数据备份还原（全量备份）

请注意，确保在执行还原操作之前，你已经停止了MySQL服务器的写入操作，以避免数据冲突或损坏。此外，确保你有足够的权限来执行上述操作，并且备份文件没有损坏。如果遇到任何问题或错误消息，请检查备份文件和服务器配置是否正确。执行上述命令后，备份文件中的数据将被导入到MySQL服务器中。输入 exit 退出MySQL命令行界面。

2024-01-11 11:34:39 420

说明：在${KAFKA_HOME}/config/server.properties中配置 delete.topic.enable 为 true，这样才能生效，删除指定的 topic主题。参数 --topic 指定 Topic 名，–partitions 指定分区数，–replication-factor 指定备份(副本)数。LOG-END-OFFSET: 当前最高水位偏移量，也就是最近一个读取消息的偏移量，同时也是最近一个提交到集群的偏移量。删除名为 test_kafka_topic 的 Topic。

2024-01-11 10:17:58 1481

原创 Flink面试题

异常值：宝宝的年龄的数据，例如对于母婴行业来讲，一个宝宝的年龄是一个至关重要的数据，可以说是最重要的，因为宝宝大于3岁几乎就不会在母婴上面购买物品。Flink 中的watermark机制是用来处理乱序的，flink的时间必须是event time ，有一个简单的例子就是，假如窗口是5秒，watermark是2秒，那么总共就是7秒，这个时候什么时候会触发计算呢，假设数据初始时间是1000，那么等到6999的时候会触发5999窗口的计算，那么下一个就是13999的时候触发10999的窗口。

2024-01-10 15:44:35 526

原创 HDFS组成及架构

当用户访问数据文件时，为了保证能够读取到每一个数据块， HDFS有一个专门负责保存文件属性信息的节点，这个节点就是 NameNode 节点（即名称节点）。因此，NameNode节点上并不会永久保存DataNode节点上的数据块信息，而是通过与DataNode节点心跳联系的方式，来更新节点上的映射表，以此减轻负担。HDFS首先把大文件切分成若干个小的数据块，再把这些数据块写入不同的节点，这个负责保存文件数据的节点就是 DataNode 节点（即数据节点）。（传统数据块只有512个字节）

2024-01-10 15:23:28 1279

原创 mysql数据通过Kibana实时展示

需要注意的是，MySQL中的数据需要通过定期同步或者实时同步的方式导入到Elasticsearch中，才能在Kibana中进行实时展示。Logstash是一个开源的数据收集、处理和传输工具，它可以从多种数据源获取数据，并将数据转换和传输到目标存储或分析系统。通过以上步骤，Logstash可以将MySQL中的数据实时传输到Elasticsearch，再通过Kibana进行实时展示和分析。Logstash介绍。

2023-07-28 17:20:46 425 1

原创 flink数据实时传入mysql

在上述代码中，我们使用了Flink的`RichSinkFunction`作为sink连接器，并在`open`方法中创建了MySQL的连接，`invoke`方法中执行了插入数据的SQL语句。以上代码将创建一个Flink的作业，将输入数据实时写入到MySQL数据库中。你可以根据自己的需求对JDBC连接进行配置，并根据具体的数据表结构修改SQL语句。要将Flink数据实时传入MySQL，可以使用Flink的JDBC sink连接器。

2023-07-28 17:16:58 537 1

原创 Flink窗口分配器

除了以上窗口分配器，Flink还提供了一些其他的窗口分配器，如Global Windows（全局窗口，将所有数据划分到同一个窗口中）、Processing Time Windows（基于处理时间的窗口）等。.window(SlidingEventTimeWindows.of(Time.seconds(5), Time.seconds(2))) // 使用滑动窗口分配器。.window(TumblingEventTimeWindows.of(Time.seconds(5))) // 使用滚动窗口分配器。

2023-07-27 13:32:34 187 1

原创 Flink窗口计算

DataStream result = input .keyBy(0) // 根据键值进行分组 .timeWindow(Time.minutes(1)) // 定义1分钟的时间窗口 .sum(1);首先根据键值进行分组（keyBy），然后定义一个1分钟的时间窗口（timeWindow），最后对窗口内的数据进行求和（sum）。注意，Flink还支持更复杂的窗口计算，如会话窗口（Session Windows）和全局窗口（Global Windows）。

2023-07-27 13:29:31 242 1

原创 Flume命令

在上面的命令中，需要将"/path/to/flume/conf"替换为您的Flume配置文件所在的目录，将"/path/to/flume/conf/flume.conf"替换为您的Flume配置文件的路径，将"agentName"替换为您指定的代理名称。请注意，Flume的命令行界面的确切用法和选项可能会因Flume的版本而有所不同。如果您使用的是较旧的Flume版本，请参考您的Flume文档以获取相应的命令和选项。此外，您还可以使用其他选项来定制Flume的行为，例如设置日志级别、指定其他配置文件等。

2023-07-27 11:08:01 1193 1

原创 sqoop数据导入导出

它提供了一组命令行接口，用于导入数据到Hadoop中或将数据导出到关系型数据库中。这个命令将从MySQL数据库中的mytable表中导入数据，并将数据存储在Hadoop的指定目录下。这个命令将从Hadoop的指定目录中导出数据，并将数据存储到MySQL数据库的mytable表中。这个命令将从MySQL数据库中的mytable表中导入指定的列，并使用制表符作为字段分隔符。这个命令将从MySQL数据库中的mytable表中导入满足指定条件的数据。

2023-07-27 10:55:58 446 1

原创 Hbase体系架构及工作原理

3. 写入操作：当用户执行写入操作时，客户端首先将数据发送给HBase Master，Master根据Row Key确定数据所属的Region，并将数据转发给对应的Region Server。4. 读取操作：当用户执行读取操作时，客户端发送请求给HBase Master，Master确定数据所在的Region，并将请求转发给对应的Region Server。通过HBase，用户可以实现快速的数据存储和访问，支持高并发的读写操作，并且可以方便地进行水平扩展，适用于大规模的数据存储和分析场景。

2023-07-27 10:42:25 342 1

原创 Sqoop体系架构及工作原理

通过Sqoop，用户可以方便地将关系型数据库中的数据导入到Hadoop中进行分析和处理，也可以将Hadoop中的数据导出到关系型数据库中进行查询和分析。1. Sqoop Client：Sqoop的客户端，提供了命令行接口和API，用于用户与Sqoop交互，并指定数据传输的相关参数和配置。4. Mapper任务将转换后的数据写入Hadoop集群中的目标位置，可以是HDFS中的文件或HBase中的表。5. 当所有的Mapper任务完成后，Sqoop会进行数据的校验和验证，确保数据的完整性和准确性。

2023-07-27 10:38:48 243 1

原创 Flume体系架构及工作原理

Flume是一个可靠、可扩展的分布式日志收集和聚合系统，用于将大量的日志数据从各种数据源（如Web服务器、应用程序日志等）传输到集中式数据存储系统（如HDFS、HBase等）中。Flume提供了多种类型的Sink，如HDFS Sink、HBase Sink、Kafka Sink等，用于将数据传输到不同的数据存储系统。Flume的工作原理允许用户根据实际需求配置不同的Source、Channel和Sink，并以灵活的方式组合它们，实现定制化的日志收集和传输方案。

2023-07-27 10:35:27 276 1

原创 HDFS及各组件功能介绍

Backup Node的作用类似于Secondary NameNode，但它可以在实时和连续的基础上备份NameNode的元数据，从而提供更快的故障恢复能力。6. 数据写入：当客户端需要向一个文件写入数据时，它会将数据分成固定大小的数据包，并与最近的数据节点建立连接。5. 数据读取：当客户端需要读取一个文件时，它会向NameNode发送请求，获取文件的元数据和数据块的位置信息。通过数据的切分、副本选择、数据块存储和复制等步骤，HDFS实现了高可靠性、高可用性和高性能的分布式数据存储。

2023-07-27 10:29:19 1878 1

原创 Hive及各组件功能介绍

4. Hive SerDe（序列化和反序列化）：Hive SerDe是Hive的序列化和反序列化组件，用于将数据在Hive和Hadoop之间进行转换。1. Hive Metastore（元数据存储）：Hive Metastore是Hive的元数据存储组件，它负责管理Hive中创建的表、分区、列和数据位置等元数据信息。2. 查询解析和优化：当用户提交一个查询时，Hive首先会解析查询语句，并根据元数据来确定查询涉及的表、列和分区。然后，Hive会对查询进行优化，以尽量减少查询的开销。

2023-07-27 10:24:46 1219 1

原创 flink工作原理

Checkpoint是将流处理任务的中间状态（即数据流的状态）定期保存到持久化存储系统中，以便在发生故障时能够恢复任务的状态。- 快照生成：当触发Checkpoint时，Flink会将任务的状态数据（包括操作符的状态和数据流的元数据）保存到持久化存储系统中，通常是分布式文件系统（如HDFS）或对象存储（如S3）。- 状态保存：当触发Savepoint时，Flink会将任务的状态数据保存到指定的存储系统中，通常是分布式文件系统（如HDFS）或对象存储（如S3）。

2023-07-26 11:13:48 96 1

weixin_53209289的博客