
大数据
文章平均质量分 61
大数据、数据分析、数据库、java、python、scala、k8s、docker等知识总结。欢迎订阅,订阅后可以私信博主感兴趣的技术方向,博主会持续更新博客文章,阅读博客文章遇到问题也可以咨询博主。
优惠券已抵扣
余额抵扣
还需支付
¥49.90
¥99.00
购买须知?
本专栏为图文内容,最终完结不会低于15篇文章。
订阅专栏,享有专栏所有文章阅读权限。
本专栏为虚拟商品,基于网络商品和虚拟商品的性质和特征,专栏一经购买无正当理由不予退款,不支持升级,敬请谅解。
快乐骑行^_^
全栈技术博主,博主会持续更新专栏文章,欢迎关注和订阅博主,欢迎私信与博主交流技术。
展开
-
大数据系列之:flink sql消费Topic中Debezium格式数据同步到Starrocks数据库,根据Debezium增删改数据实现对Starrocks表的插入、删除、更新操作
大数据系列之:flink sql消费Topic中Debezium格式数据同步到Starrocks数据库,根据Debezium增删改数据实现对Starrocks表的插入、删除、更新操作原创 2024-12-16 22:07:49 · 86 阅读 · 0 评论 -
大数据系列之:Java8和java11查看进程堆内存使用情况
这是一个关于使用jhsdb jmap命令的解释。原创 2024-09-05 09:57:01 · 328 阅读 · 0 评论 -
大数据系列之:查看进程控制组信息、查看systemctl服务信息、查看服务器所有控制组信息、查看服务在控制组内存限制、显示系统上所有正在运行的进程和服务的控制组(cgroup)层次结构
大数据系列之:查看进程控制组信息、查看systemctl服务信息、查看服务器所有控制组信息、查看服务在控制组内存限制、显示系统上所有正在运行的进程和服务的控制组(cgroup)层次结构、控制组和控制组下进程的关系原创 2024-09-03 23:05:36 · 633 阅读 · 0 评论 -
大数据系列之:查看Centos服务器系统日志,排查应用进程oom情况,查看进程堆内存信息,查看进程启动参数设置
大数据系列之:查看Centos服务器系统日志,排查应用进程oom情况,查看进程堆内存信息,查看进程启动参数设置原创 2024-09-03 14:02:30 · 1091 阅读 · 0 评论 -
大数据系列之:查看Centos服务器用户可以创建的最大线程数、查看系统内核支持的最大线程数、查看系统支持的最大进程数、设置最大线程数限制、查看进程使用的线程数
这是一个软限制(soft limit),用户可以在不超过硬限制(hard limit)的情况下,临时改变软限制的值。软限制是实际施加的资源限制,而硬限制则是软限制能够达到的最大值。记住,设置过高的用户进程限制可能会导致系统资源耗尽,尤其当某个用户启动了大量的进程时,可能会影响系统的稳定性。系统管理员可以设置硬限制,普通用户只能将自己的软限制值设置为小于或等于当前硬限制值。如果普通用户想要提高自己的软限制,必须确保新的值不超过硬限制。Soft Limit:软限制,表示当前实际的限制值。原创 2024-09-02 22:30:41 · 1028 阅读 · 0 评论 -
大数据系列之:OutOfMemoryError: unable to create new native thread
接下来,您可能会想知道Java中的堆栈大小是否设置得太高。如果设置的限制很高,那么如果您是为正确的用户执行此操作,则可能不会达到此限制。您必须是运行的进程的相同用户。通常情况下,这不是内存溢出的情况,这可能会产生误导。在Linux上还有一种称为cgroups的方式,可以实现上述相同的功能。有时候当Java尝试创建一个新的线程时,操作系统会阻止它。第一种老式方法是检查您的 ulimit。根据配置方式的不同,有两种方法可以更新最大任务限制。通过在这两个位置上删除设置的值,实际上可以移除限制。原创 2024-09-02 09:10:11 · 393 阅读 · 0 评论 -
大数据系列之:TiCDC采集TiDB数据库数据以Debezium JSON格式发送到Kafka Topic详细步骤
查看同步任务,–changefeed-id使用创建同步任务产生的id,–changefeed-id也可以在创建时指定名称。激活TIDB集群环境变量。消息value中的数据。查看TIDB集群状态。原创 2024-08-16 07:11:23 · 207 阅读 · 0 评论 -
大数据系列之:统计hive表的详细信息,生成csv统计表
大数据系列之:统计hive表的详细信息,生成csv统计表原创 2024-08-14 20:14:13 · 163 阅读 · 0 评论 -
大数据系列之:Doris Kafka Connector,实时消费Kafka Topic中的数据同步到Doris数据库
大数据系列之:Doris Kafka Connector,实时消费Kafka Topic中的数据同步到Doris数据库原创 2024-08-13 12:18:03 · 1156 阅读 · 0 评论 -
Vault系列之:理解Vault Secrets engines、理解Transit Secrets Engine、加密解密内容
这是一个使用 Vault 命令行工具创建 Transit Secret Engine 中的一个加密密钥的命令,并显示了创建后的密钥的相关属性。这是一个使用 Vault 命令行工具读取 Transit Secret Engine 中的一个加密密钥的命令,并显示了密钥的相关属性。Vault 将使用密钥环中的适当密钥解密该值,然后使用密钥环中的最新密钥加密生成的明文。这是一个使用 Vault 的 Transit Secret Engine 进行加密操作的命令。生成的数据是 base64 编码的。原创 2024-08-11 09:53:47 · 208 阅读 · 0 评论 -
Vault系列之:了解Vault应用场景,安装Vault详细步骤,使用Vault创建管理密钥详细案例
安全存储敏感数据:Vault可以用来安全存储敏感数据,例如数据库凭据、API密钥、加密密钥等。Vault提供了密钥管理、加密和解密的功能,可以确保敏感数据的安全存储和访问。 - 动态秘钥生成和管理:Vault可以生成和管理动态秘钥,例如用于身份验证、加密和解密等。Vault的动态秘钥功能可以确保每个用户或应用程序都有唯一的秘钥,并且可以定期轮换秘钥以增加安全性。 - 访问控制和权限管理:Vault可以用来管理访问控制和权限,例如限制用户或应用程序对特定资源的访问权限。Vault提供了身份验证、授权和审计原创 2024-08-11 09:03:23 · 460 阅读 · 0 评论 -
安装使用ROSE详细步骤
至此完成ROSE的安装,可以使用ROSE了。如官网所说:依赖下面的软件。原创 2024-08-05 11:00:12 · 1193 阅读 · 0 评论 -
安装bedtools详细步骤和详细介绍bedtools用法
以下是典型的bedtools用法示例。在任何bedtools命令后使用“-h”选项将报告所有命令行选项的列表。报告两个BED文件中特征之间的碱基重叠。报告 A 中与 B 中没有条目重叠的条目。如“grep -v”从标准输入读取BED A。这在将命令串联在一起时非常有用。例如,查找与LINEs重叠但不与SINEs重叠的基因。找到每个基因最近的ALU。将重复元素的重叠部分合并为单个条目,并返回合并的条目数。将附近的重复元素合并为单个条目,只要它们相互之间的距离不超过1000 bp。原创 2024-08-05 10:45:20 · 487 阅读 · 0 评论 -
安装Samtools、BCFtools、HTSlib详细步骤
Samtools是一个用于处理和分析DNA序列比对数据(SAM/BAM格式)的软件工具包。它提供了一系列命令行工具,用于将SAM/BAM格式文件进行排序、索引、过滤、统计和转换等操作。Samtools还提供了一些API,可以用于编程语言(如C或Python)中处理SAM/BAM格式数据。Samtools和BCFtools都在内部使用HTSlib,但这些源代码包含了它们自己的htslib副本,所以它们可以独立构建。至此完成安装Samtools、BCFtools、HTSlib的安装。原创 2024-08-05 10:12:10 · 664 阅读 · 0 评论 -
大数据系列之:详细介绍Trino Python client应用方法
Trino 的客户端,一个用于交互式和批量大数据处理的分布式 SQL 引擎。提供低级客户端和 DBAPI 2.0 实现以及 SQLAlchemy 适配器。它支持Python>=3.8和PyPy。原创 2024-05-17 09:07:26 · 485 阅读 · 0 评论 -
Spark报错处理系列之:HDFS Unable to close file because the last block BP-xx does not have enough number
Spark报错处理系列之:HDFS Unable to close file because the last block BP-xx does not have enough number原创 2024-05-16 07:12:50 · 505 阅读 · 0 评论 -
TiDB系列之:使用TiUP部署TiDB集群最新版本,同时部署TiCDC的详细步骤
至此使用TiUP部署了TiDB集群最新版本,同时部署了TiCDC下一步尝试节点的扩容,新增节点TiFlash。原创 2024-04-30 21:21:04 · 557 阅读 · 1 评论 -
TiDB系列之:TiCDC使用Changefeed完成数据同步任务
changefeed_id、start_ts、target_ts、sink_uri 的含义和格式与使用 cli 创建同步任务中所作的解释相同,具体解释请参见该文档。使用 changefeed query 命令可以查询特定同步任务(对应某个同步任务的信息和状态),指定 --simple 或 -s 参数会简化输出,提供最基本的同步状态和 checkpoint 信息。在 TiCDC 运行过程中,同步任务可能会运行出错、手动暂停、恢复,或达到指定的 TargetTs,这些行为都可以导致同步任务状态发生变化。原创 2024-04-25 17:27:57 · 584 阅读 · 2 评论 -
TiDB系列之:认识TiDB数据库,使用TiUP部署TiDB集群,同时部署TiCDC的详细步骤
TiUP 的直接功能是作为 TiDB 生态中的包管理器,但这并不是它的最终使命。TiUP 的愿景是将 TiDB 生态中所有工具的使用门槛降到极致,这个仅仅靠包管理功能是做不到的,还需要引入一些额外的包来丰富这个系统,它们一起加入到 TiUP 生态中,让 TiDB 的世界变得更简单。TiUP 系列文档的主要内容就是介绍 TiUP 及这些包的功能和使用方式。Usage:Examples:Flags:可用的命令install:用于安装特定版本的组件list:查看可用组件列表或组件可用版本列表。原创 2024-04-25 08:50:06 · 491 阅读 · 0 评论 -
Flink SQL系列之:基于Flink SQL查询Topic中序列化的Debezium数据格式字段
Flink SQL系列之:基于Flink SQL查询Topic中序列化的Debezium数据格式字段原创 2024-04-03 19:56:21 · 450 阅读 · 2 评论 -
Flink SQL系列之:解析Debezium数据格式时间字段常用的函数
例如,DATE_FORMAT(TO_TIMESTAMP(‘2022-01-01 00:00:00’, ‘yyyy-MM-dd HH:mm:ss’), ‘yyyy/MM/dd HH:mm:ss’)将生成一个格式为’2022/01/01 00:00:00’的日期时间字符串。假设plan_date为1640966400,即2022-01-01 00:00:00的Unix时间戳,经过FROM_UNIXTIME、DATE_FORMAT和TO_DATE函数的转换,输出结果为:‘2022-01-01’(日期类型)。原创 2024-04-03 19:26:43 · 709 阅读 · 0 评论 -
Apache Paimon系列之:Flink集成Paimon
下面列出了所有可用的程序。您可以在 ./paimon-flink/paimon-flink-/target/paimon-flink--0.8-SNAPSHOT.jar 中找到捆绑的 jar,在 ./paimon- 中找到操作 jar flink/paimon-flink-action/target/paimon-flink-action-0.8-SNAPSHOT.jar。Paimon 任务可以基于执行器内存创建内存池,这些内存将由 Flink 执行器管理,例如 Flink 任务管理器中的托管内存。原创 2024-03-13 22:46:19 · 1160 阅读 · 0 评论 -
Seatunnel系列之:Apache Iceberg sink connector和往Iceberg同步数据任务示例
为了兼容不同版本的 Hadoop 和 Hive,提供了项目 pom 文件中 hive-exec 的作用域,所以如果使用 Flink 引擎,首先可能需要将以下 Jar 包添加到 / lib目录下,如果您使用的是Spark引擎并与Hadoop集成,则不需要添加以下Jar包。部分版本的hive-exec包没有libfb303-xxx.jar,所以还需要手动导入Jar包。原创 2024-03-12 16:36:28 · 619 阅读 · 0 评论 -
Spark系列之:使用spark合并hive数据库多个分区的数据到一个分区中
Spark系列之:使用spark合并hive数据库多个分区的数据到一个分区中原创 2023-12-21 15:41:50 · 982 阅读 · 0 评论 -
Spark报错处理系列之:WARN Client: Exception encountered while connecting to the server org.apache.hadoop.ip
Spark报错处理系列之:WARN Client: Exception encountered while connecting to the server org.apache.hadoop.ipc.RemoteException org.apache.hadoop.ipc.StandbyException: Operation category READ is not supported in state standby.原创 2023-12-16 12:48:29 · 695 阅读 · 6 评论 -
Spark报错处理系列之:MetaException(message:Number of partitions scanned (=67487) on table ‘product‘ exceeds
Spark报错处理系列之:MetaException message:Number of partitions scanned =67487 on table 'product' exceeds limit =32767. This is controlled on the metastore server by metastore.limit.partition.request.原创 2023-12-16 12:43:35 · 265 阅读 · 0 评论 -
Spark报错处理系列之:Caused by: java.lang.IllegalArgumentException: Required executor memory (18384 MB)
Spark报错处理系列之:Caused by: java.lang.IllegalArgumentException: Required executor memory 18384 MB, offHeap memory 0 MB, overhead 1838 MB, and PySpark memory 0 MB is above the max threshold 12288 MB of this cluster! Please check the values of 'yarn.scheduler.ma原创 2023-12-16 12:37:20 · 228 阅读 · 0 评论 -
Spark报错处理系列之:org.apache.spark.SparkException: Job aborted due to stage failure FileNotFoundException
Spark报错处理系列之:org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 312.0 failed 4 times, most recent failure: Lost task 0.3 in stage 312.0 TID 9203,dn-005, executor 236: java.io.FileNotFoundException: File does not exist ... It原创 2023-12-16 12:19:40 · 3162 阅读 · 0 评论 -
Spark报错处理系列之:Caused by: java.lang.StackOverflowError
Spark报错处理系列之:Caused by: java.lang.StackOverflowError原创 2023-12-16 12:04:37 · 946 阅读 · 0 评论 -
Spark报错处理系列之:Exception in thread “main“ org.apache.spark.SparkException: Job aborted due to stage
Spark报错处理系列之:Exception in thread "main" org.apache.spark.SparkException: Job aborted due to stage failure: Total size of serialized results of 23 tasks 1043.8 MB is bigger than spark.driver.maxResultSize 1024.0 MB原创 2023-12-16 11:58:50 · 1618 阅读 · 0 评论 -
Spark报错处理系列之:Job aborted.Caused by: java.io.FileNotFoundException: File ... does not exist.
Spark报错处理系列之:Job aborted.Caused by: java.io.FileNotFoundException: File ... does not exist.原创 2023-12-16 11:52:37 · 1153 阅读 · 0 评论 -
Spark报错处理系列之:Task 0 in stage 11.0 failed 4 times, most recent failure: Lost task 0.3 in stage 11.0
Spark报错处理系列之:Task 0 in stage 11.0 failed 4 times, most recent failure: Lost task 0.3 in stage 11.0原创 2023-12-16 11:46:50 · 1068 阅读 · 0 评论 -
Spark报错处理系列之:Kryo serialization failed: Buffer overflow. Available: 0, required: 12678.
Spark报错处理系列之:Kryo serialization failed: Buffer overflow. Available: 0, required: 12678. To avoid this, increase spark.kryoserializer.buffer.max value.原创 2023-12-16 11:39:19 · 637 阅读 · 0 评论 -
Spark报错处理系列之:Could not execute broadcast in 300 secs. You can increase the timeout for broadcasts
Spark报错处理系列之:Could not execute broadcast in 300 secs. You can increase the timeout for broadcasts via spark.sql.broadcastTimeout or disable broadcast join by setting spark.sql.autoBroadcastJoinThreshold to -1原创 2023-12-16 11:09:17 · 1121 阅读 · 0 评论 -
查询数据库信息保存到csv中,从csv中筛选出想要的数据
查询数据库信息保存到csv中,从csv中筛选出想要的数据原创 2023-12-14 18:05:38 · 232 阅读 · 0 评论 -
深入理解内存参数和详细介绍查看服务内存使用情况的方式
深入理解内存参数和详细介绍查看服务内存使用情况的方式原创 2023-12-12 20:09:14 · 230 阅读 · 0 评论 -
Seatunnel系列之:使用Seatunnel从hive数据库同步数据到mysql、sqlserver、elasticsearch、starrocks、postgresql等数据库
Seatunnel系列之:使用Seatunnel从hive数据库同步数据到mysql、sqlserver、elasticsearch、starrocks、postgresql等数据库原创 2023-10-08 11:36:37 · 1877 阅读 · 0 评论 -
Seatunnel系列之:深入理解Seatunnel,快速应用Seatunnel实现数据同步
Seatunnel系列之:深入理解Seatunnel,快速应用Seatunnel实现数据同步原创 2023-10-08 11:28:34 · 1416 阅读 · 0 评论 -
Seatunnel系列之:从sqlserver数据库同步表的数据到mysql数据库
Seatunnel系列之:从sqlserver数据库同步表的数据到mysql数据库原创 2023-10-07 20:08:59 · 722 阅读 · 0 评论 -
Flink CDC系列之:Oracle CDC Connector
Flink CDC系列之:Oracle CDC Connector原创 2023-08-19 22:41:01 · 1792 阅读 · 0 评论