fzip-CSDN博客

org/common（即Apache Commons库）内嵌到org/hadoop的包下，主要是Hadoop项目为了依赖隔离和避免冲突而采取的阴影化技术所致。这是一种常见的最佳实践，确保Hadoop在分布式环境中稳定运行。如果你在开发或使用Hadoop时遇到类加载问题，理解这一点有助于调试依赖冲突。

2025-11-05 15:54:46 341

原创 org.apache.hadoop.yarn.server.nodemanager.NodeStatusUpdaterImpl | Unexpected error starting NodeStat

恢复功能异常是可能导致 NodeStatusUpdater 启动失败的原因之一，核心在于恢复过程中的状态加载或 IO 操作异常会阻断 NodeManager 整体初始化流程。通过临时禁用恢复功能、检查状态文件和目录状态，可快速验证并定位问题。

2025-11-05 11:30:21 768

原创我有4篇PPT转PDF的文件，我想从这4个文件中提取大数据平台、数据中台、数据安全相关的内容，并根据这些内容规划出2026年可以建设和升级的功能，如何给大模型提问

要让大模型（如ChatGPT、Kimi、文心一言等）高效地完成这个任务，关键在于结构化、分步骤的提问，避免一次性抛出一个过于复杂和模糊的指令。

2025-10-31 14:15:03 806

分布式数据库的核心诉求是高可用、高并发、无冲突要保证连续，必须让所有节点共享一个“强一致计数器”，但会导致性能瓶颈（所有写入排队）和单点故障风险；要保证高可用和高并发，必须采用“预分配”“随机生成”等机制，而这些机制必然导致ID不连续。因此，在分布式场景中，“非连续自增ID”是技术权衡后的必然结果，实际业务中通常通过“业务字段补全排序”（如用创建时间排序）替代“ID连续排序”，而非强求ID本身连续。

2025-10-29 10:47:35 675

翻译《在性能优化时，如何避免盲人摸象》文章总结

性能优化的核心是“避免以偏概全”：需建立全局视角（从终端到数据库的全链路）、夯实基础（延迟基准、技术原理）、善用工具（火焰图、抓包、监控）、聚焦价值（优先解决影响用户体验与稳定性的问题）。

2025-10-29 10:30:03 29

原创把子查询放在 SELECT列表里、FROM子句里 (作为派生表) 或 WHERE子句里 (用于过滤) 的区别？

需为结果集添加 “行级计算列” 时，用 SELECT 列表中的子查询（注意性能）。需对数据先做聚合、过滤再关联时，用 FROM 子句的派生表（逻辑更清晰）。需基于其他表的数据筛选主查询行时，用 WHERE 子句的子查询（灵活处理条件）。

2025-10-24 09:53:53 876

原创聚合函数条件写在 WHERE后面和 HAVING子句的区别？

WHERE：分组前过滤行，不支持聚合函数，用于筛选原始记录。HAVING：分组后过滤组，支持聚合函数，用于筛选分组后的聚合结果。两者可配合使用：WHERE 先缩小数据范围，HAVING 再筛选分组结果，提高效率。

2025-10-24 09:19:26 401

原创 Doris什么情况下统计表信息不准确，需要手动ANALYZE

用于收集统计信息。可以针对表（可以指定具体列）或整个数据库进行列统计信息的收集。

2025-10-23 14:08:55 807

原创 Doris大小表关联查询，什么时候broadcast会失效

Broadcast Join 的过程涉及将右表的所有数据发送到所有参与 Join 计算的节点，包括左表数据的扫描节点，而左表数据则保持不动。这一过程中，每个节点都会接收到右表的完整数据副本（总量为 T(R) 的数据），以确保所有节点都具备执行 Join 操作所需的数据。

2025-10-23 14:03:42 690

原创 join 条件写到on后面和写到where后面的区别

子查询过滤：右表提前 “瘦身”，只留符合条件的行参与关联；ON 子句过滤：关联时挑剔匹配，但右表所有行都能 “露脸”；WHERE 子句过滤：关联后 “一刀切”，只留右表 u_name 为空的行。

2025-10-21 01:00:00 1826

原创 Doris报错：child of in predicate should be value

在某些场景下，用户需要关联多张表才能精确确定要删除的数据，这种情况下 USING 子句非常有用

2025-10-20 14:37:33 567

原创说说使用AI或者大模型主动分析大数据组件的warn和error日志有什么价值

传统日志分析是 “日志产生→人工排查→故障修复” 的被动流程，而 AI / 大模型构建了 “日志实时采集→AI 降噪 / 关联 / 预测→主动告警 / 自动预处理→故障根因定位→业务影响评估→解决方案推荐→案例沉淀迭代” 的主动闭环。其最终价值不仅是 “提高运维效率”，更是通过 “预防故障、减少中断、优化资源”，为大数据驱动的业务（如实时推荐、数据分析、AI 训练）提供稳定、可靠的底层支撑，间接提升业务竞争力。

2025-10-20 09:25:45 873

原创 Doris报错：failed to send brpc when exchange

Doris 中出现 “failed to send brpc when exchange” 错误，通常与 Doris 的分布式执行框架中 BRPC 通信异常相关，主要发生在查询执行过程中不同节点（FE/BE 或 BE 之间）通过 Exchange 算子传递数据时。

2025-10-17 15:14:42 910

原创 Doris base compaction 一直很高导致be节点的io使用率也很高

Doris Base Compaction 与 BE 节点 IO 使用率高，核心原因是 Compaction 任务本身需大量读写数据，当任务触发频繁、资源配置不合理或数据特征特殊时，IO 资源会被持续占用。

2025-10-17 11:01:26 929

原创记一次解决Hive locks

解决hive locks

2025-09-16 13:38:28 869

原创 Linux cgroup v1 和v2区别，Doris 该使用哪个版本

Doris Workload Group 以软限制为基础，通过资源竞争时的硬限制保障隔离性，兼顾了资源利用率和查询稳定性，与 YARN 弹性调度的设计理念相通，但实现细节更贴合 OLAP 场景的查询特性。

2025-09-01 13:46:04 1258

原创作为一名大数据架构师或者技术经理，在Oracle迁移Apache Doris过程中需要着重关注哪些要点

Oracle迁移Apache Doris的核心是“适配为先、数据为核、性能为目标、运维为保障”——需先明确业务与Doris的适配性，再通过严谨的数据迁移与SQL改造保障业务连续性，最后通过监控与预案确保长期稳定。

2025-09-01 10:06:51 1260

原创如何在实际应用中选择Blaze或Apache Gluten？

Blaze和Apache Gluten都是基于Spark插件机制实现的Native执行引擎，通过将Spark物理执行计划转换为中间格式，交由后端Native引擎执行。Blaze基于Rust和DataFusion开发，Gluten基于C++和Velox/ClickHouse开发，各有技术特点。

2025-08-29 18:00:24 1208

原创 tez的dag和spark的dag有什么区别

Tez 的 DAG 是 “为 SQL 批处理优化的静态管道”，Spark 的 DAG 是 “为多场景设计的动态内存计算流”，两者分别在各自的领域（大规模批处理 SQL vs 多模态计算）展现优势。

2025-08-29 00:15:00 1041

原创 hive on tez如果是2个大表union会写几次临时文件到hdfs目录，数据量如何计算

UNION（去重）：4 次临时文件写入，总数据量约3*(A + B) - C；实际数据量需结合压缩、过滤、重复率等因素调整，核心是 “每个 Stage 的输出都会产生临时文件”。

2025-08-28 16:20:44 1057

原创 hive on tez为什么写表时，要写临时文件到hdfs目录

Hive on Tez写表时使用HDFS临时目录，并非“额外步骤”，而是分布式计算场景下保障数据可靠性、计算高效性的必然设计。

2025-08-28 16:17:15 860

原创记二次hdfs集群缓慢问题核查：dfs.namenode.handler.count高

业务侧使用hive进行数据ETL，原始数据每天有很多小文件（kb级别），业务同时处理2天的数据，大概60W+文件，加上hive insert overwrite 中写tmp的逻辑，会导致写hdfs目录操作数翻一倍（120万），直接把`hdfs namenode dfs.namenode.handler.count`这个参数打满，hdfs 元数据夯死，整个hive任务陷入死循环，task不停失败，不停重试，不停写hdfs。

2025-08-26 14:48:43 926

原创 id_rsa open ssh private key和rsa private key区别：Caused by: invalid privatekey:[B***

将 OpenSSH 格式私钥转换为 PKCS#1 标准格式，确保 Java 工具能正确解析

2025-08-14 15:31:20 982

原创 Spark在什么情况下CBO才会判断失误，如何避免

CBO 判断失误的核心原因是“统计信息不可靠”或“数据特性超出建模能力”。通过定期更新统计信息用 Hint 干预关键计划处理数据倾斜和简化复杂查询，可大幅减少失误概率。实际应用中，需结合 Spark UI 监控和执行计划分析，持续优化统计信息和查询逻辑，让 CBO 更好地发挥作用。

2025-08-08 15:15:02 916

原创生产环境Tomcat运行一段时间后，如何测试其性能是否满足后续使用

全面评估 Tomcat 的性能现状，定位潜在问题，确保其能支撑后续业务增长。

2025-08-08 09:54:10 871

原创数据库RBO-基于规则的优化器，常见优化策略

RBO基于规则的优化器

2025-07-31 17:45:53 1073

原创 Sort Merge Join为什么是Spark中最优的join

Sort Merge Join 通过 “先分区（聚合同 Key）→ 再排序（整理顺序）→ 最后合并（线性匹配）” 的流程，将分布式环境下的大表连接转化为可并行的局部有序数据匹配，在内存有限、数据量大的场景中展现出远超 Hash Join 或 Broadcast Join 的稳定性和效率，因此成为 Spark 等框架处理大表连接的首选策略。

2025-07-31 14:24:23 1226

原创第一层nginx访问url如何透传到第二层nginx

实现第一层 Nginx 到第二层 Nginx 的 URL 完整透传，适用于需要多级代理且保留原始请求路径的场景。

2025-07-23 15:12:23 1165

原创如何解决flink job有101个task，已完成100个，还有1个还在运行，但是已完成的100个task对应taskmanager不释放问题

显著提升 Flink 集群的资源利用率，避免因少数 Task 阻塞导致的资源浪费。

2025-07-18 19:33:54 780

原创如何解决一个flink on yarn集群上已经跑了一个job，再提交第二个job的时候，task报java heap size oom的问题

先通过YARN UI确认集群剩余资源，判断是“资源不足”还是“配置不合理”；若资源不足：降低现有Job的并行度/内存配置，或隔离队列；若配置不合理：调整TaskManager堆内存参数（如长期解决：扩容YARN集群资源，或优化Job代码避免内存浪费。通过以上步骤，可逐步定位并解决“第二个Job提交时Task OOM”的问题。核心原则是“让资源分配与实际需求匹配”，避免过度占用或配置不足。

2025-07-18 19:32:38 777

原创 flink sql读hive catalog数据，将string类型的时间戳数据排序后写入kafka，如何保障写入kafka的数据是有序的

实现从 Hive 到 Kafka 的有序数据传输。

2025-07-16 17:03:06 766

原创 flink sql如何对hive string类型的时间戳进行排序

通过先转换时间类型再排序，可有效解决 Hive 字符串时间戳的排序问题。注意根据实际格式选择正确的转换函数，并结合执行模式优化性能。

2025-07-16 16:53:44 589

原创 fuser

通过该命令，可快速定位端口占用问题，是 Linux 系统运维中的常用工具。

2025-07-10 16:31:48 253

Linux常用命令以及使用样例.pdf

空空如也