DataMaster01-CSDN博客

原创 Kafka + AI 解决Bug&性能调优

如果您的系统具有更多的 CPU 核心，您可以考虑增加这两个参数的值。通常，num.network.threads 的值可以设置为 CPU 核心数的 1 到 2 倍，而 num.io.threads 的值可以设置为 CPU 核心数的 2 到 4 倍。调整 socket 参数：您可以根据您的网络环境和系统资源来调整 socket.send.buffer.bytes 和 socket.receive.buffer.bytes 的值。如果您的网络具有更高的带宽和更低的延迟，可以尝试增加这些值以提高性能。

2023-09-28 15:11:45 160 1

原创站在“道”的层次，重新认识大数据

大数据中的“原始数据”可以视为“无极”，而经过初步处理和组织的数据则如同“太极”，为深入分析和应用奠定了基础。”原始的、未加工的数据可能缺乏明确的结构和意义，但经过初步的整理和处理，它们可以变得更加有序和有意义，为后续的深入分析打下基础。同样，大数据不是一个静止的结构，而是在不断的演变与拓展，每天都有数以亿计的数据被添加进来。当使用算法处理数据时，过度的“修正”或“调整”数据可能会导致结果的偏差，而真正的洞察往往来自于数据的原始状态。这表明，尽管大数据的内容在不断变化，但其背后的结构和规律是相对恒定的。

2023-09-27 21:55:59 71 1

原创 AI驱动大数据开发（3）

Max Application Master Resources Per User (每用户最大 Application Master 资源): <memory:2560, vCores:1> 表示每个用户的 Application Master 最多可以使用 2560 MB 内存和 1 个虚拟核心资源。Effective Capacity (有效容量): <memory:24576, vCores:24> (100.0%) 表示队列实际可用的内存和虚拟核心资源分别为 24576 MB 和 24 个。

2023-09-22 19:44:19 364 1

原创 AI驱动大数据开发（2）

在自定义 Flink Sink 中，可以直接使用 Hive API 或 JDBC 批量写入数据，并在写入新数据后及时更新 Hive 的元数据。虽然我无法准确预测未来的Apache Flink版本的具体特性，但是可以基于在2021年Flink版本的发展趋势和社区讨论来为您提供一些可能的特性。这样，就可以在自己的电脑上编写后续的计算逻辑。StreamingFileSink的方式将数据直接写成hdfs上的文件，那hive的元数据是不是没有更新，这样的话我怎么样才能及时让hive知道有新的数据了呢。

2023-09-21 20:39:14 149

原创 AI驱动大数据开发（1）

id和date的行号rk，接着创建了一个新列date1，该列是date减去行号rk的结果。hiveSQL计算出来一张宽表字段包括(总公司月度收入，总公司计划月度收入，总公司去年同期月度收入，总公司季度收入，总公司计划季度收入，总公司去年同期季度收入，总公司年度收入，总公司去年同期年度收入)hiveSQL计算出来一张宽表字段包括(总公司月度收入，总公司计划月度收入，总公司去年同期月度收入，总公司季度收入，总公司计划季度收入，总公司去年同期季度收入，总公司年度收入，总公司去年同期年度收入)

2023-09-19 20:12:08 97

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 Kafka + AI 解决Bug&性能调优

原创 站在“道”的层次，重新认识大数据

原创 AI驱动大数据开发（3）

原创 AI驱动大数据开发（2）

原创 AI驱动大数据开发（1）

空空如也

空空如也

原创站在“道”的层次，重新认识大数据