自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 Kafka + AI 解决Bug&性能调优

如果您的系统具有更多的 CPU 核心,您可以考虑增加这两个参数的值。通常,num.network.threads 的值可以设置为 CPU 核心数的 1 到 2 倍,而 num.io.threads 的值可以设置为 CPU 核心数的 2 到 4 倍。调整 socket 参数: 您可以根据您的网络环境和系统资源来调整 socket.send.buffer.bytes 和 socket.receive.buffer.bytes 的值。如果您的网络具有更高的带宽和更低的延迟,可以尝试增加这些值以提高性能。

2023-09-28 15:11:45 140 1

原创 站在“道”的层次,重新认识大数据

大数据中的“原始数据”可以视为“无极”,而经过初步处理和组织的数据则如同“太极”,为深入分析和应用奠定了基础。”原始的、未加工的数据可能缺乏明确的结构和意义,但经过初步的整理和处理,它们可以变得更加有序和有意义,为后续的深入分析打下基础。同样,大数据不是一个静止的结构,而是在不断的演变与拓展,每天都有数以亿计的数据被添加进来。当使用算法处理数据时,过度的“修正”或“调整”数据可能会导致结果的偏差,而真正的洞察往往来自于数据的原始状态。这表明,尽管大数据的内容在不断变化,但其背后的结构和规律是相对恒定的。

2023-09-27 21:55:59 66 1

原创 AI驱动大数据开发(3)

Max Application Master Resources Per User (每用户最大 Application Master 资源): <memory:2560, vCores:1> 表示每个用户的 Application Master 最多可以使用 2560 MB 内存和 1 个虚拟核心资源。Effective Capacity (有效容量): <memory:24576, vCores:24> (100.0%) 表示队列实际可用的内存和虚拟核心资源分别为 24576 MB 和 24 个。

2023-09-22 19:44:19 264 1

原创 AI驱动大数据开发(2)

在自定义 Flink Sink 中,可以直接使用 Hive API 或 JDBC 批量写入数据,并在写入新数据后及时更新 Hive 的元数据。虽然我无法准确预测未来的Apache Flink版本的具体特性,但是可以基于在2021年Flink版本的发展趋势和社区讨论来为您提供一些可能的特性。这样,就可以在自己的电脑上编写后续的计算逻辑。StreamingFileSink的方式将数据直接写成hdfs上的文件,那hive的元数据是不是没有更新,这样的话我怎么样才能及时让hive知道有新的数据了呢。

2023-09-21 20:39:14 109

原创 AI驱动大数据开发(1)

id和date的行号rk,接着创建了一个新列date1,该列是date减去行号rk的结果。hiveSQL计算出来一张宽表 字段包括(总公司月度收入,总公司计划月度收入,总公司去年同期月度收入,总公司季度收入,总公司计划季度收入,总公司去年同期季度收入,总公司年度收入,总公司去年同期年度收入)hiveSQL计算出来一张宽表 字段包括(总公司月度收入,总公司计划月度收入,总公司去年同期月度收入,总公司季度收入,总公司计划季度收入,总公司去年同期季度收入,总公司年度收入,总公司去年同期年度收入)

2023-09-19 20:12:08 81

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除