慕青Voyager
码龄6年
关注
提问 私信
  • 博客:16,009
    动态:37
    16,046
    总访问量
  • 19
    原创
  • 1,316,164
    排名
  • 4
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:辽宁省
  • 加入CSDN时间: 2019-02-16
博客简介:

weixin_44664746的博客

查看详细资料
个人成就
  • 获得5次点赞
  • 内容获得14次评论
  • 获得48次收藏
  • 代码片获得523次分享
创作历程
  • 19篇
    2023年
成就勋章
TA的专栏
  • 软件工程
兴趣领域 设置
  • Java
    springjava-zookeeperjava-rocketmq
  • 大数据
    elasticsearchbig data
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

【Flink】容错机制

作用:保证故障后的恢复。最重要的是检查点。
原创
发布博客 2023.08.29 ·
190 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

【Flink】状态管理

算子任务分为有状态和无状态两种。
原创
发布博客 2023.08.29 ·
132 阅读 ·
0 点赞 ·
1 评论 ·
0 收藏

【Flink】处理函数的实现

在本部分中,针对自定义处理逻辑,通过“处理函数”接口,实现对转换算子的概括性表达。
原创
发布博客 2023.08.28 ·
79 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

【Flink】水位线设置与窗口的合并

Flink 水位线时间语义事件时间:数据产生的时间处理时间:数据真正被处理的时刻一般情况下,业务日志数据中都会记录数据生成的时间戳(timestamp),它就可以作为事件时间的判断基础。Flink 将事件时间作为默认的时间语义。事件时间和窗口逻辑时钟:事件进展靠着数据记录的时间戳来推动,使计算过程完全不依赖处理时间(系统时间)水位线用来衡量事件时间进展的标记。有序流中的水位线理想状态下希望数据按生成顺序进入流中,每条数据产生一个水位线。在实际中,由于数据量非常大,为提高效率,每隔一段
原创
发布博客 2023.08.28 ·
166 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

【Flink】窗口的机制及相关实验

Flink作为流计算引擎,主要用来处理无界数据流。数据源源不断、无穷无尽。通过将无限数据切割成有限的“数据块”进行处理,就有“窗口”的概念。在Flink中,窗口可以把流切割成有限大小的多个“存储桶”,每个数据都会分发的对应的桶中。当到达窗口结束时间时,就会对每个桶中收集数据进行计算处理。窗口不是静态准备好的,是动态创建的——有数据到达时才会创建对应窗口。窗口结束时间时,窗口会触发计算并关闭。
原创
发布博客 2023.08.27 ·
418 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

【Flink】算子总结

【代码】【Flink】算子总结。
原创
发布博客 2023.08.27 ·
165 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

【Flink】集群与部署

Flink中每一个TaskManager都是一个JVM进程,它可以启动多个独立的线程执行多个子任务。TaskManager包含了一定数量的Slots,Slot是资源调度的最小单位,Slot数量限制了TaskManager能够并行处理的任务数量。整个流处理程序的并行度是所有算子并行度最大的那个,这代表了应用程序需要的slot数量。只要属于同一作业,对不同任务节点(算子)的并行子任务,就可以放到同一个slot上执行。是Flink集群中任务管理和调度的核心,是控制应用执行的主进程。
原创
发布博客 2023.08.27 ·
106 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

【Spark】Spark MLlib 相关操作记录

MLlib 由一些通用的学习算法和工具组成,包括分类、回归、聚类、协同过滤、降维等。
原创
发布博客 2023.08.22 ·
134 阅读 ·
0 点赞 ·
1 评论 ·
0 收藏

【Spark】 Spark Streaming的状态转换与输出

对每个分段的DStream数据的处理就是对DStream的转换操作。
原创
发布博客 2023.08.21 ·
247 阅读 ·
0 点赞 ·
1 评论 ·
0 收藏

【Kafka】消息的产生与消费

Kafka是一种高吞吐量的分布式发布订阅消息系统。相关概念:Broker:Kafka集群上的服务器Topic:发布到集群上的消息类别Partition:物理上的分区Producer:负责发布消息到集群Consumer:消息消费者。
原创
发布博客 2023.08.21 ·
151 阅读 ·
0 点赞 ·
1 评论 ·
1 收藏

【Spark】Spark Streaming 流计算

静态数据在企业中是用于支持决策分析构建数据仓库系统的历史数据,数据使用ETL加载到数据仓库中,且不会发生更新。流数据指的是时间分布和数量上无限的一系列动态数据集合体,数据记录是流数据的最小单元。特征如下:数据快速持续到达,潜在大小也许是无穷无尽的。数据来源多,格式复杂。数据量大,但不关注存储。=> 流数据某个元素经过处理要么被丢弃要么归档存储。关注整体价值而非个别数据。系统无法控制到达数据元素的顺序。批量计算:以静态数据为对象,在充裕时间内对海量数据批量处理。
原创
发布博客 2023.08.20 ·
358 阅读 ·
0 点赞 ·
1 评论 ·
0 收藏

【Spark】Spark SQL的原理及实操

Spark SQL在Hive兼容层面仅依赖于HiveQL解析和Hive原数据。通过使用DataFrame(带有Schema信息的RDD)使用户执行SQL语句。
原创
发布博客 2023.08.20 ·
364 阅读 ·
0 点赞 ·
1 评论 ·
0 收藏

【Spark】RDD编程初级实验记录(林子雨教材)

实验时间:2023年8月19日实验地点:sict-reid。
原创
发布博客 2023.08.19 ·
474 阅读 ·
0 点赞 ·
0 评论 ·
8 收藏

【Spark】Spark框架RDD算子实操

项目名称:使用RDD算子在日志文件中找到不同省份的人对各城市关注度的排行实验时间:2023年8月18日实验地点:sict-reid。
原创
发布博客 2023.08.18 ·
67 阅读 ·
0 点赞 ·
1 评论 ·
0 收藏

【Hadoop】使用Docker容器搭建伪分布式集群

使用Docker搭建Hadoop伪分布式集群
原创
发布博客 2023.07.17 ·
818 阅读 ·
0 点赞 ·
1 评论 ·
1 收藏

【智能计算系统】深度学习处理器设计实验

国科大智能计算系统深度学习处理器设计实验记录
原创
发布博客 2023.06.08 ·
1451 阅读 ·
4 点赞 ·
3 评论 ·
18 收藏

【大数据运算系统】SSSP实验记录

大数据运算系统SSSP实验记录(中国科学院大学大数据系统与大规模数据分析课程作业)
原创
发布博客 2023.06.08 ·
113 阅读 ·
0 点赞 ·
1 评论 ·
0 收藏

【大数据运算系统】MapReduce实验记录

大数据运算系统MapReduce实验记录(中国科学院大学大数据系统与大规模数据分析课程作业)
原创
发布博客 2023.06.08 ·
92 阅读 ·
0 点赞 ·
1 评论 ·
0 收藏

【大数据存储系统】HDFS+HashJoin+HBase实验记录

大数据系统HDFS+HashJoin+HBase实验记录(中国科学院大学大数据系统与大规模数据分析课程作业)
原创
发布博客 2023.06.08 ·
5125 阅读 ·
0 点赞 ·
1 评论 ·
3 收藏
加载更多