![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 93
背帆
你从容不迫地奔跑而去,就连这么漫长迷茫的前程都不畏惧。
展开
-
基于Elasticsearch与Hbase组合框架的大数据搜索引擎
本项目为学校大数据工程实训项目,共开发4周,答辩成绩不错。代码仓库放文章尾,写的不好,代码仅供参考。原创 2023-06-16 16:13:53 · 2094 阅读 · 7 评论 -
NAST概述
NATS是由CloudFoundry的架构师Derek开发的一个开源的、轻量级、高性能的,支持发布、订阅机制的分布式消息队列系统。它的核心基于EventMachine开发,代码量不多,可以下载下来慢慢研究。不同于Java社区的kafka,nats偏于redis式的消息中间件,不不像Kafka式的可以持久化。原创 2023-03-07 20:23:58 · 5620 阅读 · 0 评论 -
spark简单数据查询与常见算子
假设当前目录为/usr/local/spark/mycode/testmysql,在当前目录下新建一个目录 mkdir -p src/main/scala , 然 后 在 目 录 /usr/local/spark/mycode/testmysql/src/main/scala 下 新 建 一 个testmysql.scala。(1) 在 MySQL 数据库中新建数据库 sparktest,再建表 employee,包含下列两行数据;该系总共有多少学生;原创 2023-02-20 00:37:47 · 727 阅读 · 0 评论 -
大数据竞赛MR培训与题型
JavaHadoopMapReduce 自己定义的需要序列化和反序列化可以通过实现 Writable接口来使用。 在重写map方法时,如果中间处理数据时将类型转化为Java的数据类原创 2022-11-27 22:05:26 · 3620 阅读 · 0 评论 -
流批OLAP一体的flink引擎
Flink 起源于 Stratosphere 项目,Stratosphere 是在 2010~2014 年由 3 所地处柏林的大学和欧洲的一些其他的大学共同进行的研究项目,2014 年 4 月 Stratosphere 的代码被复制并捐赠给了 Apache 软件基 金会, 参加 这个孵化项目的初始成员是Stratosphere 系统的核心开发人员,2014 年 12 月,Flink 一跃成为 Apache 软件基金会的顶级项目。原创 2022-09-05 18:32:22 · 1042 阅读 · 0 评论 -
exactly-once在Flink里的实现
动态表:与表示批处理数据的静态表不同,动态表是随时间变化的。可以像查询静态批处理表一样查询它们。数据库表是INSERT、UPDATE和DELETE DML语句的stream 的结果,通常称为changelog stream.当插入更多的流是,表会不断增长。原创 2022-09-05 18:26:57 · 1145 阅读 · 0 评论 -
hdfs高可用与高拓展机制分析
灾难:数据中心级别不可用故障不可避免,灾难有时发生如果HDFS不可用,业务停止的损失极大,所以高可用就至关重要。原创 2022-08-11 20:58:43 · 821 阅读 · 0 评论 -
hdfs分布式文件系统简介与设计原理
hdfs是大数据的地基,是大数据入门必须了解的一个东西。笔者最近也在做一个分布式文件系统的项目。会在之后更新hdfs的高可用设计和参考github项目原创 2022-08-11 20:42:05 · 1089 阅读 · 0 评论 -
spark原理及其优化
spark的前生今世,会深入其原理优化说明原创 2022-08-09 22:10:16 · 1216 阅读 · 0 评论