![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 87
zhangyankun_csdn
这个作者很懒,什么都没留下…
展开
-
hbase简介
比起传统的关系型数据库,可以存储半结构化非结构化的数据,可以存储和处理更大级别的数据,提供高效的查询,对于稀疏数据的处理更好,具有更好的横向扩展性,免费开源性价比很高。行键的设计将会影响数据在hbase表中的排序方式,这会影响region切分后的结果,要注意,在设计行键时应该让经常要查询的数据分散在不同的region中,防止某一个或某几个regionserver成为热点。按列存储,同一列的数据存放在一起,而同一列的数据一般都是同样的类型的内容相似的数据,可以实现非常高效的压缩,节省空间。原创 2024-03-22 10:53:48 · 877 阅读 · 0 评论 -
flume简介
内存存储通过embedded File channel来进行管理,当内存队列已满时,后续的事件将被存储在文件通道中,这个通道适用于正常操作期间适用内存通道已期实现高效吞吐,而在高峰期间适用文件通道实现高耐受性。可以处理JSON格式的数据,并支持UTF-8 UTF-16 UTF-32字符集,该handler接受Evnet数组,并根据请求头中指定的编码将其转换为Flume Event。使用单独的磁盘上的多个目录可以提高文件通道效率。要注意的是,放置到自动搜集目录下的文件不能修改,如果修改,则flume会报错。原创 2024-03-22 10:52:47 · 774 阅读 · 0 评论 -
Storm简介
所以如果你在做一个计数应用, 那么你每次更新到总数里面的是整个batch里面的tuple数量。将topology发布到Storm集群,将预先打包成jar文件的topology和配置信息提交到nimbus服务器上,一旦nimbus接收到topology的压缩包,会将jar包分发到足够数量的supervisor节点上,当supervisor节点接收到了topology压缩文件,nimbus就会指派task到每个supervisor并且发送信号指示supervisor生成足够的worker来执行指派的task。原创 2024-03-22 10:51:19 · 692 阅读 · 0 评论 -
Spark简介
思考点:序号 知识点 类型 难度系数 掌握程度知识点:序号 知识点 类型 难度系数 掌握程度2. 数量安装配置hadoop,启动伪分布式,启动HDFS服务 操作 1 熟练1.2. 搭建HDFS环境1.3. Spark介绍和安装1.3.1. 为什么会有Spark因为传统的并行计算模型无法有效的解决迭代计算(iterative)和交互式计算(interactive);而Spark的使命便是解决这两个问题,这也是他存在的价值和理由。Spark如何解决迭代计算?原创 2024-03-22 10:50:26 · 522 阅读 · 0 评论