大数据
文章平均质量分 92
周小西zxx
学生党一枚,网上找教程自学的心得和记录,只是随笔记录,可能部分没有写的很详细
展开
-
大数据项目-站点流量监测
实现了站点的流量监控。下图是流程和实现模块。项目文档(点击)项目代码(点击)原创 2020-09-09 16:42:28 · 204 阅读 · 0 评论 -
hbase个人总结
概述分布式非关系型数据库列存储可以存储大数据量数据最后是落盘到hadoop上,廉价,便于横向拓展没有主键的概念,行键Rowkey代替主键数据写入不是覆盖,而是记录一个新的VERSION,默认显示最新VERSION的数据namespace下有default和hbase两个自带的属性空间,hbase不要动,表默认写入default中。列存储写入数据的时候,行存储数据是连续的,只要尾部追加,而列存储需要多少寻址。行比列快...原创 2020-09-03 17:45:15 · 464 阅读 · 0 评论 -
HBASE 抛弃-ROOT-的原因
-ROOT-的作用》HBase是基于HDFS是要存储海量数据的》数据量巨大,数据本身的结构再复杂一些,那么会产生大量的table》table一多,元数据就会增多》元数据如果过多,那么元数据都存储在一个文件中由一个节点来管理就会导致查询效率变低》元数据分布式存储(.meta.文件可以有好多个)》因为元数据是分布式存储的,所以来了请求之后去找哪一个.meta.文件呢?》利用-ROOT-存储.meta.文件的位置HBase0.96开始为什么舍弃了-ROOT-?》HBase是基于HDFS存储的,所原创 2020-09-03 15:08:22 · 435 阅读 · 0 评论 -
spark
文章目录概述spark为什么比hadoop快?RDDTransformation -- 变换--懒操作Actions - 执行单词统计计算宽依赖和窄依赖DAGStageSpark ShuffleRDD缓存CheckpointSpark调度概述离线批处理+实时流处理spark为什么比hadoop快?hadoop的shuffle产生大量的磁盘IO影响了效率。spark在内存中操作,尽量避免数据落盘操作(窄依赖不进行shuffle)sh spark-shell --master=local(单机模原创 2020-08-31 22:31:24 · 107 阅读 · 0 评论 -
Hive
数据仓库通过sql语言管理hdfs上的数据,底层转化为MapReduce,效率很低。适合离线分析/批处理。将hive默认数据库调整为mysql后,每次启动hive需要先启动hadoop集群和数据库,再启动hivestart-all.sh #启动hadoopservice mysql start #启动数据库sh hive #进入hive操作页面没有主键的概念insert overwrite表示覆盖,insert into 追加创建表> create原创 2020-08-28 19:37:20 · 196 阅读 · 0 评论 -
hive启动失败Caused by: java.net.ConnectException: Connection refused
hive启动失败,遇到以下错误[root@hadoop01 bin]# hiveLogging initialized using configuration injar:file:/home/software/hive/lib/hive-common-1.2.0.jar!/hive-log4j.propertiesException in thread “main” java.lang.RuntimeException:java.net.ConnectException: Call From原创 2020-08-26 02:05:51 · 2088 阅读 · 0 评论 -
hadoop之mapReduce
概述mapReduce是hadoop中的分布式计算框架TaskTracker就是NodeManagerJobTacker就是ResourceManager..序列化要求数据能被序列化,默认采用avro,mapreduce对avro做了封装,有writable接口..分区不设置默认一个分区,编号从0开始分区数决定reduce的数量..排序继承Comparable接口或者WritableComparable接口..combiner - 合并job.setCombiner原创 2020-08-24 22:01:18 · 177 阅读 · 0 评论 -
hadoop之HDFS
概述hadoop包括hdfs, yarn, mapReduce.hdfs分布式存储系统yarn任务调度,资源管理的框架mapReduce计算框架hadoop搭建集群有几种 :单机模式伪分布式完全分布式特点总结切块能存储超大文件心跳保证检测故障不允许修改一次写入,多次读取,不允许修改,允许追加写入不建议存小文件,产生大量元数据能在廉价设备上横向拓展不支持低延迟响应不支持事务,允许大数据下的容错原创 2020-08-24 19:48:46 · 195 阅读 · 0 评论 -
hive启动失败READ COMMITTED, hive创建表失败org.apache.hadoop.hive.ql.exec.DDLTask. MetaException问题总结
hive元数据使用mysql,发现hive启动和在hive中创建表失败的BUG。启动失败报错提示:Caused by: java.sql.SQLException: Cannot execute statement: impossible to write to binary log since BINLOG_FORMAT = STATEMENT and at least one table uses a storage engine limited to row-based logging. Inn原创 2020-08-19 11:04:55 · 912 阅读 · 0 评论 -
zookeeper基础总结
zookeeper描述分布式协调和管理的机制中心化服务:配置信息,统一命名,提供组服务树状结构,每个节点必须携带数据,临时节点不能挂载子节点。单机模式伪分布式完全分布式包含临时节点和持久节点。选举机制当集群启动时,会进入选举状态。每个节点都会选举自己当leader,向其他节点发送选举信息(最大事务Id, 选举id),互相之间比较得出leader,其他节点作为follower.最大事务Id 最大的节点,则为leader,否则比较选举id最大的。且选举必须满足过半性。若已经选举出leade原创 2020-07-22 10:42:15 · 157 阅读 · 0 评论