Hadoop
文章平均质量分 52
zhaozuoyou
这个作者很懒,什么都没留下…
展开
-
HDFS Decommission退服慢的问题
dfs.namenode.replication.work.multiplier.per.iteration 每次复制的块的个数为dn的个数*该参数dfs.namenode.replication.max-streams 进行复制任务分配时,单个DN人队伍的最大值dfs.namenode.replication.max-streams-hard-limit 若DN的复制任务大于该值时,不会将其选为复制的源节点<property> <name>dfs.namen转载 2021-12-23 17:57:31 · 491 阅读 · 0 评论 -
HDFS java API创建及使用
HDFS中java api主要是对HDFS中数据的操作,如增删读等,涉及的类有:Configuration类:该类的对象封装了客户端或者服务器的配置。FileSystem类:该类的对象是一个文件系统对象,可以用该对象的一些方法来对文件进行操作。FileSystem fs = FileSystem.get(conf);通过FileSystem的静态方法get获得该对象。FSDataInputStream和FSDataOutputStream:这两个类是HDFS中的输入输出流。分别通过FileSystem原创 2020-12-22 12:10:59 · 339 阅读 · 0 评论 -
Hadoop之HDFS详解
一:HDFS架构1:HDFS设计理念HDFS是为了解决大批量数据存储的问题,通过其独特的设计可以将大量的数据文件进行切分,分别存储到多台机器上,并对每个文件都进行备份,从而保证了其低成本的存储又具有高容错的性能...原创 2020-12-22 11:12:20 · 245 阅读 · 0 评论 -
Hive建表语句
Hive建内部表-- 创建一个内部表create table if not exists student(id int, name string)row format delimited fields terminated by '\t'stored as textfilelocation '/home/hadoop/hive/warehouse/student';-- 查询表的类型desc formatted student;Show create table student;建表原创 2020-12-22 09:47:01 · 13872 阅读 · 0 评论 -
Hadoop之Hadoop高容错
Hadoop高容错性大概分为三大块1:HDFS的副本容错机制2:YARN的容错机制3:ZOOKEEPER高可用集群容错性首先了解一下HDFS的副本机制##1:为什么要有副本机制##HDFS视硬件错误为常态,硬件服务器随时有可能发生故障。为了容错,文件的所有 block 都会有副本。每个文件的 block 大小和副本系数都是可配置的。应用程序可以指定某个文件的副本数目。副本系数可以在文件创建的时候指定,也可以在之后改变。数据副本默认保存三个副本,我们可以更改副本数以提高数据的安全性在原创 2020-12-20 18:37:22 · 1568 阅读 · 1 评论 -
HIVE的基础作用及环境搭建
什么是Hive基于Hadoop的数据仓库解决方案提供类sql的查询语言HQLHive让更多的人使用HadoopHive的优势和特点入门简单,HQL类SQL语法统一的元数据管理,可与impala/spark等共享元数据灵活性和扩展性较好:支持UDF,自定义存储格式等支持在不同的计算框架上运行(MR, Tez, Spark)提供了一个简单的优化模型适合离线数据处理,稳定可靠(真实生产环境)有庞大活跃的社区Hive与MapReduce对比那个执行效率更快?MapReduce执原创 2020-12-09 16:34:58 · 440 阅读 · 0 评论