Hadoop
文章平均质量分 88
Gogo-2020
这个作者很懒,什么都没留下…
展开
-
使用Hadoop所需要的一些Linux基础
Linux 概念Linux 是一个类Unix操作系统,是 Unix 的一种,它控制整个系统基本服务的核心程序 (kernel) 是由Linus 带头开发出来的,「Linux」这个名称便是以「Linus’s unix」来命名的。Linux泛指一类操作系统,具体的版本有: Ubuntu、CentOS、Debian、Red Hat、OpenSUSE、UOS(统信)、Deepin(深度)、优麒麟(Ubuntu Kylin)等。Linux是一个多用户、多任务的操作系统。Linux支持带卓面(GNOME原创 2021-06-01 09:14:01 · 251 阅读 · 0 评论 -
Hadoop生态系统
大数据架构-LambdaLambda架构由Storm的作者Nathan Marz提出。旨在设计出一个能满足实时大数据系统关键特性的架构,具有高容错、低延时和可扩展等特性。Lambda架构整合离线计算和实时计算,融合不可变性(Immutability),读写分离和复杂性隔离等一系列架构原则,可集成Hadoop,Kafka,Storm,Spark,HBase等各类大数据组件三层架构:批处理层、实时处理层、服务层数据采集之Flume和KafkaFlumeFlume是Cloudera提供的高可用的原创 2021-05-31 21:42:37 · 120 阅读 · 2 评论 -
Hbase
Hbase定义----Hadoop DatabasHBase是一个分布式的、面向列的开源数据库,该技术来源于Google论文"Bigtable:一个结构化数据的分布式存储系统"。介于NOSQL和RDBMS之间,仅能通过主键(row key)和主键的range来检索数据,仅支持单行事务(可通过hive支持来实现多表join等复杂操作)。高可靠性、高性能、面向列、可伸缩、实时读写HBase中的表的特点大:一个表可以有上亿行,上百万列;面向列:面向列(族)的存储和权限控制,列(族)独立检索;稀疏原创 2021-05-31 21:31:03 · 183 阅读 · 0 评论 -
-Hive-
Hive定义Hive 是一种数据仓库技术,用于查询和管理存储在分布式环境下的大数据集。构建于Hadoop的HDFS和MapReduce上,用于管理和查询分析结构化/非结构化数据的数据仓库;使用HQL(类SQL语句)作为查询接口;使用HDFS作为底层存储;使用MapReduce作为执行层,即将HQL语句转译成M/R Job然后在Hadoop执行Hive的表其实就是HDFS的目录/文件夹,按表名把文件夹分开。如果是分区表,则分区值是子文件夹;Hive概述—元数据、数据、目录元数据保存在DB(原创 2021-05-31 20:35:56 · 793 阅读 · 0 评论 -
Zookeeper
Zookeeper定义Zookeeper 是 Google 的 Chubby一个开源的实现,是 Hadoop 的分布式协调服务;它包含一个简单的原语集,分布式应用程序可以基于它实现同步服务,配置维护和命名服务等;Zookeeper能帮我们做什么Failover故障切换:主机有故障时如何自动切换?Hadoop,使用Zookeeper的事件处理确保整个集群只有一个(active)NameNode,存储配置信息等。实现(standby)NameNode自动切换为activeHBase,使用Z原创 2021-05-31 19:05:48 · 72 阅读 · 0 评论 -
MapReduce编程
自定义Mapper类class TokenizerMapperextends Mapper<Object, Text, Text, IntWritable>{ … }自定义mapper类都必须实现Mapper类,有4个类型参数,分别是:Object:Input Key Type-------------K1Text: Input Value Type-----------V1Text: Output Key Type-----------K2IntWritable: Ou原创 2021-05-31 18:34:56 · 671 阅读 · 1 评论 -
Mapreduce原理和YARN
MapReduce定义MapReduce是一种分布式计算框架,由Google公司2004年首次提出,并贡献给Apache基金会。MR版本MapReduce 1.0,Hadoop早期版本(只支持MR模型)MapReduce 2.0,Hadoop 2.X版本(引入了YARN资源调度框架后,除了支持MR,还支持其他计算模型MR V1 执行流程JobTracker一直在等待JobClient提交作业;TaskTracker每隔3秒向 JobTracker发送心跳heartbeat询问有没有任原创 2021-05-31 18:33:52 · 331 阅读 · 0 评论 -
HDFS 技术
HDFS定义Hadoop Distributed File System,是一个使用 Java 实现的、分布式的、可横向扩展的文件系统,是 HADOOP 的核心组件HDFS特点处理超大文件流式地访问数据运行于廉价的商用机器集群上;HDFS 不适合以下场合:低延迟数据访问大量小文件的存储不支持多用户写入及任意修改文件HDFS基本结构HDFS相关概念 --块HDFS使用了块的概念,默认大小128M/256M字节可针对每个文件配置,由客户端指定每个块有一个自己的全局ID原创 2021-05-31 18:31:52 · 386 阅读 · 0 评论 -
Hadoop安装及配置
Hadoop的三种运行模式单机模式(Standalone,独立或本地模式):安装简单,运行时只启动单个进程,仅调试用途;伪分布模式(Pseudo-Distributed):在单节点上同时启动namenode、datanode、secondarynamenode、resourcemanager 、nodemanager等5个进程,模拟分布式运行的各个节点 ;完全分布式模式(Fully-Distributed) :正常的Hadoop集群,由多个各司其职的节点构成Hadoop安装步骤配置主机名、网原创 2021-05-31 18:31:16 · 544 阅读 · 4 评论 -
大数据与Hadoop
大数据的定义大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。大数据的概念–4V+XV1,数据量大(Volume)2,类型繁多(Variety )3,速度快时效高(Velocity)4,价值密度低(ValueLess )可变性(Variability)真实性(Veracity大数据的概念–数量、类型大数据产生模式的三个阶段运营式系统阶段管理信息应用系统用户原创内容阶段WEB 2.0, 微博、微信等感知式系统阶段传感器,物联网原创 2021-05-31 17:30:21 · 132 阅读 · 0 评论