hadoop
伱来打硪啊
这个作者很懒,什么都没留下…
展开
-
ZooKeeper知识点总结
ZooKeeperZookeeper概述概述Zookeeper是一个开源的分布式的,为分布式应用提供协调服务的Apache项目。ZooKeeper角色Leader(领导者)负责进行投票的发起和决议,更新系统状态Follower(跟随者)用于接收客户端请求并向客户端返回结果,在选主过程中参与投票Observer(观察者)可以接收客户端连接,将写请求转发给Leader节点。但Observer不参加投票过程,只同步Leader状态。特点zk Service原创 2020-10-14 15:31:53 · 222 阅读 · 0 评论 -
Hive知识点总结
HiveHive基本概念什么是HiveHive:由FaceBook开源,用于解决海量结构化日志的数据统计Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能本质:将HQL转换成MapReduce程序Hive处理的数据存储在HDFSHive分析数据底层的实现是MapReduce执行程序运行在YARN上Hive的优缺点优点操作接口采用类SQL语法,提供快速开发的能力(简单、容易上手)避免了去写MapReduce原创 2020-10-14 15:30:37 · 301 阅读 · 0 评论 -
HBase知识点总结
HBaseNoSQLNoSQL概念NoSQL理论NoSQL理论.pptxHBase介绍HBase的起源起源于谷歌论文BigTable高可靠性,高性能,面向列,可伸缩的分布式存储系统列存储的非关系型数据库目标:存储并处理大型数据特点海量存储列式存储列族易扩展基于上层处理能力的扩展(regionServer)基于存储的扩展(HDFS)高并发HBase的架构HDFS底层HBasezookeeper原创 2020-10-14 15:30:05 · 182 阅读 · 0 评论 -
Hadoop知识点总结
HadoopHadoop框架Hadoop是什么Hadoop是一个由Apache基金会所开发的分布式系统基础架构主要解决,海量数据的存储和海量数据的分析计算问题广义上来说,HADOOP通常是指一个更广泛的概念——HADOOP生态圈Hadoop发行版本Apache、Cloudera、Hortonworks(需要明确自己使用的版本)Apache版本最原始(最基础)的版本,对于入门学习最好Cloudera在大型互联网企业中用的较多Hortonworks文档较好Hadoop优势高可靠原创 2020-10-14 15:29:08 · 504 阅读 · 0 评论 -
9.26 Sqoop下载安装及使用
Sqoop的安装及使用Sqoop的安装安装Sqoop的前提是已经具备Java和Hadoop、Hive、Zookeeper、HBase的环境。下载并解压sqoop安装包sqoop-1.4.6-cdh5.14.2.tar.gz安装包的下载路径:链接:https://pan.baidu.com/s/1A10KF5OkdVRF3NG0WB5dnw 提取码:q0v0下载完成后上传到linux上 解压Sqoop安装包到指定的目录:tar -zxvf sqoop-1.4.6-cdh5.14.2.tar.原创 2020-09-29 16:14:06 · 522 阅读 · 0 评论 -
9.24 Hbase基础
Hbase基础NoSQLNoSQL:not only SQL,非关系型数据库NoSQL是一个通用术语指不遵循传统RDBMS模型的数据库数据是非关系的,且不使用SQL作为主要查询语言解决数据库的可伸缩性和可用性问题不针对原子性或一致性问题为什么使用NoSQL互联网的发展,传统关系型数据库存在瓶颈高并发读写高存储量高可用性高扩展性低成本NoSQL和关系型数据库对比主要有以下一些区别对比NoSQL关系型数据库常用数据库HBase、M原创 2020-09-24 16:54:19 · 140 阅读 · 0 评论 -
9.22 hive 函数
Hive函数Hive函数分类从输入输出角度分类标准函数:一行数据中的一列或多列为输入,结果为单一值聚合函数:多行的零列到多列为输入,结果为单一值表生成函数:零个或多个输入,结果为多列或多行从实现方式分类内置函数自定义函数UDF:自定义标准函数UDAF:自定义聚合函数UDTF:自定义表生成函数内置函数Hive提供大量内置函数供开发者使用标准函数字符函数类型转换函数数学函数日期函数集合函数条件函数聚合函数表生成函数字符函数原创 2020-09-22 16:59:19 · 98 阅读 · 0 评论 -
9.17 hive高级语法01
hive高级语法数据库(Database)表的集合,HDFS中表现为一个文件夹默认在hive.metastore.warehouse.dir属性目录下如果没有指定数据库,默认使用default数据库create database if not exists myhivebook;use myhivebook;show databases;describe database default; --more details than ’show’, such as location原创 2020-09-17 20:00:21 · 453 阅读 · 0 评论 -
9.16 hive基础语法
Hive基础语法HiveServer和beeline(HiveServer2)的区别:hive不需要启动服务再访问beeline需要启动服务端,在访问客户端beeline在查询效率上比hive高,beeline不支持update和deletehive:连接方式hive -h hostname -p port加载文件将本地文件上传到指定的存储路径中表就可以读取到数据(需要和表结构匹配)使用load命令load data local inpath 'local_dir原创 2020-09-16 17:34:26 · 267 阅读 · 0 评论 -
9.15 分布式资源调度框架yarn
分布式资源调度框架yarnyarn的前世今生Hadoop1.x 版本中最大的问题是资源问题对数据的处理和资源调度主要依赖MapReduce完成,只能运行MapReduce程序JobTracker负责资源管理和程序调度,压力较大Hadoop2.x 版本添加 YARN主要负责集群资源管理yarn概述YARN(Yet Another Resource Negotiator)核心思想是将资源管理和任务的监控和调度分离通用的资源管理系统,可为不同的应用(MapRedu原创 2020-09-15 20:19:05 · 108 阅读 · 0 评论 -
9.12 MapReduce原理及编程
MapReduce原理及编程Hadoop架构HDFS - 分布式文件系统MapReduce - 分布式计算框架YARN - 分布式资源管理系统Common什么是MapReduce?MapReduce是一个分布式计算框架它将大型数据操作作业分解为可以跨服务器集群并行执行的单个任务。起源于Google适用于大规模数据处理场景每个节点处理存储在该节点的数据每个job包含Map和Reduce两部分MapReduce的设计思想分而治之简化并行计算的编程模型原创 2020-09-15 20:16:56 · 165 阅读 · 0 评论 -
9.15 Hive基础介绍
Hive什么是Hive?. 基于Hadoop的数据仓库解决方案将结构化的数据文件映射为数据库表提供类sql的查询语言HQL(Hive Query Language)Hive让更多的人使用HadoopHive成为Apache顶级项目Hive始于2007年的Facebook官网:hive.apache.orgHive的优势和特点提供了一个简单的优化模型HQL类SQL语法,简化MR开发支持在不同的计算框架上运行支持在HDFS和HBase上临时查询数据支持用户自定义函数原创 2020-09-15 16:54:19 · 1056 阅读 · 0 评论 -
9.9 大数据概况以及Hadoop生态圈
大数据1、什么是大数据 大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。2、大数据特征 4V特征: Volume(大数据量):90% 的数据是过去两年产生 Velocity(速度快):数据增长速度快,时效性高 Variety(多样化):数据种类和来源多样化 数据种类包括结构化数据,半结构化数据,非结构化数据,表现为日志,音频,视频,图片,地理位置信息等 Value(价值密度低):需挖掘获取数据价值 固有特征: 时效性:指一段时间在某一时间段原创 2020-09-10 18:59:14 · 262 阅读 · 0 评论 -
9.8 hadoop高可用搭建
前提条件:1、 hadoop集群是OK的2、zookeeper是OK的3、修改 core-size.xml<!-- 指定hdfs的nameservice为ns --> <property> <name>fs.defaultFS</name> <value>hdfs://ns</value> </property> <!-- 指定hadoop临时目录 --> <prope原创 2020-09-08 13:57:58 · 112 阅读 · 0 评论 -
9.4 使用java操作hadoop
操作前准备1、新建maven项目2、引入jar包<!-- 引入hadoop-common Jar包 --> <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-common</artifactId> <version>2.6.0</version> </depen原创 2020-09-04 14:33:44 · 764 阅读 · 0 评论 -
9.3 Hadoop配置安装
分布式由分布在不同主机上的进程(程序)协同在一起才能构成整个应用。Browser/web server:瘦客户端程序.大数据4V特征1.Volumn : 体量大2.Velocity : 速度快3.Variaty : 样式多4.Value : 价值密度低Hadoop可靠的、可伸缩的、分布式计算的开源软件.是一个框架、允许跨越计算机集群的大数据集处理,使用简单的编程模型(MapReduce)。可从单个服务器扩展到几千台主机,每个节点提供了计算和存储的功能。而不是依赖高可用性的机转载 2020-09-03 17:29:36 · 112 阅读 · 0 评论