hadoop
文章平均质量分 82
xiaoxiao______
这个作者很懒,什么都没留下…
展开
-
sqoop将memstore切换到mysql的错误
1、20/10/29 19:23:24 WARN hsqldb.HsqldbJobStorage: Could not interpret as a number: null20/10/29 19:23:24 ERROR hsqldb.HsqldbJobStorage: Can not interpret metadata schema20/10/29 19:23:24 ERROR hsqldb.HsqldbJobStorage: The metadata schema version is null原创 2020-10-29 19:36:40 · 123 阅读 · 0 评论 -
sqoop
一、复习flume1. flume的简介 - flume是apache基金会旗下的一款项目 - flume用于采集数据,通常采集的是行为数据(日志文件) (结构上分类:结构化数据,半结构化的数据,非结构化的数据 采集数据的种类进行分类:行为数据(日志文件),业务数据,内容数据,第三方数据源) - flume具有的特点:分布式的,可靠性的,高可用的等 2. flume的体系结构 - 运行单元是agent, agent至少包含一个source,一个channel,一个sink -原创 2020-10-28 21:47:54 · 156 阅读 · 0 评论 -
flume
文章目录一、大数据项目简介1.1 整个学习周期的项目1.2 数据采集和监控系统的简介二、Flume框架概要2.1 flume的简介2.2 设计思想2.3 Flume体系结构(重点)2.4 Flume的数据流模型2.5 采集方案模板2.6 常用的核心组件三、Flume的安装四、Flume案例演示案例1)avro+memory+logger案例2)exec+memory+logger案例3)exec+memory+hdfs案例4)spool+memory+logger案例5)spool+file+hdfs案例6原创 2020-10-27 19:47:04 · 133 阅读 · 0 评论 -
phoenix 01 (概述,安装,连接方式,增删改查,schema操作,映射)
phoenix是什么?phoenix目前是apache旗下的一款开源工具phoenix是构建在hbase层之上的一个sql层,使用标准的sql语言对hbase进行操作sql会被翻译成hbase的API,比如扫描对象Scan,过滤器Filter等phoenix适合做OLAP的工作(不适合做OLTP)为什么要学?(特点)phoenix虽然是构建在hbase层之上,但是由于以下特点,不会影响查询性能,反而会提高性能编译SQL查询为原生HBase的scan语句检测scan语句最佳的开始和结束的原创 2020-10-22 18:39:37 · 1066 阅读 · 0 评论 -
Hive。。
什么是hive?1、hive是一个运行在分布式应用程序上的一个数据仓库管理工具2、hive可以将hdfs上的具有一定结构的文件映射成一张表,,并且提供了类sql的语法来管理和分析这些表(本质就是hdfs上的文件)3、用于描述文件和表的映射关系的数据叫做元数据,存储在关系型数据库中(mysql,oracle等)4、默认情况下执行引擎为mapreduce(还有spark等)hive是干什么的?1、hive是一个运行在分布式应用程序上的一个数据仓库管理工具2、hive可以将hdfs上的具有一定结构的原创 2020-10-09 19:48:17 · 371 阅读 · 1 评论 -
mapreduce
什么是mapreduce1、是apacheHadoop项目的一个核心模块2、是对google提出来的分布式并行编程模型《MapReduce》论文的java开源实现3、mapreduce是运行在hdfs上的一个分布式运算程序的编程框架,用于大数据集的并行运算为什么会有mapreduce1、在单机上处理海量数据,硬件资源有限,无法完成2、而将单机程序扩展到集群中分布式运行,将极大增加程序的复杂度和开发难度3、引入mapreduce框架后,开发人员可以将分布式计算的负杂性交由框架来处理mapred原创 2020-10-07 17:42:52 · 1393 阅读 · 0 评论 -
zookeeper
zookeeper是什么?1、是apache的一个开源框架2、是分布式应用程序的 协调服务框架,是hdfs和hbase的重要组成部分3、本身就是一个分布式应用框架4、拥有类unix的文件系统的树状图的数据存储模型5、提供了监听和通知的功能6、提供了一组机器指令,提供了java和C语言接口zookeeper的特点1、是一个分布式集群框架,一个leader多个follower2、半数以上存活就可以正常工作,所以一般适合安装在奇数台机器上3、会把请求按照提交的先后顺序执行4、数据一致性,所有原创 2020-10-05 11:05:28 · 158 阅读 · 0 评论 -
hdfs;;
hdfs是什么?干什么的?hdfs是hadoop框架的一个核心组件,就是一个分布式文件系统,主要负责存储大数据集。hdfs中块的概念传统文件系统的块的缺点传统文件系统中的块 没有规定块的大小是统一的,因此有以下缺点– 1. 负载不均衡: 每台机器上存储的文件大小非常不均匀,有的机器只存储很小的文件,有的机器存储很大的文件。– 2. 网络瓶颈问题: 网络带宽本来就稀缺,用户在使用时,集中到某几台机器上读取文件,因此本来就已经很稀缺的网络带宽有被稀释了。hdfs的块的特点– hdfs的块大小统一原创 2020-10-04 11:28:04 · 230 阅读 · 0 评论 -
hadoop
hadoop是什么?1、hadoop是apache旗下的一款项目2、解决了大数据集的存储和计算分析3、使用java编写的,所以可以跨平台4、开源的5、运行在廉价的机器上,机器宕机是常态 ,容错度高6、利用集群的cpu并发计算,性能好hadoop的核心模块1、command:hadoop框架的通用模块2、hdfs:hadoop的分布式存储文件系统,用于存储大数据集3、mapreduce:hadoop的分布式计算分析框架,提供了移动计算而非移动数据的思想,并发计算,性能好...原创 2020-10-04 10:06:41 · 58 阅读 · 0 评论