随学随记随想随问
文章平均质量分 87
沐漜
。懒惰,呵呵
展开
-
大数据1问题??????
大数据的4V特征:1)大量化(Volume):存储量大、增量大针对这个特征现存的解决方案、应对措施?????2)多样化(Variety)数据来源多:互联网:搜索引擎,社交网络通话记录传感器数据格式多:结构化数据非结构化数据存储?及相应带来的问题,解决方案???????3)快速化(Velocity)高速数据I/O: 互联网连接设备的数量增长。原创 2017-11-09 16:16:07 · 219 阅读 · 0 评论 -
大数据1-Hbase原理、基本概念、基本架构
概述HBase是一个构建在HDFS上的分布式列存储系统;HBase是基于Google BigTable模型开发的,典型的key/value系统;HBase是Apache Hadoop生态系统中的重要一员,主要用于海量结构化数据存储;从逻辑上讲,HBase将数据按照表、行和列进行存储。与hadoop一样,Hbase目标主要依靠横向扩展,通过不断增加廉价的商用服转载 2017-11-12 16:35:46 · 381 阅读 · 0 评论 -
大数据1-淘宝MapReduce作业特性分析(转)
大部分是小作业,大多数运行几分钟或十几分钟.绝大多数在半小时之内。占用的slot数一般为几十到几百。集群同时在运行的作业数比较多。繁忙的时候同时运行的作业有六百多个, 每天完成的作业数万个。有些作业被分析多个要求顺序执行的小作业。各作业的依赖性比较大, 后面一组作业的开始时间受限前一组作业的结束时间Map slots与Reduce slots使用率不高,特别是Reduce Slots。作业周期性比转载 2017-11-12 14:41:54 · 338 阅读 · 0 评论 -
大数据1-淘宝Hadoop集群的概况(转)
国内外使用Hadoop的公司比较多,全球最大的Hadoop集群在雅虎,有大约25,000个节点,主要用于支持广告系统与网页搜索。国内用Hadoop的主要有百度、淘宝、网易、华为、中国移动等,其中淘宝的Hadoop集群属于较大的(如果不是最大)。淘宝Hadoop集群现在超过1700个节点,服务于用于整个阿里巴巴集团各部门,数据来源于各部门产品的线上数据库(Oracle, MySQL)备份,系转载 2017-11-12 14:33:40 · 1661 阅读 · 0 评论 -
大数据1-HADOOP版本选择
Hadoop作为开源项目,很多分枝。也有很多社区的支持。所以hadoop版本发展很快。大部分情况下,我们可以选择Apache社区版本:完全开源,免费,非商业。apache社区的hadoop版本分枝较多,而且部分hadoop存在bug。在选择hadoop,hbase,hive等时,需要考虑兼容性。Cloudera版本:开源,免费,有商业和非商业版本。是在apa转载 2017-11-11 16:13:33 · 368 阅读 · 0 评论 -
大数据1-hadoop架构体系中的【Hadoop】HDFS的运行原理
简介HDFS(Hadoop Distributed File System )Hadoop分布式文件系统。是根据google发表的论文翻版的。论文为GFS(Google File System)Google 文件系统(中文,英文)。HDFS有很多特点: ① 保存多个副本,且提供容错机制,副本丢失或宕机自动恢复。默认存3份。 ② 运行在廉价的机器上。转载 2017-11-11 15:38:34 · 231 阅读 · 0 评论 -
大数据1-Hadoop双namenode配置搭建(HA)
版权声明:本文为博主原创文章,未经博主允许不得转载。目录(?)[-]配置Hadoop文件启动命令首次启动命令日常启停命令测试验证配置双namenode的目的就是为了防错,防止一个namenode挂掉数据丢失,具体原理本文不详细讲解,这里只说明具体的安装过程。Hadoop HA的搭建是基于Zookeeper的,关于Zookeep转载 2017-11-11 16:00:02 · 1009 阅读 · 0 评论 -
大数据1-hadoop、zookeeper、hbase、spark集群环境搭建
本文详细讲解如何搭建hadoop、zookeeper、hbase和spark的集群环境,这里我是在本地虚拟机上搭建的集群,但是和实际环境的配置差不多。我会从零开始搭建并且尽量写得详细,所以还会讲到很多配置linux环境的东西,希望大家不要烦,务必按照步骤一步步做下去。 本文主要讲了以下内容:Linux系统的一些基础配置安装jdk配置SSH免登陆hadoop的安装和配置zookeeper转载 2017-11-11 15:55:28 · 677 阅读 · 0 评论 -
大数据1-Hadoop架构体系及在各方面的应用
hadoop中Hbase就是Google BigTable的开源实现.而在Hadoop架构体系中Hbase用作数据的存储。Hadoop体系架构:数据处理平台的基础架构:大数据平台架构图:对应相应的软件,及各个软件在架构中的作用:大数据在数据分析方面应用的架构:大数据在视频存储方面的应用架构:大数原创 2017-11-09 16:56:56 · 3900 阅读 · 0 评论 -
大数据1-Hadoop架构中的消息传输(ActiveMQ)
本文中的消息传输是用作消息传输的消息中间件。消息中间件利用高效可靠的消息传递机制进行平台无关的数据交流,并基于数据通信来进行分布式系统的集成。通过提供消息传递和消息排队模型,它可以在分布式环境下扩展进程间的通信。对于消息中间件,常见的角色大致也就有Producer(生产者)、Consumer(消费者)。常见的消息中间件产品:(1)ActiveMQActiveMQ 是原创 2017-11-12 16:53:29 · 1542 阅读 · 0 评论