Hadoop
文章平均质量分 87
Hadoop
今晚滿天星
一直在成长的路上
展开
-
Chapter7 Hadoop架构架构演进与生态组件
7.1 Hadoop的优化与发展7.1.1 Hadoop的局限和不足Hadoop在刚刚推出时,存在很多不足。存在的不足如下:抽象层次低,需人工编码。很多工作没有办法从高层撰写逻辑代码,必须从最底层进行逻辑编码。即使是很简单的任务都要编写完整的MapReduce代码,然后进行编译、打包、运行。表达能力有限在Hadoop核心组件中,MapReduce负责计算,虽然它将复杂的分布式计算全部抽象为Map和Reduce函数,简化了编程工作。但同时这种方法也限制了表达能力,现实中的很多问题没有办法使用Ma原创 2021-10-20 13:42:27 · 801 阅读 · 0 评论 -
Hive初始化元数据仓库:java.sql.SQLException : Access denied for user ‘hive‘@‘localhost‘ (using password: YES)
使用命令./bin/schematool -dbType mysql -initSchema初始化元数据仓库时,出现如下错误:导致报错的原因可能并不相同,这里只写出我遇到的情况(Linux下),有两种解决方法:方法一:检查hive-site.xml文件中的用户名和密码这个文件是Linux中配置hive的文件。进入到对应目录后,可以使用命令vim hive-site.xml打开。着重检查下面两个部分,检查你的用户名和密码配置是否正确: <!--连接数据的用户名--> <p原创 2021-10-16 16:33:24 · 1899 阅读 · 0 评论 -
Chapter6 数据仓库Hive
6.1数据仓库概念6.1.1什么是数据仓库数据仓库:数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。数据仓库的目的:支持企业内部的商业分析和决策,让企业可以基于数据仓库的分析结果作出相关的经营决策。数据仓库的典型体系结构:数据仓库的数据都来自数据源,数据源中的数据需要经过抽取、转换、加载(ETL过程),再进入数据仓库。接着可以通过OLAP服务器和数据挖掘引擎,对上层应用提供服务,从而提供各种类型的服务。数据仓库是相对稳定的,仓库中的数据不会频繁变化甚至根原创 2021-10-14 21:55:56 · 1333 阅读 · 0 评论 -
Chapter5 MapReduce
5.1概述5.1.1分布式并行编程MapReduce是一种分布式并行编程框架。在计算机发展史上的"摩尔定律":CPU的性能每隔18个月就可以翻一番。然而,从2005年起,摩尔定律逐渐失效,因为CPU制作工艺存在上限、性能不可能无限提升。但是数据增长的速度符合大数据摩尔定律。数据量快速增加和CPU性能缓慢发展之间产生了矛盾,因此人们寻找出数据处理能力提升的两条路线:1.单核CPU到双核到四核到八核。2.分布式并行编程。分布式并行编程:借助一个集群通过多台机器同时处理大规模数据集,可以获得海量计算能力。原创 2021-10-07 18:45:09 · 1247 阅读 · 0 评论 -
Chapter4 分布式数据库HBase
4.1概述4.1.1从BigTable说起HBase是BigTable的开源实现。BigTable是一个分布式存储系统,它最初是用于解决谷歌公司内部的大规模网页所搜问题。网页搜索可以分为两个阶段:1.第一阶段:建立整个网页的索引。通过爬虫不断的抓取各个网站的页面,将网页的每页一行存储到BigTable中。在BigTable上运行MapReduce,MapReduce计算作业运行在整张表上,会生成索引,保证能够快速搜索相关网页。2.第二阶段:搜索互联网网页。搜索引擎接收用户发起的查询请求。原创 2021-10-07 09:46:25 · 1394 阅读 · 0 评论 -
Chapter3 分布式文件系统HDFS
3.1分布式文件系统计算机集群结构:分布式文件系统把文件分布存储导多个计算机节点上,成千上万的计算机节点构成计算机集群。与之前使用多个处理器和专业高级硬件的并行化处理装置不同的是,目前的分布式文件系统采用的计算机集群都是由普通硬件构成的,这大大降低了硬件上的开销。分布式文件系统结构:单机无法处理海量数据,所以要利用计算机集群。分布式文件系统在物理结构上是由计算机集群中的多个节点构成的,这些节点分为两类。一类叫做主节点(Master Node)或者名称节点(NameNode)。一类叫做原创 2021-10-06 12:13:07 · 1605 阅读 · 0 评论 -
Chapter2 大数据处理架构Hadoop
2.1 Hadoop简介和版本演变2.1.1 Hadoop简介Hadoop是Apache软件基金会旗下开源软件,为用户提供高层接口,为用户提供了底层细节透明的分布式基础架构。Hadoop是基于java语言开发的,具有很好的跨平台性,但是它支持多种语言,包括C、java、Python等。Hadoop并不是单一的技术,而是多种大数据解决方案的继承体。Hadoop的两大核心为:分布式文件系统HDFS、MapReduce。这两大核心共同解决了大数据的两大问题:海量数据的分布式存储、海量数据的分布式处理原创 2021-09-15 09:19:09 · 1112 阅读 · 0 评论 -
Chapter1 大数据概述
1.1 大数据时代1.1.1第三次信息化浪潮2010年前后,以云计算、大数据、物联网的首发为标志迎来第三次信息化浪潮。IT发展史历经的信息化浪潮如下:1.1.2 大数据时代的到来需要技术支撑主要表现为:存储设备容量不断增加CPU处理能力大幅提升网络带宽不断增加1.1.3 数据产生方式的变革促进大数据时代到来第一阶段:运营式系统阶段。实例:购物记录。数据仅由运营系统生成。第二阶段:用户原创内容阶段。实例:微信。每个网民都成为自媒体,可以向网络发送信息。但到此为止还不足以促进大数据原创 2021-09-07 18:38:23 · 2562 阅读 · 1 评论