学习hadoop——第1篇

最新推荐文章于 2023-07-19 13:47:26 发布

2022冲鸭

最新推荐文章于 2023-07-19 13:47:26 发布

阅读量261

点赞数 1

分类专栏：大数 hadoo

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/y805805/article/details/85418359

版权

hadoo 同时被 2 个专栏收录

26 篇文章 1 订阅

订阅专栏

1 篇文章 0 订阅

订阅专栏

正式从数据库往大数据，冲冲冲！！！

先把整体框架以及整体思路建立，好理解

Hadoop的思想之源：Google

Google搜索引擎，Gmail，安卓，AppspotGoogle Maps，Google earth，Google 学术，Google翻译，Google+，

下一步Google what？？

 不使用超级计算机，不使用存储（淘宝的去i，去e，去o之路） 

大量使用普通的pc服务器（去掉机箱，外设，硬盘），提供有冗余的集群服务 

全世界多个数据中心，有些附带发电厂 

运营商向Google倒付费

Google面对的数据和计算难题

大量的网页怎么存储？ 

搜索算法 

Page-Rank计算问题

倒排索引

Page Rank ：

这是Google最核心的算法，用于给每个网页价值评分，是Google“在垃圾中找黄金 ”的关键算法，这个算法成就了今天的Google

Map-reduce思想：计算PR

Google带给我们的关键技术和思想

GFS 

Map-Reduce 

Bigtable

Hadoop的源起——Lucene

Doug Cutting开创的开源软件，用java书写代码，实现与Google类似的全文搜索功能，它提供了全文检索引擎的架构，包括完整的查询引

擎和索引引擎

早期发布在个人网站和SourceForge，2001年年底成为apache软件基金会jakarta的一个子项目

Lucene的目的是为软件开发人员提供一个简单易用的工具包，以方便的在目标系统中实现全文检索的功能，或者是以此为基础建立起完整

的全文检索引擎

对于大数量的场景，Lucene面对与Google同样的困难。迫使Doug Cutting学习和模仿Google解决这些问题的办法

一个微缩版：Nutch

目前Hadoop达到的高度

实现云计算的事实标准开源软件

包含数十个具有强大生命力的子项目

已经能在数千节点上运行，处理数据量和排序时间不断打破世界纪录

Hadoop组件

Hadoop的架构

Namenode 名称节点

Secondary Namenode 辅助名称节点

DataNode 数据节点

JobTracker 作业跟踪

程序和数据在同一物理节点上

TaskTracker 任务跟踪

Master与Slave

数据分析者面临的问题

 数据日趋庞大，无论是入库和查询，都出现性能瓶颈

用户的应用和分析结果呈整合趋势，对实时性和响应时间要求越来越高 

使用的模型越来越复杂，计算量指数级上升

Hadoop的思想

用更多的小型组件来代替大型组件，并且开源

Hadoop体系下的分析手段

主流：Java程序 

轻量级的脚本语言：Pig 

SQL技巧平稳过渡：Hive 

NoSQL：HBase

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
学习hadoop——第1篇

正式从数据库往大数据，冲冲冲！！！先把整体框架以及整体思路建立，好理解Hadoop的思想之源：Google Google搜索引擎，Gmail，安卓，AppspotGoogle Maps，Google earth，Google 学术，Google翻译，Google+，下一步Google what？？ 不使用超级计算机，不使用存储（淘宝的去i，去e，去o之路）  ...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。