hadoop学习笔记1（Hadoop的源起与体系介绍）

zailushang1708

于 2014-07-10 18:36:46 发布

阅读量416

点赞数

分类专栏： mahout和hadoop实现算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zailushang1708/article/details/37650661

版权

mahout和hadoop实现算法专栏收录该内容

1 篇文章 0 订阅

订阅专栏

1，什么是大数据？什么是hadoop？

①首先它是相对的，内行话说：就是利用现存的硬件和软件无法解决的，只能通过比较复杂的方法或者集群方法来解决的数据称为大数据！

②hadoop擅长离线数据处理，不适合实时处理的。它是分布式文件系统+计算框架，Hadoop不是数据库，Hbase才是数据库

③并不是大公司才有大数据，现在物联网的发展，任何一个事物都可能存有大量的数据

2，越是机器能干的事情越来越不值钱了，需要人能完成的才值钱（算法方向不错的选择）

3，上面说了hadoop不适合实时方向，而strom：实时数据分析平台。。Spark 是一种与 Hadoop 相似的开源集群计算环境，但是两者之间还存在一些不同之处，这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越，换句话说，Spark 启用了内存分布数据集，除了能够提供交互式查询外，它还可以优化迭代工作负载。

4，google面对的难题

①大量的网页怎么存储？
②搜索算法（利用倒排序发可以从大量数据中迅速搜索结果）
③Page-Rank计算问题

倒排序法研究看文章（搜索引擎-倒排索引基础知识），其中的词划分思想可以是：比如输入”我爱“（有一个词典，首先分割出”我“，如果字典当中有这个字那么就把它作为一个词搜索，我爱没有的话，再搜”爱“是否在词典中，，这样依次类推）

Page-Rank ：看成就Google的Page Rank技术

5，Google带给我们的关键技术和思想（其实hadoop中的HDFS，mapreduce，HBASE基本是google的思想的山寨版）
 GFS
 Map-Reduce
 Bigtable（后面讲）

6，hadoop环境搭建：（安装Linux后一定要确认iptables,selinux等防火墙戒访问控制机制已经关闭，否则实
验很可能受影响）

RSA （公钥和死钥：公钥一般是公布的，但是私钥只有自己拥有，且信息经过公钥加密后，即使被盗取，如果没有私钥的话，也解不开）

①免密码的原理：A(有公钥和密钥) B(有公钥和密钥) ，如果A告知B我是A的话，B如何验证确实是A呢？

首先B用A的公钥加密信息（比如信息为challenge），发送给A，A用自己的私钥解开信息得到challenge，然后A用B的公钥加密challenge

发送给B，B用自己的私钥解开信息，如果得到的challenge，那么就认为对方确实是A

②

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
hadoop学习笔记1（Hadoop的源起与体系介绍）

1，什么是大数据？首先ta
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。