1,什么是大数据?什么是hadoop?
①首先它是相对的,内行话说:就是利用现存的硬件和软件无法解决的,只能通过比较复杂的方法或者集群方法来解决的数据称为大数据!
②hadoop擅长离线数据处理,不适合实时处理的。它是分布式文件系统+计算框架 ,Hadoop不是数据库,Hbase才是数据库
③并不是大公司才有大数据,现在物联网的发展,任何一个事物都可能存有大量的数据
2,越是机器能干的事情越来越不值钱了,需要人能完成的才值钱(算法方向不错的选择)
3,上面说了hadoop不适合实时方向,而strom:实时数据分析平台。。Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。
4,google面对的难题
①大量的网页怎么存储?
②搜索算法 (利用倒排序发可以从大量数据中迅速搜索结果)
③Page-Rank计算问题
倒排序法研究看文章(搜索引擎-倒排索引基础知识),其中的词划分思想可以是:比如输入”我爱“(有一个词典,首先分割出”我“,如果字典当中有这个字那么就把它作为一个词搜索,我爱没有的话,再搜”爱“是否在词典中,,这样依次类推)
Page-Rank :看 成就Google的Page Rank技术
5,Google带给我们的关键技术和思想 (其实hadoop中的HDFS,mapreduce,HBASE基本是google的思想的山寨版)
GFS
Map-Reduce
Bigtable(后面讲)
6,hadoop环境搭建:(安装Linux后一定要确认iptables,selinux等防火墙戒访问控制机制已经关闭,否则实
验很可能受影响)
RSA (公钥和死钥:公钥一般是公布的,但是私钥只有自己拥有,且信息经过公钥加密后,即使被盗取,如果没有私钥的话,也解不开)
①免密码的原理:A(有公钥和密钥) B(有公钥和密钥) ,如果A告知B我是A的话,B如何验证确实是A呢?
首先B用A的公钥加密信息(比如信息为challenge),发送给A,A用自己的私钥解开信息得到challenge,然后A用B的公钥加密challenge
发送给B,B用自己的私钥解开信息,如果得到的challenge,那么就认为对方确实是A
②