hadoop学习笔记

1. Hadoop相关术语

	云计算:基于互联网的计算方式共享的软硬件资源和信息可以按需求提供给计算机和其他设备,即:把计算作为一种商品通过互联网进行流通,云技术与其他技术的区别:云技术可以使用的语言有java,c++等。云技术的开发是在其他语言的基础上。比如Java语言。与其他技术,最显著的区别,不是在开发上,而是在于架构上,最显著的特点是分布式。Hadoop是目前较火云技术:
	hadoop是什么:(1)Hadoop是一个开源的框架,可编写和运行分布式应用处理大规模数据,是专为离线和大规模数据分析而设计的,Hadoop的数据来源可以是任何形式,在处理半结构化和非结构化数据上与关系型数据库相比有更好的性能,不管任何数据形式最终会转化为key/value,key/value是基本数据单元。用函数式变成Mapreduce。(2)Hadoop就是一个分布式计算的解决方案.
 hadoop能做什么:(1)hadoop擅长日志分析;(2)Haddop 可以很轻易的把 很多linux的廉价pc 组成 分布式结点,然后根据mapreduce的规则定义好接口方法,剩下的就交给Haddop. 它会自动把相关的计算分布到各个结点上去,然后得出结果.
	Hadoop是一个能够对大量数据进行分布式处理的软件框架,它是由Java语言来实现的。Hadoop是处理大数据技术.  Hadoop可以处理云计算产生大数据,需要区分hadoop并不是云计算。它和云计算密不可分。Hadoop就是一个分布式解决方案,能够把压力分摊到其他服务器。
	hadoop中的四大框架:hdfs、mapreduce、hive、hbase。这四大框架是hadoop最最核心的。
	hadoop需要的基础知识。  hadoop需要具备javaSE的基础知识,需要熟练使用linux系统。
 hadoop主要岗位:hadoop大数据管理员和hadoop开发工程师。hadoop大数据管理员类似于数据库的dba,负责hadoop集群的运行维护工作。hadoop开发工程师是负责编写hadoop程序的,实现算法的。
	hadoop使用场景:大数据量存储:分布式存储、日志处理: Hadoop擅长这个、海量计算: 并行计算、ETL;数据抽取到oracle、mysql、DB2、mongdb及主流数据库;使用HBase做数据分析: 用扩展性应对大量的写操作—Facebook构建了基于HBase的实时数据分析系统;机器学习: 比如Apache Mahout项目;搜索引擎:hadoop + lucene实现;数据挖掘:目前比较流行的广告推荐;大量地从文件中顺序读。HDFS对顺序读进行了优化,代价是对于随机的访问负载较高;数据支持一次写入,多次读取。对于已经形成的数据的更新不支持;数据不进行本地缓存(文件很大,且顺序读没有局部性);任何一台服务器都有可能失效,需要通过大量的数据复制使得性能不会受到大的影响;用户细分特征建模;个性化广告推荐;智能仪器推荐、
	2. Hadoop基础知识

   
   
  • 	hadoop HDFS文件系统的特征:存储极大数目的信息,将数据保存到大量的节点当中;提供数据的高可靠性,单个或者多个节点不工作,对系统不会造成任何影响,数据仍然可用。提供对这些信息的快速访问,并提供可扩展的方式。能够通过简单加入更多服务器的方式就能够服务更多的客户端;HDFS是针对MapReduce设计的,使得数据尽可能根据其本地局部性进行访问与计算。
  • 	Map/Reduce:hadoop要分布式包括两部分,一是分布式文件系统hdfs,一部是分布式计算框,就是mapreduce通过mapreduce很容易在hadoop平台上进行分布式的计算编程。map函数和reduce函数是交给用户实现的,这两个函数定义了任务本身。map函数:接受一个键值对(key-value pair),产生一组中间键值对。MapReduce框架会将map函数产生的中间键值对里键相同的值传递给一个reduce函数。 reduce函数:接受一个键,以及相关的一组值,将这组值进行合并产生一组规模更小的值(通常只有一个或零个值)。 
  • 	hadoop部署方式:单机模式、伪分布式、完全分布式。在学习中建议是搭建伪分布式,完全分布式是生产环境中使用。
  • 
          
          

 


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值