Hadoop
文章平均质量分 59
Yatpif
这个作者很懒,什么都没留下…
展开
-
Hadoop(二)
LinuxLinux是一套免费使用和自由传播的类Unix的操作系统c语言编写以网络为核心特性:(1)一切皆文件(2)每个软件都有固定的用途免费开源 多用户、多任务 良好的界面(字符界面和图面界面)常用版本:Red Hat 商业版(收费)Fedora Core 由原来的Red Hat桌面版发展而来,免费(家用)Centos:Red Hat社区克隆版本,免费Debian:经常应用于服务器,性能稳定Ubuntu:Debian衍生而来,比较流行的桌面系统Fedora:急于尝试新技术原创 2018-03-16 11:09:23 · 628 阅读 · 0 评论 -
Hbase知识点总结
day01hbase概念:非结构化的分布式的面向列存储非关系型的开源的数据库,根据谷歌的三大论文之一的bigtable高宽厚表作用:为了解决大规模数据集合多重数据种类带来的挑战,尤其是大数据应用难题。能干什么:存储大量结果集数据,低延迟的随机查询。sql:结构化查询语言nosql:非关系型数据库,列存储和文档存储(查询低延迟),hbase是nosql的一个种类,其特点是列式存储。非关系型数据库--...原创 2018-04-16 08:30:53 · 535 阅读 · 0 评论 -
akka知识点
基于akka开发的分布式应用程序,分为两种角色:1.master 作用: 接收worker的注册信息,并将worker注册的信息保存下来,感知worker的上下线, 接收worker的汇报心跳更新worker的相关信息 定时检测超时的worker,并将超时的worker从集群中移除2.worker 作用: 向master进行注册,加入到集群中 定时向master汇报心跳工作流程:0.master启...原创 2018-04-16 08:31:19 · 227 阅读 · 0 评论 -
Hadoop(三)——Hive和Hbase整合
如何创建一个与hbase共享数据的hive表set hbase.zookeeper.quorum=hadoop01:2181,hadoop02:2181,hadoop03:2181; set zookeeper.znode.parent=/hbase;//hive 创建表CREATE EXTERNAL TABLE hbase.hbase_hive02 (rowkey string,family1 ...原创 2018-03-16 11:16:42 · 1481 阅读 · 0 评论 -
Hive小结
三. Hivesql(关系型数据库)这种工具对mapreduce这种方式优点:不用进行思维转换,同时也更加接近人类语言,使用人群较大 hive用来把sql这种工具通过某种方式跟hadoop结合起来,实现用原来处理问题的思维来处理海量数据hive语句是 HQL 语句,类SQL也就是说的HQL:Hive Query Languagehive 执行流程编译器将一个Hive Query Language...原创 2018-03-16 11:15:17 · 452 阅读 · 0 评论 -
调度器
(1)默认的调度器FIFOHadoop中默认的调度器,它先按照作业的优先级高低,再按照到达时间的先后选择被执行的作业。(2) 计算能力调度器Capacity Scheduler支持多个队列,每个队列可配置一定的资源量,每个队列采用FIFO调度策略,为了防止同一个用户的作业独占队列中的资源,该调度器会对同一用户提交的作业所占资源量进行限定。调度时,首先按以下策略选择一个合适队列:计算每个队列中正在运...原创 2018-03-16 11:14:40 · 251 阅读 · 0 评论 -
Hadoop(二)答辩问题+答案
--------------------------------------------------------------------------------------hadoop 常见问题:1.压缩的几种方式?怎么设置的?default gzip bzip2 lz0 snappy使用怎么设置?map端设置 reduce端即使MapReduce应用使用非压缩的数据来读取和写入,我们也可以受益...原创 2018-03-16 11:13:51 · 2498 阅读 · 0 评论 -
Hadoop(三)—— kafka
1、kafka是什么类JMS消息队列,结合JMS中的两种模式,可以有多个消费者主动拉取数据,在JMS中只有点对点模式才有消费者主动拉取数据。 kafka是一个生产-消费模型。 Producer:生产者,只负责数据生产,生产者的代码可以集成到任务系统中。 数据的分发策略由producer决定,默认是defaultPartition Utils.abs(key.hashCode) % nu...原创 2018-03-16 11:11:52 · 1387 阅读 · 0 评论 -
Hadoop(二)答辩题问题
1.什么是shuffle?shuffle的流程2.hadoop调度器?3.什么是etl?4.hive的数据类型5.分桶的理解6.hive的四大器7.hive的索引8.hive元数据的三种存储方式9.hadoop内置的输出文件的格式10.hive元数据默认保存的位置11.hive 的内置函数12.hive的优化13.如何理解分区14.hive的存储格式15.如何实现动态分区16.hive最大的优点1...原创 2018-03-16 11:10:08 · 851 阅读 · 0 评论 -
Hadoop(四)—— Saprk笔记
什么是spark?基于内存一站式快速的计算框架spark下面有哪些产品?spark core --> spark rdd , spark核心编程,MapReducespark sql --> hivespark streaming --> storm , 流式实时计算spark mllib --> 机器学习,人工智能 核心是算法 --> 核心是数学 --> 概...原创 2018-04-16 08:30:34 · 770 阅读 · 0 评论