Hadoop
文章平均质量分 66
Mayz梅子子子
接毕业设计
展开
-
Spark sql详细介绍
Spark SQL是构建在Spark RDD之上一款ETL(Extract Transformation Load)工具(类似Hive-1.x-构建在MapReduce之上)。同Spark RDD 不同地方在于Spark SQL的API可以给Spark计算引擎提供更多的信息(计算数据结构、转换算子),Spark计算引擎可以根据SparkSQL提供的信息优化底层计算任务。目前为止Spark SQL提供了两种风格的交互API:Dataset-API /SQL脚本。Dataset API:加强版的RDD操作,原创 2021-05-04 14:46:33 · 670 阅读 · 0 评论 -
HBase优化设计
1、表的设计1、Pre-Creating Regions 默认情况下,在创建HBase表的时候会自动创建一个region分区,当导入数据的时候,所有的HBase客户端都向这一个region写数据,直到这个region足够大了才进行切分。一种可以加快批量写入速度的方法是通过预先创建一些空的regions,这样当数据写入HBase时,会按照region分区情况,在集群内做数据的负载均衡。//第一种实现方式是使用admin对象的切分策略byte[] startKey = ...; // yo原创 2021-05-04 14:12:48 · 94 阅读 · 0 评论 -
HBase搭建--Standalone HBase
1、搭建方式说明 the setup of a single-node standalone HBase. A standalone instance has allHBase daemons — the Master, RegionServers, and ZooKeeper — running in a single JVM persisting to the local filesystem.2、搭建步骤1、虚拟机中必须安装JDK,JDK的版本建议使用1.8(如果已经安装了,忽略此步骤)2原创 2021-05-04 14:08:46 · 126 阅读 · 0 评论 -
HBase搭建--Fully-distributed
1、搭建方式说明 By default, HBase runs in standalone mode. Both standalone mode and pseudo-distributed mode are provided for the purposes of small-scale testing. For a production environment, distributed mode is advised. In distributed mode, multiple instances o原创 2021-05-04 14:08:05 · 117 阅读 · 0 评论 -
hive详细学习笔记
01 Hive的基本介绍1、hive产生的原因· a) 方便对文件及数据的元数据进行管理,提供统一的元数据管理方式 b) 提供更加简单的方式来访问大规模的数据集,使用SQL语言进行数据分析2、hive是什么?The Apache Hive ™ data warehouse software facilitates reading, writing, and managing large datasets residing in distributed storage using SQL. St原创 2021-04-27 19:02:35 · 168 阅读 · 0 评论 -
大数据面试重点知识点总结
大数据面试题Hadoop一、.hdfs写文件的步骤答案:(1)client向NameNode申请上传…/xxx.txt文件(2)NN向client响应可以上传文件(3)Client向NameNode申请DataNode(4)NN向Client返回DN1,DN2,DN3(5)Client向DN1,DN2,DN3申请建立文件传输通道(6)DN3,DN2,DN1依次响应连接(7)Client向DN1上传一个block,DN1向DN2,DN3冗余文件二、hdfs读取文件步骤答案:(1)cl原创 2021-04-27 18:28:13 · 177 阅读 · 0 评论 -
MapReduce经典案例之共同好友
【数据】小明 小红 小黑 小绿 小兰小兰 小乐 小云 小小 小明小芳 小资 小飞 小王 小橘 小鹅 小钱 小时 小鸥 小票小心 小丑 小宝 小白 小兰小鸟 小米 小可 小小 小资小九 小红 小鬼 小飞 小时 小爱小爱 小时 小阮 小鬼 小七 小九 小橘 小鹅 小王 小兰小绿 小红 小黑 小飞 小七 小吴 小图 小鸥 小胖 小微 小炮第一个为用户,之后为好友列表;【思路解析】如上数据所示,小明和小红是直接好友,小明和小黑是直接好友,小红和小黑是潜在的间接好友;统计两个用户之间的原创 2021-03-22 17:45:14 · 248 阅读 · 0 评论 -
MapReduce案例之查找每个月温度最高的两天
MapReduce案例之查找每个月温度最高的两天本次采用本地计算+本地数据的方式运行本地计算指的是借助于Windows平台的hadoop环境模拟运行MapReduce程序本地数据指的是计算的数据来源于Windows平台,并且输出到本地1、新建maven项目,引入需要的maven依赖<dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-com原创 2021-03-16 23:14:47 · 361 阅读 · 0 评论 -
MR提交运行方式
上传jar包到集群的某个节点;方式:idea中使用maven将程序打jar包,上传到集群当中运行;mapreduce.framework.name = yarn嵌入linux或者Windows系统(非jar)的集群方式运行,on yarn;client -> RM -> AppMastermapreduce.framework.name = yarn(集群运行);跨平台需要设置(若在Windows上运行一定要配置)mapreduce.app-submission.cr..原创 2021-03-11 16:02:39 · 154 阅读 · 0 评论 -
为什么HDFS文件块(block)大小设定为128M
块(block)的大小可以通过设置HADOOP_HOME/etc/hadoop/hdfs-site.xml中dfs.blocksize来实现;在Hadoop2.x的版本中,文件块的默认大小是128M,老版本中默认是64M;原理:文件块越大,寻址时间越短,但磁盘传输时间越长;文件块越小,寻址时间越长,但磁盘传输时间越短。block大小设置原则:减少硬盘寻道时间(disk seek time):HDFS的设计是为了支持大数据操作,合适的block大小有助于减少硬盘寻道时间(平衡了硬盘寻道时间、IO时原创 2021-03-03 10:42:20 · 1219 阅读 · 0 评论 -
Hadoop之HDFS及MapReduce详解,以及HA集群搭建
一、概述大数据大数据(big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产大数据的5V特点(IBM提出):Volume(大量)Velocity(高速)Variety(多样)Value(低价值密度)Veracity(真实性)Hadoop是什么?http://hadoop.apache.orgApache Hadoop是一个开源、可靠、可扩展的分布式计算框原创 2021-02-25 15:51:34 · 320 阅读 · 0 评论 -
大数据重点面试知识点总结
Linux1、常见命令2、linux的启动顺序通电后读取ROM的BIOS程序进行硬件自检,自检成功后把计算机控制权交给BIOS中BOOTsequence中的下一个有效设备,读取该设备MBR找到操作系统,载入linux的bootloader,一般是grub。之后载入kernel,执行 /etc/rc.d/sysinit ,开启其他组件(/etc/modules.conf),执行运行级别,执行/...原创 2020-02-15 13:37:42 · 1327 阅读 · 1 评论 -
MapReduce中的常见InputFormat之DBInPutFormat和DBOutPutFormat案例详解
MapReduce中的常见InputFormat之DBInPutFormat和DBOutPutFormat案例详解一、背景为了方便MapReduce直接访问关系型数据库(Mysql,Oracle),Hadoop提供了DBInputFormat和DBOutputFormat两个类。通过DBInputFormat类把数据库表数据读入到HDFS,根据DBOutputFormat类把MapRedu...原创 2019-08-17 15:47:03 · 594 阅读 · 1 评论 -
通过MapReduce统计PV和UV
通过MapReduce统计PV和UV一、pv(page view,页面浏览量)PV(page view),即页面浏览量;用户每1次对网站中的每个网页访问均被记录1次。用户对同一页面的多次访问,访问量累计。每产生一条访问日志,pv+1。案例:本次采用本地计算+本地数据的方式运行本地计算指的是借助于Windows平台的hadoop环境模拟运行MapReduce程序本地数据指的是计算的数...原创 2019-08-15 13:10:00 · 901 阅读 · 3 评论