- 博客(43)
- 资源 (25)
- 收藏
- 关注
转载 hive数据倾斜的解决方案
分布式文件系统HDFS可以存储海量的数据(以T为单位的数据量),分布式计算框架MapReduce可以对存储在HDFS的数据进行处理后再将结果写回到HDFS。MapReduce + HDFS可以完成对海量数据的批量处理,但是这套组合会导致很多重复性的工作,有些处理起来比较繁琐,例如从文件中选取特定行数的数据,按照某些字段对数据进行排序,统计某些字段出现的字数,将多个数据源的数据join在一起。Hiv
2015-10-31 22:01:34 2128
转载 Hive数据倾斜
在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均值能代表的价值降低。Hive的执行是分阶段的,map处理数据量的差异取决于上一个stage的reduce输出,所以如何将数据均匀的
2015-10-31 18:55:33 454
转载 Hive调优
优化时,把hive sql当做map reduce程序来读,会有意想不到的惊喜。理解hadoop的核心能力,是hive优化的根本。这是这一年来,项目组所有成员宝贵的经验总结。 长期观察hadoop处理数据的过程,有几个显著的特征:1.不怕数据多,就怕数据倾斜。2.对jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个jobs,没半小时
2015-10-31 17:46:28 540
转载 Eclipse使用Maven创建Web时错误:Could not resolve archetype org.apache.maven.archetypes:maven-archetype-webap
分类: eclipse java java web2013-10-15 22:22 32521人阅读 评论(22) 收藏 举报问题描述: 使用Eclipse自带的Maven插件创建Web项目时报错:Could not resolve archetype org.apache.maven.archetypes:maven-archetype-webapp:RELEA
2015-10-29 18:03:03 723
原创 SNN 未被启动异常
一 异常原因SecondaryName未被启动 如图:二 异常分析查看日志如图所示,blockpooId中IP地址发生了改变,导致在启动hadoop集群时发找到SNN位置所在三 解决方案进入到namesecondary版本文件中 命令如下vim hadoopdata/dfs/namesecondary/current/VERS
2015-10-28 19:46:53 654
原创 Scala && Spark 安装
Spark On Yarn========================================================================================1、Scala 安装http://www.scala-lang.org/files/archive/scala-2.9.3.tgz# tar xvzf scala-2.9.3.tgz
2015-10-28 18:39:27 584
转载 hive中order by,sort by, distribute by, cluster by作用以及用法
1. order by Hive中的order by跟传统的sql语言中的order by作用是一样的,会对查询的结果做一次全局排序,所以说,只有hive的sql中制定了order by所有的数据都会到同一个reducer进行处理(不管有多少map,也不管文件有多少的block只会启动一个reducer)。但是对于大量数据这将会消耗很长的时间去执行。 这里跟传统的sql还有一点
2015-10-26 22:12:06 936 1
转载 Hive原理与不足
UHP博客文章地址:http://yuntai.1kapp.com/?p=1035原创文章,转载请注明出处:http://blog.csdn.net/wind5shy/article/details/8560059架构UI:用户提交查询请求与获得查询结果。包括三个接口:命令行(CLI)、Web GUI(Hue)和客户端。Driver:接受查询请求与返回查
2015-10-26 21:40:06 1230
转载 Kafka分布式环境搭建
这篇文章将介绍如何搭建kafka环境,我们会从单机版开始,然后逐渐往分布式扩展。单机版的搭建官网上就有,比较容易实现,这里我就简单介绍下即可,而分布式的搭建官网却没有描述,我们最终的目的还是用分布式来解决问题,所以这部分会是重点。Kafka的中文文档并不多,所以我们尽量详细点儿写。要交会你搭建分布式其实很简单,手把手的教程大不了我录个视频就好了,可我觉得那不是走这条路的方式。只有真正了解原
2015-10-22 16:07:42 654
转载 hadoop secondarynamenode的作用
1、初学者会见名思义的认为secondarynamenode是namenode的备份其它的,或者认为它们是一样的。实质上,它是namenode的一个快照,会根据configuration中设置的值来决定多少时间周期性的去spap一下namenode,记录namenode中的metadata及其它数据。2、假使namenode损坏或丢失之后,无法启动hadoop这时就要人工去干预恢复到secon
2015-10-20 22:03:36 755
转载 Hadoop 2.0中单点故障解决方案总结
云计算高级群: 292870151 195907286交流:Hadoop、NoSQL、分布式、lucene、solr、nutchHadoop 1.0内核主要由两个分支组成:MapReduce和HDFS,众所周知,这两个系统的设计缺陷是单点故障,即MR的JobTracker和HDFS的NameNode两个核心服务均存在单点问题,该问题在很长时间内没有解决,这使得Hadoop在相当
2015-10-20 21:56:16 1151
转载 Hadoop2.0(HDFS2)以及YARN设计的亮点
YARN总体上仍然是Master/Slave结构,在整个资源管理框架中,ResourceManager为Master,NodeManager为Slave,ResouceManager负责对各个NodeManager上的资源进行统一管理和调度。当用户提交一个应用程序时,需要提供一个用以跟踪和管理这个程序的ApplicationMaster,它负责向ResourceManger申请资源,并要求Node
2015-10-20 21:33:20 1108
转载 storm入门原理
分类: Hadoop1.hadoop有master与slave,Storm与之对应的节点是什么?2.Storm控制节点上面运行一个后台程序被称之为什么?3.Supervisor的作用是什么?4.Topology与Worker之间的关系是什么?5.Nimbus和Supervisor之间的所有协调工作有master来完成,还是Zookeeper集群完成?6.storm稳
2015-10-20 12:01:17 401
原创 HBase Shell 操作命令&&使用Sqoop将数据导入HBase
一、HBase Shell 操作命令实验要求:HBase集群正常启动,且可以运行正常进入客户端[zkpk@master ~]$ cd /home/zkpk/hbase-0.98.7-hadoop2[zkpk@master hbase-0.98.7-hadoop2]$ bin/hbase shell查看列表hbase(main):001:0> list创建表test
2015-10-19 17:45:24 2620
原创 什么是JPS
Linux下 安装好了jdk,输入jps时,系统提示“-bash: jps: command not found”。几经查找,得知jps命令是jdk下bin目录中的一个可执行文件,但发现自己安装的 jre-6u17-linux-i586.bin 里面根本没有,需要安装jre-6u24-linux-i586.bin 。据说在JDK1.5之后的版本里就有了这个jps,但居然在1.6_17中
2015-10-17 20:41:32 3365
转载 数据行业从业者到底能挣多少钱?
2015年10月15日行业资讯随着大数据时代的到来,数据分析与探勘成为科技显学,各行各业对于大数据的浓厚兴趣也直接反映在大数据人才的丰厚薪资中。根据美国大数据及商业智能软体公司 SiSense 调查研究指出1,资讯分析相关人才起薪约为年薪 5.5 万美元,换句话说,相较美国大学毕业生平均年薪为 4.76 万美元,高出 7400 美元,而最高薪的数据科学家,平均年
2015-10-16 20:37:46 1159
原创 分布式协调框架Zookeeper
一、Zookeeper简介1、Zookeeper是什么Zookeeper是Hadoop的正式子项目,它是一个针对大型分布式系统的可靠协调系统,它提供的功能包括:配置维护、名字服务、分布式同步、组服务等。Zookeeper的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户。Ø Zookeeper 是 Google 的 Chubby一个开源的实现,是
2015-10-16 18:34:47 1385
原创 HMaster不能被启动
一异常来源$start-hbase.sh$hbase shellhbase(main):002:0> list当执行list时出现异常进入hbase-master日志查看出现如图异常信息二 异常分析第一步首先检查相关进程是否完整[zkpk@slave1 ~]$ jps错误进程信息如图为正确进程种类数量上面两张图对比可以看出第一
2015-10-16 12:18:09 464
原创 HBase Java API类介绍
几个相关类与HBase数据模型之间的对应关系java类HBase数据模型HBaseAdmin数据库(DataBase)HBaseConfigurationHTable表(Table)HTableDescriptor列族(Column Family)
2015-10-15 11:52:54 667
原创 Java类实现HBase表的创建、添加、扫面等操作
package day1010;import java.io.IOException;import java.util.ArrayList;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.*;import org.apache.hadoop.hbase.client.*;
2015-10-14 19:55:45 1504
原创 HBase模式设计
关系型数据库(mysql、Oracle、SQL Server):一、 1、建库 create database studb; 2、建表 use studb; create table student( id int primary key, name char(10),
2015-10-14 17:27:28 1524
原创 Hbase 表设计
HBase与RDBMS的区别在于:HBase的Cell(每条数据记录中的数据项)是具有版本描述的(versioned),行是有序的,列(qualifier)在所属列簇(Column families)存在的情况下,由客户端自由添加。以下的几个因素是Hbase Schema设计需要考虑的问题: 1、 Hbase中没有joins的概念大表的结构可以使得不需要joins,而解决这一问题。
2015-10-14 17:25:51 2283
原创 Hadoop单机数据迁移
1.停止hadoop运行运行stop-all.sh2.配置namenode节点和datanode节点的数据存储目录修改hdfs-site.xml配置文件,添加如下内容 dfs.name.dir /home/test/hadoop-test/dfs/name dfs.data.dir /home/test/hadoop-test/dfs/data
2015-10-14 16:31:01 609
原创 Hbase shell
Hbase shell下面我们看看HBase Shell的一些基本操作命令,我列出了几个常用的HBaseShell命令,如下: 一、一般操作1.查询服务器状态hbase(main):024:0>status3 servers, 0 dead,1.0000 average load 2.查询hive版本 hbase(main):025:0>ver
2015-10-13 16:51:02 382
转载 left join 和 left outer join 的区别
通俗的讲: A left join B 的连接的记录数与A表的记录数同 A right join B 的连接的记录数与B表的记录数同 A left join B 等价B right join A table A: Field_K, Field_A 1
2015-10-12 20:02:07 606
原创 个人感觉一篇很不错的文章-----《Hadoop核心技术》作者翟周伟 :我与Hadoop的不解之缘
源自:http://www.csdn.net/article/2015-05-13/2824661-Hadoop摘要:翟周伟,资深Hadoop技术专家,《Hadoop开源云计算平台》、《Hadoop核心技术》作者。日前,CSDN记者对他进行了采访,请他解读Hadoop发展现状、特性及发展前景,以及这一路走来的心路历程。翟周伟,资深Hadoop技术专家,专注于Hadoop&大数据
2015-10-12 16:29:26 791
原创 Hive表导出到mysql表异常
将hive表中数据导出到Mysql的表出现异常一 异常来源:将hive中带有中文的字段表的数据导入的mysql中出现异常异常命令如下:[zkpk@master bin]$ ./sqoop export --connect jdbc:mysql://202.196.38.98:3306/online --username hadoop --password sivc303
2015-10-12 15:42:33 907
原创 mysql(Windos系统下)数据导入到Hive(Linux系统下)表笔记
一 导入前提是:Hadoop Hive Sqoop必须正常.且两系统之间必须能够ping 通二 查看mysql表中数据与结果进行对比mysql中数据如图: 三 导数据第一步:创建Hive表 根据mysql中标字段在Hive中创建相同字段的表. 注释:两个表名以及
2015-10-11 17:13:17 1036
转载 HBase简介
源自:http://jiajun.iteye.com/blog/899632一、简介historystarted by chad walters and jim2006.11 G release paper on BigTable2007.2 inital HBase prototype created as Hadoop contrib2007.10 First
2015-10-10 19:10:24 411
原创 HBase笔记
HBase是HadoopDataBase简写主要功能:能够处理结构化数据和非结构化数据并在这两种数据之间相互转换特点:高可靠性,很强的稳定性,效率高安装HBase完成进入hbase操作环境[zkpk@master ~]$ cd hbase-0.98.9-hadoop2/bin开启hbase[zkpk@master bin]$ start-hbase.
2015-10-10 12:53:22 365
转载 hive sequencefile 和rcfile 效率对比
源数据放在test1表中,大小 26413896039 Byte。创建sequencefile 压缩表test2,使用insert overwrite table test2 select ...语句将test1数据导入 test2 ,设置配置项:set hive.exec.compress.output=true;set mapred.output.compress=tru
2015-10-09 10:50:30 1504
转载 hive rcfile存储格式
Hive的三种文件格式:TEXTFILE、SEQUENCEFILE、RCFILE中,TEXTFILE和SEQUENCEFILE的存储格式都是基于行存储的,RCFILE是基于行列混合的思想,先按行把数据划分成N个row group,在row group中对每个列分别进行存储。另:Hive能支持自定义格式,详情见:Hive文件存储格式基于HDFS的行存储具备快速数据加载和动态负载的高适应能力,
2015-10-09 10:47:39 405
原创 Hive笔记之JOIN的左外链接和右外链接
一 为什么要用左外表或者右外表hive中对多个表联合操作时,总是按照从左到右顺序执行,.因为hive在对每行记录进行 操作时,它会尝试将较小的表缓存起来,然后扫描最大的那张表.因此需要保证在连续查询中的表的大小从左往右依次增加,否则当数据的量很大时,会大大降低hive的执行的性能.幸运的是用户并非总是将最大的表放置在查询语句的最后面,只需用左外表或者右外表加以说明即可,二
2015-10-08 20:29:10 3728
原创 不同数据类型的清洗
第一步:定义文本格式类型 一般为 .txt .cvs两种 第一种:excel格式数据以逗号为分隔符.用excel打开----->另存为---->选择csv文本格式 (如图)----->用记事本打开csv文件---->另存为--->选择utf-8编码--->确定第二步:定义数据编码类型一般为 utf-8第三
2015-10-08 19:38:48 1003
转载 hive优化方式和使用技巧
部分内容出处:http://www.atatech.org/article/detail/5617/0http://www.atatech.org/article/detail/4392/515 一.UDFS函数介绍1. 基本UDF(1)SHOWFUNCTIONS:这个用来熟悉未知函数。 DESCRIBE FUNCTION;(2)A IS NULL
2015-10-08 10:58:24 634
转载 sql中on与where的区别 http://blog.csdn.net/snowday88/article/details/6711275
点击打开链接
2015-10-07 08:48:06 574
转载 Hive中操作数据库表时as一般用法说明
as 可理解为:用作、当成,作为;一般是重命名列名或者表名。1.例如有表table, 列 column_1,column_2 你可以写成 select column_1 as 列1,column_2 as 列2 from table as 表上面的语句就可以解释为,选择 column_1 作为 列1,column_2 作为 列2 从 table 当成 表
2015-10-06 17:41:55 12750
原创 Hive无法打开 异常信息 .......server was 0
0 如图:一 异常来源:>Hive时报如如上图异常二 异常分析:由于hive底层的存储数据的mysql服务器没有开启.导致无法正常启动hive三 解决方案:第一步:进入root用户下查看mysql服务器的状态$su$service mysqld status若:mysql stoped第二步 则开启数据库服务service my
2015-10-05 17:37:33 568
原创 HDFD 四个配置文件(core-site.xml hdfs-site.xml mapred-site.xml yarn-site.xml )的简单介绍
一 core-site.xml fs.defaultFS hdfs://master:9000 hadoop.tmp.dir /home/zkpk/hadoopdata
2015-10-05 09:26:37 9208
wireshark-v3.4.2.zip
2021-04-20
shell脚本案例-俄罗斯方块
2021-03-01
gsoap2.8.11&2.8.1双版本.txt
2021-02-05
gsoap2.8.11离线安装包
2021-02-05
yum离线安装包(真实有效)
2021-02-05
PERL/NASM安装包(exe)工具以及openssl-1.1.1-pre5.tar.gz
2020-11-03
NVIDIA-Linux-x86_64-418.88.run
2020-09-02
Ubuntu16.04 openssh安装包
2020-07-16
全栈性能java网络爬虫从入门到精通实战.pdf
2020-05-26
Ubuntu操作系统ssh安装包
2020-05-25
qt-opensource-linux-x64-5.7.1.run
2020-03-26
qt-opensource-linux-x64-5.5.1.run
2020-03-26
curl-7.49.0.tar.gz
2020-03-26
libevent-2.0.21-stable.tar.gz
2020-03-26
Linux libevent2.1安装包
2020-03-26
redis505.rar
2020-03-04
支持VMWare Esxi6.7虚拟机操作系统,VMware-ovftool-4.3.0.x86_64。用于企业大容量(20G亲测)OVF导出.txt
2019-11-05
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人