自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(43)
  • 资源 (25)
  • 收藏
  • 关注

转载 hive数据倾斜的解决方案

分布式文件系统HDFS可以存储海量的数据(以T为单位的数据量),分布式计算框架MapReduce可以对存储在HDFS的数据进行处理后再将结果写回到HDFS。MapReduce + HDFS可以完成对海量数据的批量处理,但是这套组合会导致很多重复性的工作,有些处理起来比较繁琐,例如从文件中选取特定行数的数据,按照某些字段对数据进行排序,统计某些字段出现的字数,将多个数据源的数据join在一起。Hiv

2015-10-31 22:01:34 2128

转载 Hive数据倾斜

在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均值能代表的价值降低。Hive的执行是分阶段的,map处理数据量的差异取决于上一个stage的reduce输出,所以如何将数据均匀的

2015-10-31 18:55:33 454

转载 Hive调优

优化时,把hive sql当做map reduce程序来读,会有意想不到的惊喜。理解hadoop的核心能力,是hive优化的根本。这是这一年来,项目组所有成员宝贵的经验总结。 长期观察hadoop处理数据的过程,有几个显著的特征:1.不怕数据多,就怕数据倾斜。2.对jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个jobs,没半小时

2015-10-31 17:46:28 540

转载 Eclipse使用Maven创建Web时错误:Could not resolve archetype org.apache.maven.archetypes:maven-archetype-webap

分类: eclipse java java web2013-10-15 22:22 32521人阅读 评论(22) 收藏 举报问题描述:        使用Eclipse自带的Maven插件创建Web项目时报错:Could not resolve archetype org.apache.maven.archetypes:maven-archetype-webapp:RELEA

2015-10-29 18:03:03 723

原创 SNN 未被启动异常

一 异常原因SecondaryName未被启动  如图:二 异常分析查看日志如图所示,blockpooId中IP地址发生了改变,导致在启动hadoop集群时发找到SNN位置所在三 解决方案进入到namesecondary版本文件中 命令如下vim  hadoopdata/dfs/namesecondary/current/VERS

2015-10-28 19:46:53 654

原创 Scala && Spark 安装

Spark On Yarn========================================================================================1、Scala 安装http://www.scala-lang.org/files/archive/scala-2.9.3.tgz# tar xvzf scala-2.9.3.tgz

2015-10-28 18:39:27 584

转载 hive中order by,sort by, distribute by, cluster by作用以及用法

1. order by    Hive中的order by跟传统的sql语言中的order by作用是一样的,会对查询的结果做一次全局排序,所以说,只有hive的sql中制定了order by所有的数据都会到同一个reducer进行处理(不管有多少map,也不管文件有多少的block只会启动一个reducer)。但是对于大量数据这将会消耗很长的时间去执行。    这里跟传统的sql还有一点

2015-10-26 22:12:06 936 1

转载 Hive原理与不足

UHP博客文章地址:http://yuntai.1kapp.com/?p=1035原创文章,转载请注明出处:http://blog.csdn.net/wind5shy/article/details/8560059架构UI:用户提交查询请求与获得查询结果。包括三个接口:命令行(CLI)、Web GUI(Hue)和客户端。Driver:接受查询请求与返回查

2015-10-26 21:40:06 1230

原创 kafka笔记

kafka本身只是一种数据管道和缓存的工具,是无主数据处理工具,他对数据的接受和抛出都是被动的.

2015-10-22 16:22:15 721

转载 Kafka分布式环境搭建

这篇文章将介绍如何搭建kafka环境,我们会从单机版开始,然后逐渐往分布式扩展。单机版的搭建官网上就有,比较容易实现,这里我就简单介绍下即可,而分布式的搭建官网却没有描述,我们最终的目的还是用分布式来解决问题,所以这部分会是重点。Kafka的中文文档并不多,所以我们尽量详细点儿写。要交会你搭建分布式其实很简单,手把手的教程大不了我录个视频就好了,可我觉得那不是走这条路的方式。只有真正了解原

2015-10-22 16:07:42 654

转载 hadoop secondarynamenode的作用

1、初学者会见名思义的认为secondarynamenode是namenode的备份其它的,或者认为它们是一样的。实质上,它是namenode的一个快照,会根据configuration中设置的值来决定多少时间周期性的去spap一下namenode,记录namenode中的metadata及其它数据。2、假使namenode损坏或丢失之后,无法启动hadoop这时就要人工去干预恢复到secon

2015-10-20 22:03:36 755

转载 Hadoop 2.0中单点故障解决方案总结

云计算高级群: 292870151 195907286交流:Hadoop、NoSQL、分布式、lucene、solr、nutchHadoop 1.0内核主要由两个分支组成:MapReduce和HDFS,众所周知,这两个系统的设计缺陷是单点故障,即MR的JobTracker和HDFS的NameNode两个核心服务均存在单点问题,该问题在很长时间内没有解决,这使得Hadoop在相当

2015-10-20 21:56:16 1151

转载 Hadoop2.0(HDFS2)以及YARN设计的亮点

YARN总体上仍然是Master/Slave结构,在整个资源管理框架中,ResourceManager为Master,NodeManager为Slave,ResouceManager负责对各个NodeManager上的资源进行统一管理和调度。当用户提交一个应用程序时,需要提供一个用以跟踪和管理这个程序的ApplicationMaster,它负责向ResourceManger申请资源,并要求Node

2015-10-20 21:33:20 1108

转载 storm入门原理

分类: Hadoop1.hadoop有master与slave,Storm与之对应的节点是什么?2.Storm控制节点上面运行一个后台程序被称之为什么?3.Supervisor的作用是什么?4.Topology与Worker之间的关系是什么?5.Nimbus和Supervisor之间的所有协调工作有master来完成,还是Zookeeper集群完成?6.storm稳

2015-10-20 12:01:17 401

原创 HBase Shell 操作命令&&使用Sqoop将数据导入HBase

一、HBase Shell 操作命令实验要求:HBase集群正常启动,且可以运行正常进入客户端[zkpk@master ~]$ cd /home/zkpk/hbase-0.98.7-hadoop2[zkpk@master hbase-0.98.7-hadoop2]$ bin/hbase shell查看列表hbase(main):001:0> list创建表test

2015-10-19 17:45:24 2620

原创 什么是JPS

Linux下 安装好了jdk,输入jps时,系统提示“-bash: jps: command not found”。几经查找,得知jps命令是jdk下bin目录中的一个可执行文件,但发现自己安装的 jre-6u17-linux-i586.bin 里面根本没有,需要安装jre-6u24-linux-i586.bin 。据说在JDK1.5之后的版本里就有了这个jps,但居然在1.6_17中

2015-10-17 20:41:32 3365

转载 数据行业从业者到底能挣多少钱?

2015年10月15日行业资讯随着大数据时代的到来,数据分析与探勘成为科技显学,各行各业对于大数据的浓厚兴趣也直接反映在大数据人才的丰厚薪资中。根据美国大数据及商业智能软体公司 SiSense 调查研究指出1,资讯分析相关人才起薪约为年薪 5.5 万美元,换句话说,相较美国大学毕业生平均年薪为 4.76 万美元,高出 7400 美元,而最高薪的数据科学家,平均年

2015-10-16 20:37:46 1159

原创 分布式协调框架Zookeeper

一、Zookeeper简介1、Zookeeper是什么Zookeeper是Hadoop的正式子项目,它是一个针对大型分布式系统的可靠协调系统,它提供的功能包括:配置维护、名字服务、分布式同步、组服务等。Zookeeper的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户。Ø Zookeeper 是 Google 的 Chubby一个开源的实现,是

2015-10-16 18:34:47 1385

原创 HMaster不能被启动

一异常来源$start-hbase.sh$hbase shellhbase(main):002:0> list当执行list时出现异常进入hbase-master日志查看出现如图异常信息二 异常分析第一步首先检查相关进程是否完整[zkpk@slave1 ~]$ jps错误进程信息如图为正确进程种类数量上面两张图对比可以看出第一

2015-10-16 12:18:09 464

原创 HBase Java API类介绍

几个相关类与HBase数据模型之间的对应关系java类HBase数据模型HBaseAdmin数据库(DataBase)HBaseConfigurationHTable表(Table)HTableDescriptor列族(Column Family)

2015-10-15 11:52:54 667

原创 Java类实现HBase表的创建、添加、扫面等操作

package day1010;import java.io.IOException;import java.util.ArrayList;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.*;import org.apache.hadoop.hbase.client.*;

2015-10-14 19:55:45 1504

原创 HBase模式设计

关系型数据库(mysql、Oracle、SQL Server):一、    1、建库        create database studb;    2、建表      use studb;      create table student(          id int primary key,          name char(10),      

2015-10-14 17:27:28 1524

原创 Hbase 表设计

HBase与RDBMS的区别在于:HBase的Cell(每条数据记录中的数据项)是具有版本描述的(versioned),行是有序的,列(qualifier)在所属列簇(Column families)存在的情况下,由客户端自由添加。以下的几个因素是Hbase Schema设计需要考虑的问题: 1、 Hbase中没有joins的概念大表的结构可以使得不需要joins,而解决这一问题。

2015-10-14 17:25:51 2283

原创 Hadoop单机数据迁移

1.停止hadoop运行运行stop-all.sh2.配置namenode节点和datanode节点的数据存储目录修改hdfs-site.xml配置文件,添加如下内容   dfs.name.dir   /home/test/hadoop-test/dfs/name  dfs.data.dir  /home/test/hadoop-test/dfs/data

2015-10-14 16:31:01 609

原创 Hbase shell

Hbase shell下面我们看看HBase Shell的一些基本操作命令,我列出了几个常用的HBaseShell命令,如下:  一、一般操作1.查询服务器状态hbase(main):024:0>status3 servers, 0 dead,1.0000 average load 2.查询hive版本 hbase(main):025:0>ver

2015-10-13 16:51:02 382

转载 left join 和 left outer join 的区别

通俗的讲:    A   left   join   B   的连接的记录数与A表的记录数同    A   right   join   B   的连接的记录数与B表的记录数同      A   left   join   B   等价B   right   join   A          table   A:  Field_K,   Field_A    1 

2015-10-12 20:02:07 606

原创 个人感觉一篇很不错的文章-----《Hadoop核心技术》作者翟周伟 :我与Hadoop的不解之缘

源自:http://www.csdn.net/article/2015-05-13/2824661-Hadoop摘要:翟周伟,资深Hadoop技术专家,《Hadoop开源云计算平台》、《Hadoop核心技术》作者。日前,CSDN记者对他进行了采访,请他解读Hadoop发展现状、特性及发展前景,以及这一路走来的心路历程。翟周伟,资深Hadoop技术专家,专注于Hadoop&大数据

2015-10-12 16:29:26 791

原创 Hive表导出到mysql表异常

将hive表中数据导出到Mysql的表出现异常一 异常来源:将hive中带有中文的字段表的数据导入的mysql中出现异常异常命令如下:[zkpk@master bin]$ ./sqoop export --connect jdbc:mysql://202.196.38.98:3306/online --username hadoop --password  sivc303

2015-10-12 15:42:33 907

原创 mysql(Windos系统下)数据导入到Hive(Linux系统下)表笔记

一    导入前提是:Hadoop  Hive  Sqoop必须正常.且两系统之间必须能够ping 通二  查看mysql表中数据与结果进行对比mysql中数据如图: 三 导数据第一步:创建Hive表              根据mysql中标字段在Hive中创建相同字段的表.             注释:两个表名以及

2015-10-11 17:13:17 1036

转载 HBase简介

源自:http://jiajun.iteye.com/blog/899632一、简介historystarted by chad walters and jim2006.11 G release paper on BigTable2007.2 inital HBase prototype created as Hadoop contrib2007.10 First

2015-10-10 19:10:24 411

原创 HBase笔记

HBase是HadoopDataBase简写主要功能:能够处理结构化数据和非结构化数据并在这两种数据之间相互转换特点:高可靠性,很强的稳定性,效率高安装HBase完成进入hbase操作环境[zkpk@master ~]$ cd hbase-0.98.9-hadoop2/bin开启hbase[zkpk@master bin]$ start-hbase.

2015-10-10 12:53:22 365

转载 hive sequencefile 和rcfile 效率对比

源数据放在test1表中,大小 26413896039 Byte。创建sequencefile 压缩表test2,使用insert  overwrite table test2 select ...语句将test1数据导入 test2 ,设置配置项:set hive.exec.compress.output=true;set mapred.output.compress=tru

2015-10-09 10:50:30 1504

转载 hive rcfile存储格式

Hive的三种文件格式:TEXTFILE、SEQUENCEFILE、RCFILE中,TEXTFILE和SEQUENCEFILE的存储格式都是基于行存储的,RCFILE是基于行列混合的思想,先按行把数据划分成N个row group,在row group中对每个列分别进行存储。另:Hive能支持自定义格式,详情见:Hive文件存储格式基于HDFS的行存储具备快速数据加载和动态负载的高适应能力,

2015-10-09 10:47:39 405

原创 Hive笔记之JOIN的左外链接和右外链接

一  为什么要用左外表或者右外表hive中对多个表联合操作时,总是按照从左到右顺序执行,.因为hive在对每行记录进行 操作时,它会尝试将较小的表缓存起来,然后扫描最大的那张表.因此需要保证在连续查询中的表的大小从左往右依次增加,否则当数据的量很大时,会大大降低hive的执行的性能.幸运的是用户并非总是将最大的表放置在查询语句的最后面,只需用左外表或者右外表加以说明即可,二

2015-10-08 20:29:10 3728

原创 不同数据类型的清洗

第一步:定义文本格式类型  一般为 .txt   .cvs两种 第一种:excel格式数据以逗号为分隔符.用excel打开----->另存为---->选择csv文本格式 (如图)----->用记事本打开csv文件---->另存为--->选择utf-8编码--->确定第二步:定义数据编码类型一般为 utf-8第三

2015-10-08 19:38:48 1003

转载 hive优化方式和使用技巧

部分内容出处:http://www.atatech.org/article/detail/5617/0http://www.atatech.org/article/detail/4392/515 一.UDFS函数介绍1. 基本UDF(1)SHOWFUNCTIONS:这个用来熟悉未知函数。     DESCRIBE FUNCTION;(2)A IS NULL     

2015-10-08 10:58:24 634

转载 sql中on与where的区别 http://blog.csdn.net/snowday88/article/details/6711275

点击打开链接

2015-10-07 08:48:06 574

转载 Hive中操作数据库表时as一般用法说明

as 可理解为:用作、当成,作为;一般是重命名列名或者表名。1.例如有表table, 列 column_1,column_2 你可以写成 select column_1 as 列1,column_2 as 列2 from table as 表上面的语句就可以解释为,选择 column_1 作为 列1,column_2 作为 列2 从 table 当成 表

2015-10-06 17:41:55 12750

原创 Hive无法打开 异常信息 .......server was 0

0  如图:一 异常来源:>Hive时报如如上图异常二 异常分析:由于hive底层的存储数据的mysql服务器没有开启.导致无法正常启动hive三 解决方案:第一步:进入root用户下查看mysql服务器的状态$su$service mysqld status若:mysql stoped第二步 则开启数据库服务service my

2015-10-05 17:37:33 568

原创 HDFD 四个配置文件(core-site.xml hdfs-site.xml mapred-site.xml yarn-site.xml )的简单介绍

一 core-site.xml                        fs.defaultFS                hdfs://master:9000                                hadoop.tmp.dir                /home/zkpk/hadoopdata       

2015-10-05 09:26:37 9208

PPT资源库----模板

PPT资源库----模板

2021-07-14

wireshark-v3.4.2.zip

运行换进:win64 抓包:TCP报文 主要用到的过滤指令: tcp.port == 80 || udp.port == 80 ip.addr == 192.168.1.57 and not tcp.port in {80 25}

2021-04-20

cmake-3.11.4-win64-x64.msi

windows7 版的cmake安装包

2021-04-01

自定义的gsoap头文件station.h

Gsoap的头文件示例

2021-03-27

gsoap_2.8.74.zip

C++ WebService开发辅助工具

2021-03-27

rapidxml.zip

适用于windows环境C++读取xml文件,rapidxml依赖库

2021-03-24

shell脚本案例-俄罗斯方块

该脚本需要在Linux-centos系统中运行,需要安装格式转换工具 dos2unix; 改脚本对于shell初学者来说是不错案例选择,仅用619行脚本代码,写出了有趣的小游戏; 环境:Centos7.x 1.dos2unix安装 yum -y install dos2unix 2.格式转换: dos2unix square.sh 3.执行脚本 sh square.sh 备注:该脚本本人已经验证过。如有疑问请关注微信公众号:“IT菜籽U”搜索"(八)Linux系统-shell基础--脚本执行方式",有详细的介绍;

2021-03-01

gsoap2.8.11&2.8.1双版本.txt

linux:centos7.x 内核版本:Linux localhost.localdomain 3.10.0-1160.15.2.el7.x86_64 #1 SMP Wed Feb 3 15:06:38 UTC 2021 x86_64 x86_64 x86_64 GNU/Linux 安装步骤:https://blog.csdn.net/xiaoshunzi111/article/details/113444209

2021-02-05

gsoap2.8.11离线安装包

适用于centos7.X 内核版本:Linux localhost.localdomain 3.10.0-1160.15.2.el7.x86_64 #1 SMP Wed Feb 3 15:06:38 UTC 2021 x86_64 x86_64 x86_64 GNU/Linux 安装:https://blog.csdn.net/xiaoshunzi111/article/details/113444209 ./configure --prefix=/usr/local/gSOAP make make install 。。。

2021-02-05

yum离线安装包(真实有效)

以用于Centos7.X.; 内核版本:Linux localhost.localdomain 3.10.0-1160.15.2.el7.x86_64 #1 SMP Wed Feb 3 15:06:38 UTC 2021 x86_64 x86_64 x86_64 GNU/Linux 安装步骤: 1.解压缩:unzip yum离线安装包.zip 2. rpm -ivh yum-plugin-fastestmirror-1.1.31-53.el7.noarch.rpm --nodeps 。。。

2021-02-05

PERL/NASM安装包(exe)工具以及openssl-1.1.1-pre5.tar.gz

本资源为编译openssl库时所需要的辅助编译工具,ActivePerl5.24.3_X64,Nasm2.14rc15_X64,本人已经过实际项目验证

2020-11-03

NVIDIA-Linux-x86_64-418.88.run

NVIDIA-Linux-x86_64显卡驱动,适用于RTX2060显卡的设备。只需要将改软件copy到Ubuntu16.04LTS系统下./NVIDIA-Linux-x86_64-418.88.run然后一步步操作即可;安装完毕后可通过nvidia-smi 查看是否安装成功;

2020-09-02

Ubuntu16.04 openssh安装包

Ubuntu16.04 1.安装解压缩 sudo dpkg -i *.deb 2.执行 sudo ps -e |grep ssh 有 sshd 说明ssh服务已经启动。 如果没有 执行 sudo systemctl ssh start 默认端口22若需要修改,执行 sudo gedit /etc/ssh/sshd_config

2020-07-16

全栈性能java网络爬虫从入门到精通实战.pdf

全面总结概括爬虫的基本原理以及应用,特别是对java有一定基础的人更容易上手。由于它在业界得到广泛的认可的是爬虫爱好者必备的武功秘籍。

2020-05-26

Ubuntu操作系统ssh安装包

安装包中包含里ssh所有依赖包,包括openssh-server_7.2p2-4ubuntu2.8_amd64.deb、 openssh-sftp-server_7.2p2-4ubuntu2.8_amd64.deb 和openssh-client_7.2p2-4ubuntu2.8_amd64.deb等在内,使用于Ubuntu16.04LTS环境;一键安装:dgbk -i *.deb

2020-05-25

VS2013-64位

VS2013是C++开发者最常用的编译工具,由于他能够与win系列系统无缝兼容,被C++开发者广泛认可;VS2013工具安全可靠稳定

2020-05-10

SoapUI-x32-5.4.0.exe

SoapUI-x32-5.4.0是32二位的接口调试工具,可用于WebService协议接口对接调试,本人已经验证过,安全,可用。

2020-04-13

qt-opensource-linux-x64-5.7.1.run

本资源适用于Linux之Ubuntu16+ LTS系统环境,Linux环境下是C++的开发集成工具。qt-opensource-linux-x64-5.7.1.run。郑重声明:本资源已经经过实际项目验证。

2020-03-26

qt-opensource-linux-x64-5.5.1.run

本资源适用于Linux之Ubuntu16+ LTS系统环境,Linux环境下是C++的开发集成工具。qt-opensource-linux-x64-5.5.1.run。郑重声明:本资源已经经过实际项目验证。

2020-03-26

curl-7.49.0.tar.gz

本资源适用于Linux之Ubuntu16+ LTS,curl离线安装包中库文件,可用于基于http数据传输协议C++语言开发应用。亲测,安全可靠。郑重声明:凡通过本人上传的资源,全部是经过实际项验证过的。

2020-03-26

libevent-2.0.21-stable.tar.gz

本安装包基本Linux之Ubuntu16 LTS环境压缩包-libevent-2.0.21-stable.tar.gz,适用于C++ 开发语言值http协议。其中libevent库文件集成了evhttp高并发多延迟框架的库文件。经过实际的项目验证,安全可靠。 凡通过本人上传的资源,全部是经过实际项验证过的。

2020-03-26

Linux libevent2.1安装包

本安装包基本Linux之Ubuntu16 LTS环境压缩包-libevent-2.1.11-stable.tar.gz,适用于C++ 开发语言值http协议。其中libevent库文件集成了evhttp高并发多延迟框架的库文件。经过实际的项目验证,安全可靠。 凡通过本人上传的资源,全部是经过实际项验证过的。

2020-03-26

redis505.rar

redis5.05.tar.gz安装包,支持Linux CentOS7安装,安装简单实用,并支持C++程序调用,亲测过可用! 凡通过本人上传的资源,全部是经过实际项验证过的。

2020-03-04

支持VMWare Esxi6.7虚拟机操作系统,VMware-ovftool-4.3.0.x86_64。用于企业大容量(20G亲测)OVF导出.txt

支持VMWare Esxi6.7虚拟机操作系统,VMware-ovftool-4.3.0.x86_64。用于企业大容量(20G亲测)OVF导出。 凡通过本人上传的资源,全部是经过实际项验证过的。

2019-11-05

GDI开发包,C++绘图工具包

包括:gdiplus.h,gdiplus.lib,动态链接库的.dll文件:gdiplus.dll

2018-09-03

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除