2015年10月_IT菜籽U

12月 11月 10月 09月 08月

转载 hive数据倾斜的解决方案

分布式文件系统HDFS可以存储海量的数据（以T为单位的数据量），分布式计算框架MapReduce可以对存储在HDFS的数据进行处理后再将结果写回到HDFS。MapReduce + HDFS可以完成对海量数据的批量处理，但是这套组合会导致很多重复性的工作，有些处理起来比较繁琐，例如从文件中选取特定行数的数据，按照某些字段对数据进行排序，统计某些字段出现的字数，将多个数据源的数据join在一起。Hiv

2015-10-31 22:01:34 2128

转载 Hive数据倾斜

在做Shuffle阶段的优化过程中，遇到了数据倾斜的问题，造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和，优化是基于这些Counters得出的平均值，而由于数据倾斜的原因造成map处理数据量的差异过大，使得这些平均值能代表的价值降低。Hive的执行是分阶段的，map处理数据量的差异取决于上一个stage的reduce输出，所以如何将数据均匀的

2015-10-31 18:55:33 454

转载 Hive调优

优化时，把hive sql当做map reduce程序来读，会有意想不到的惊喜。理解hadoop的核心能力，是hive优化的根本。这是这一年来，项目组所有成员宝贵的经验总结。长期观察hadoop处理数据的过程，有几个显著的特征:1.不怕数据多，就怕数据倾斜。2．对jobs数比较多的作业运行效率相对比较低，比如即使有几百行的表，如果多次关联多次汇总，产生十几个jobs，没半小时

2015-10-31 17:46:28 540

转载 Eclipse使用Maven创建Web时错误：Could not resolve archetype org.apache.maven.archetypes:maven-archetype-webap

分类： eclipse java java web2013-10-15 22:22 32521人阅读评论(22) 收藏举报问题描述：使用Eclipse自带的Maven插件创建Web项目时报错：Could not resolve archetype org.apache.maven.archetypes:maven-archetype-webapp:RELEA

2015-10-29 18:03:03 723

原创 SNN 未被启动异常

一异常原因SecondaryName未被启动如图:二异常分析查看日志如图所示,blockpooId中IP地址发生了改变,导致在启动hadoop集群时发找到SNN位置所在三解决方案进入到namesecondary版本文件中命令如下vim hadoopdata/dfs/namesecondary/current/VERS

2015-10-28 19:46:53 654

原创 Scala && Spark 安装

Spark On Yarn========================================================================================1、Scala 安装http://www.scala-lang.org/files/archive/scala-2.9.3.tgz# tar xvzf scala-2.9.3.tgz

2015-10-28 18:39:27 584

转载 hive中order by,sort by, distribute by, cluster by作用以及用法

1. order by Hive中的order by跟传统的sql语言中的order by作用是一样的，会对查询的结果做一次全局排序，所以说，只有hive的sql中制定了order by所有的数据都会到同一个reducer进行处理（不管有多少map，也不管文件有多少的block只会启动一个reducer）。但是对于大量数据这将会消耗很长的时间去执行。这里跟传统的sql还有一点

2015-10-26 22:12:06 936 1

转载 Hive原理与不足

UHP博客文章地址：http://yuntai.1kapp.com/?p=1035原创文章，转载请注明出处：http://blog.csdn.net/wind5shy/article/details/8560059架构UI：用户提交查询请求与获得查询结果。包括三个接口：命令行（CLI）、Web GUI（Hue）和客户端。Driver：接受查询请求与返回查

2015-10-26 21:40:06 1230

原创 kafka笔记

kafka本身只是一种数据管道和缓存的工具,是无主数据处理工具,他对数据的接受和抛出都是被动的.

2015-10-22 16:22:15 721

转载 Kafka分布式环境搭建

这篇文章将介绍如何搭建kafka环境，我们会从单机版开始，然后逐渐往分布式扩展。单机版的搭建官网上就有，比较容易实现，这里我就简单介绍下即可，而分布式的搭建官网却没有描述，我们最终的目的还是用分布式来解决问题，所以这部分会是重点。Kafka的中文文档并不多，所以我们尽量详细点儿写。要交会你搭建分布式其实很简单，手把手的教程大不了我录个视频就好了，可我觉得那不是走这条路的方式。只有真正了解原

2015-10-22 16:07:42 654

转载 hadoop secondarynamenode的作用

1、初学者会见名思义的认为secondarynamenode是namenode的备份其它的，或者认为它们是一样的。实质上，它是namenode的一个快照，会根据configuration中设置的值来决定多少时间周期性的去spap一下namenode，记录namenode中的metadata及其它数据。2、假使namenode损坏或丢失之后，无法启动hadoop这时就要人工去干预恢复到secon

2015-10-20 22:03:36 755

转载 Hadoop 2.0中单点故障解决方案总结

云计算高级群: 292870151 195907286交流：Hadoop、NoSQL、分布式、lucene、solr、nutchHadoop 1.0内核主要由两个分支组成：MapReduce和HDFS，众所周知，这两个系统的设计缺陷是单点故障，即MR的JobTracker和HDFS的NameNode两个核心服务均存在单点问题，该问题在很长时间内没有解决，这使得Hadoop在相当

2015-10-20 21:56:16 1151

转载 Hadoop2.0(HDFS2)以及YARN设计的亮点

YARN总体上仍然是Master/Slave结构，在整个资源管理框架中，ResourceManager为Master，NodeManager为Slave，ResouceManager负责对各个NodeManager上的资源进行统一管理和调度。当用户提交一个应用程序时，需要提供一个用以跟踪和管理这个程序的ApplicationMaster，它负责向ResourceManger申请资源，并要求Node

2015-10-20 21:33:20 1108

转载 storm入门原理

分类： Hadoop1.hadoop有master与slave，Storm与之对应的节点是什么？2.Storm控制节点上面运行一个后台程序被称之为什么？3.Supervisor的作用是什么？4.Topology与Worker之间的关系是什么？5.Nimbus和Supervisor之间的所有协调工作有master来完成，还是Zookeeper集群完成？6.storm稳

2015-10-20 12:01:17 401

原创 HBase Shell 操作命令&&使用Sqoop将数据导入HBase

一、HBase Shell 操作命令实验要求：HBase集群正常启动，且可以运行正常进入客户端[zkpk@master ~]$ cd /home/zkpk/hbase-0.98.7-hadoop2[zkpk@master hbase-0.98.7-hadoop2]$ bin/hbase shell查看列表hbase(main):001:0> list创建表test

2015-10-19 17:45:24 2620

原创什么是JPS

Linux下安装好了jdk，输入jps时，系统提示“-bash: jps: command not found”。几经查找，得知jps命令是jdk下bin目录中的一个可执行文件，但发现自己安装的 jre-6u17-linux-i586.bin 里面根本没有，需要安装jre-6u24-linux-i586.bin 。据说在JDK1.5之后的版本里就有了这个jps，但居然在1.6_17中

2015-10-17 20:41:32 3365

转载数据行业从业者到底能挣多少钱？

2015年10月15日行业资讯随着大数据时代的到来，数据分析与探勘成为科技显学，各行各业对于大数据的浓厚兴趣也直接反映在大数据人才的丰厚薪资中。根据美国大数据及商业智能软体公司 SiSense 调查研究指出1，资讯分析相关人才起薪约为年薪 5.5 万美元，换句话说，相较美国大学毕业生平均年薪为 4.76 万美元，高出 7400 美元，而最高薪的数据科学家，平均年

2015-10-16 20:37:46 1159

原创分布式协调框架Zookeeper

一、Zookeeper简介1、Zookeeper是什么Zookeeper是Hadoop的正式子项目，它是一个针对大型分布式系统的可靠协调系统，它提供的功能包括：配置维护、名字服务、分布式同步、组服务等。Zookeeper的目标就是封装好复杂易出错的关键服务，将简单易用的接口和性能高效、功能稳定的系统提供给用户。Ø Zookeeper 是 Google 的 Chubby一个开源的实现，是

2015-10-16 18:34:47 1385

原创 HMaster不能被启动

一异常来源$start-hbase.sh$hbase shellhbase(main):002:0> list当执行list时出现异常进入hbase-master日志查看出现如图异常信息二异常分析第一步首先检查相关进程是否完整[zkpk@slave1 ~]$ jps错误进程信息如图为正确进程种类数量上面两张图对比可以看出第一

2015-10-16 12:18:09 464

原创 HBase Java API类介绍

几个相关类与HBase数据模型之间的对应关系java类HBase数据模型HBaseAdmin数据库（DataBase)HBaseConfigurationHTable表（Table)HTableDescriptor列族（Column Family)

2015-10-15 11:52:54 667

原创 Java类实现HBase表的创建、添加、扫面等操作

package day1010;import java.io.IOException;import java.util.ArrayList;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.*;import org.apache.hadoop.hbase.client.*;

2015-10-14 19:55:45 1504

原创 HBase模式设计

关系型数据库（mysql、Oracle、SQL Server）：一、 1、建库 create database studb; 2、建表 use studb; create table student( id int primary key, name char(10),

2015-10-14 17:27:28 1524

原创 Hbase 表设计

HBase与RDBMS的区别在于：HBase的Cell（每条数据记录中的数据项）是具有版本描述的（versioned），行是有序的，列（qualifier）在所属列簇（Column families）存在的情况下，由客户端自由添加。以下的几个因素是Hbase Schema设计需要考虑的问题： 1、 Hbase中没有joins的概念大表的结构可以使得不需要joins，而解决这一问题。

2015-10-14 17:25:51 2283

原创 Hadoop单机数据迁移

1.停止hadoop运行运行stop-all.sh2.配置namenode节点和datanode节点的数据存储目录修改hdfs-site.xml配置文件，添加如下内容 dfs.name.dir /home/test/hadoop-test/dfs/name dfs.data.dir /home/test/hadoop-test/dfs/data

2015-10-14 16:31:01 609

原创 Hbase shell

Hbase shell下面我们看看HBase Shell的一些基本操作命令，我列出了几个常用的HBaseShell命令，如下：一、一般操作1.查询服务器状态hbase(main):024:0>status3 servers, 0 dead,1.0000 average load 2.查询hive版本 hbase(main):025:0>ver

2015-10-13 16:51:02 382

转载 left join 和 left outer join 的区别

通俗的讲： A left join B 的连接的记录数与A表的记录数同 A right join B 的连接的记录数与B表的记录数同 A left join B 等价B right join A table A: Field_K, Field_A 1

2015-10-12 20:02:07 606

原创个人感觉一篇很不错的文章-----《Hadoop核心技术》作者翟周伟：我与Hadoop的不解之缘

源自:http://www.csdn.net/article/2015-05-13/2824661-Hadoop摘要：翟周伟，资深Hadoop技术专家，《Hadoop开源云计算平台》、《Hadoop核心技术》作者。日前，CSDN记者对他进行了采访，请他解读Hadoop发展现状、特性及发展前景，以及这一路走来的心路历程。翟周伟，资深Hadoop技术专家，专注于Hadoop&大数据

2015-10-12 16:29:26 791

原创 Hive表导出到mysql表异常

将hive表中数据导出到Mysql的表出现异常一异常来源:将hive中带有中文的字段表的数据导入的mysql中出现异常异常命令如下:[zkpk@master bin]$ ./sqoop export --connect jdbc:mysql://202.196.38.98:3306/online --username hadoop --password sivc303

2015-10-12 15:42:33 907

原创 mysql(Windos系统下)数据导入到Hive(Linux系统下)表笔记

一导入前提是:Hadoop Hive Sqoop必须正常.且两系统之间必须能够ping 通二查看mysql表中数据与结果进行对比mysql中数据如图: 三导数据第一步:创建Hive表根据mysql中标字段在Hive中创建相同字段的表. 注释:两个表名以及

2015-10-11 17:13:17 1036

转载 HBase简介

源自:http://jiajun.iteye.com/blog/899632一、简介historystarted by chad walters and jim2006.11 G release paper on BigTable2007.2 inital HBase prototype created as Hadoop contrib2007.10 First

2015-10-10 19:10:24 411

原创 HBase笔记

HBase是HadoopDataBase简写主要功能:能够处理结构化数据和非结构化数据并在这两种数据之间相互转换特点:高可靠性,很强的稳定性,效率高安装HBase完成进入hbase操作环境[zkpk@master ~]$ cd hbase-0.98.9-hadoop2/bin开启hbase[zkpk@master bin]$ start-hbase.

2015-10-10 12:53:22 365

转载 hive sequencefile 和rcfile 效率对比

源数据放在test1表中，大小 26413896039 Byte。创建sequencefile 压缩表test2，使用insert overwrite table test2 select ...语句将test1数据导入 test2 ，设置配置项：set hive.exec.compress.output=true;set mapred.output.compress=tru

2015-10-09 10:50:30 1504

转载 hive rcfile存储格式

Hive的三种文件格式：TEXTFILE、SEQUENCEFILE、RCFILE中，TEXTFILE和SEQUENCEFILE的存储格式都是基于行存储的，RCFILE是基于行列混合的思想，先按行把数据划分成N个row group，在row group中对每个列分别进行存储。另：Hive能支持自定义格式，详情见：Hive文件存储格式基于HDFS的行存储具备快速数据加载和动态负载的高适应能力，

2015-10-09 10:47:39 405

原创 Hive笔记之JOIN的左外链接和右外链接

一为什么要用左外表或者右外表hive中对多个表联合操作时,总是按照从左到右顺序执行,.因为hive在对每行记录进行操作时,它会尝试将较小的表缓存起来,然后扫描最大的那张表.因此需要保证在连续查询中的表的大小从左往右依次增加,否则当数据的量很大时,会大大降低hive的执行的性能.幸运的是用户并非总是将最大的表放置在查询语句的最后面,只需用左外表或者右外表加以说明即可,二

2015-10-08 20:29:10 3728

原创不同数据类型的清洗

第一步:定义文本格式类型一般为 .txt .cvs两种第一种:excel格式数据以逗号为分隔符.用excel打开----->另存为---->选择csv文本格式 (如图)----->用记事本打开csv文件---->另存为--->选择utf-8编码--->确定第二步:定义数据编码类型一般为 utf-8第三

2015-10-08 19:38:48 1003

转载 hive优化方式和使用技巧

部分内容出处：http://www.atatech.org/article/detail/5617/0http://www.atatech.org/article/detail/4392/515 一．UDFS函数介绍1. 基本UDF（1）SHOWFUNCTIONS：这个用来熟悉未知函数。 DESCRIBE FUNCTION;（2）A IS NULL

2015-10-08 10:58:24 634

转载 sql中on与where的区别 http://blog.csdn.net/snowday88/article/details/6711275

点击打开链接

2015-10-07 08:48:06 574

转载 Hive中操作数据库表时as一般用法说明

as 可理解为：用作、当成，作为；一般是重命名列名或者表名。1.例如有表table，列 column_1,column_2 你可以写成 select column_1 as 列1,column_2 as 列2 from table as 表上面的语句就可以解释为，选择 column_1 作为列1,column_2 作为列2 从 table 当成表

2015-10-06 17:41:55 12750

原创 Hive无法打开异常信息 .......server was 0

0 如图:一异常来源:>Hive时报如如上图异常二异常分析:由于hive底层的存储数据的mysql服务器没有开启.导致无法正常启动hive三解决方案:第一步:进入root用户下查看mysql服务器的状态$su$service mysqld status若:mysql stoped第二步则开启数据库服务service my

2015-10-05 17:37:33 568

原创 HDFD 四个配置文件(core-site.xml hdfs-site.xml mapred-site.xml yarn-site.xml )的简单介绍

一 core-site.xml fs.defaultFS hdfs://master:9000 hadoop.tmp.dir /home/zkpk/hadoopdata

2015-10-05 09:26:37 9208

PPT资源库----模板

2021-07-14

wireshark-v3.4.2.zip

运行换进：win64 抓包：TCP报文主要用到的过滤指令： tcp.port == 80 || udp.port == 80 ip.addr == 192.168.1.57 and not tcp.port in {80 25}

2021-04-20

cmake-3.11.4-win64-x64.msi

windows7 版的cmake安装包

2021-04-01

自定义的gsoap头文件station.h

Gsoap的头文件示例

2021-03-27

gsoap_2.8.74.zip

C++ WebService开发辅助工具

2021-03-27

rapidxml.zip

适用于windows环境C++读取xml文件，rapidxml依赖库

2021-03-24

shell脚本案例-俄罗斯方块

该脚本需要在Linux-centos系统中运行，需要安装格式转换工具 dos2unix；改脚本对于shell初学者来说是不错案例选择，仅用619行脚本代码，写出了有趣的小游戏；环境：Centos7.x 1.dos2unix安装 yum -y install dos2unix 2.格式转换： dos2unix square.sh 3.执行脚本 sh square.sh 备注：该脚本本人已经验证过。如有疑问请关注微信公众号：“IT菜籽U”搜索"（八）Linux系统-shell基础--脚本执行方式"，有详细的介绍;

2021-03-01

gsoap2.8.11&2.8.1双版本.txt

linux:centos7.x 内核版本：Linux localhost.localdomain 3.10.0-1160.15.2.el7.x86_64 #1 SMP Wed Feb 3 15:06:38 UTC 2021 x86_64 x86_64 x86_64 GNU/Linux 安装步骤：https://blog.csdn.net/xiaoshunzi111/article/details/113444209

2021-02-05

gsoap2.8.11离线安装包

适用于centos7.X 内核版本：Linux localhost.localdomain 3.10.0-1160.15.2.el7.x86_64 #1 SMP Wed Feb 3 15:06:38 UTC 2021 x86_64 x86_64 x86_64 GNU/Linux 安装：https://blog.csdn.net/xiaoshunzi111/article/details/113444209 ./configure --prefix=/usr/local/gSOAP make make install 。。。

2021-02-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

PPT资源库----模板

wireshark-v3.4.2.zip

cmake-3.11.4-win64-x64.msi

自定义的gsoap头文件station.h

gsoap_2.8.74.zip

rapidxml.zip

shell脚本案例-俄罗斯方块

gsoap2.8.11&2.8.1双版本.txt

gsoap2.8.11离线安装包

yum离线安装包(真实有效)

PERL/NASM安装包(exe)工具以及openssl-1.1.1-pre5.tar.gz

NVIDIA-Linux-x86_64-418.88.run

Ubuntu16.04 openssh安装包

全栈性能java网络爬虫从入门到精通实战.pdf

Ubuntu操作系统ssh安装包

VS2013-64位

SoapUI-x32-5.4.0.exe

qt-opensource-linux-x64-5.7.1.run

qt-opensource-linux-x64-5.5.1.run

curl-7.49.0.tar.gz

libevent-2.0.21-stable.tar.gz

Linux libevent2.1安装包

redis505.rar

支持VMWare Esxi6.7虚拟机操作系统，VMware-ovftool-4.3.0.x86_64。用于企业大容量（20G亲测）OVF导出.txt

GDI开发包，C++绘图工具包

空空如也