大数据
shahaizimxm
快乐工作,认真生活
展开
-
Hadoop的基准测试工具使用
一、背景由于以前没有细看hadoop提供的测试工具,只是在关注hadoop本身的内容,所以很多的性能测试都忽略了。最近花了一周的时间准备做个性能测试,但是都是采用自己的方法得出的抽象值。今天看淘宝的博客,提到hadoop自带的测试工具,遂试了一把,记录一下,供以后参考。二、使用我做基准测试主要是用了hadoop-0.20.2-test.jar这个工具jar包。主要是做了I/O的测试。在转载 2014-03-31 14:15:03 · 1366 阅读 · 0 评论 -
第一个hive UDF函数
hive提供了org.apache.hadoop.hive.ql.exec.UDF类,我们可以通过继承这个类来实现不同功能的函数,在脚本中很方便的调用它。第一步,在eclipse中创建一个java项目,命名为HiveUDF下载 (74.84 KB)2013-1-8 13:49第二步,导入UDF需要的jar包,hive-exec-0.8.1.jar原创 2013-05-27 10:26:38 · 1011 阅读 · 0 评论 -
hive 元数据解析
转自:http://www.tbdata.org/archives/939在使用hive进行开发时,我们往往需要获得一个已存在hive表的建表语句(DDL),然而hive本身并没有提供这样一个工具。要想还原建表DDL就必须从元数据入手,我们知道,hive的元数据并不存放在hdfs上,而是存放在传统的RDBMS中,典型的如mysql,derby等,这里我们以mysql为元数据库,结合0.转载 2013-05-27 10:28:18 · 996 阅读 · 0 评论 -
java.sql.SQLException: Query returned non-zero code: 12, cause: FAILED: Hive Internal Error: java.la
java.sql.SQLException: Query returned non-zero code: 12, cause: FAILED: Hive Internal Error: java.lang.NullPointerException(null) at org.apache.hadoop.hive.jdbc.HiveStatement.executeQuery(HiveSta原创 2014-08-13 14:21:29 · 2254 阅读 · 0 评论 -
线性回归介绍之九——多重线性回归
现实中大多数的结果都是多个原因引起的,所谓一因一果对应的事情是非常少见的。从医学领域来看,几乎任何疾病都不是由一种原因造成的,而是多钟病因共同作用的结果。因此,多重线性回归在实际中应用更为广泛。多重线性回归(multiple linear regression),有的教材也称之为多元线性回归,就是指一个因变量,多个自变量的线性回归。多重线性回归比单因素的线性回归复杂之处不在于多了几个变量,更为转载 2014-03-28 15:01:06 · 4425 阅读 · 0 评论 -
线性回归介绍之八——回归方程的评价
如果你已经有了一堆数据,有了因变量和自变量,利用统计软件求出回归方程是非常简单的事情,这些软件虽然不懂得如何分辨你的数据应该用什么方法,但是一旦你确定了方法,他们的计算能力还是非常强大的,可以快速地给出你所需要的结果。但是即使有了回归方程,我们还有一个问题需要解决,那就是:你凭什么认为求出的这个方程是合理的?或者说,凭什么认为求出的方程式符合实际的?这就涉及到回归方程的评价问题。所谓回归方程的转载 2014-03-28 15:00:26 · 6022 阅读 · 0 评论 -
线性回归介绍之五——回归与方差分析的关系
如果是初学者,看到这个题目一定有点惊奇:线性回归和方差分析还有关系?其实这不怪他们,应该是怪统计学教材以及统计教师。几乎所有的医学统计学教材中都把方差分析和线性回归分为独立两章,这倒不要紧,但是却没有专门的一章把它们的关系讲透,以至于许多学生学了很久都只能获得零零散散的珠子,缺乏一条将他们穿起来的线。这篇文章的目的就是通过一般线性模型(general linear model)的介绍,将方差分转载 2014-03-28 14:58:46 · 16879 阅读 · 2 评论 -
SPSS—回归—多元线性回归结果分析(二)
SPSS—回归—多元线性回归结果分析(二),最近一直很忙,公司的潮起潮落,就好比人生的跌岩起伏,眼看着一步步走向衰弱,却无能为力,也许要学习“步步惊心”里面“四阿哥”的座右铭:“行到水穷处”,”坐看云起时“。 接着上一期的“多元线性回归解析”里面的内容,上一次,没有写结果分析,这次补上,结果分析如下所示:结果分析1:由于开始选择的是“逐步”法,转载 2014-03-19 17:57:28 · 28708 阅读 · 2 评论 -
华为内部狂转好文:有关大数据,看这一篇就够了
导读)科技的进步在很多的时候总会超出我们的想象,如果未来我们一个人拥有的电脑设备超过现在全球现在计算能力的总和,一个人产生的数据量超过现在全球数据量的总和,甚至你的宠物小狗产生的信息量都超过现在全球数据量的总和,世界会发生什么呢?阅读本文,大数据(Big Data)会告诉你一个充满奇幻色彩的世界。文章来源:华为IT产品解决方案作者:潘少 一、详转载 2014-02-19 09:28:23 · 2881 阅读 · 0 评论 -
线性回归介绍之六——再谈回归与方差分析的关系
上一篇文章已经对方差分析和线性回归的关系进行了阐述,不过刚看到了一位朋友的留言提问,所以想针对这个问题继续谈一下二者的关系。这一次主要是想结合一个实例来说明。比如有下面这样一个虚拟的例子:组别数值111.118.17112.73115.8311转载 2014-03-28 14:59:16 · 5473 阅读 · 1 评论 -
写好Hive 程序的五个提示
写好Hive 程序的五个提示使用Hive可以高效而又快速地编写复杂的MapReduce查询逻辑。但是某些情况下,因为不熟悉数据特性,或没有遵循Hive的优化约定,Hive计算任务会变得非常低效,甚至无法得到结果。一个”好”的Hive程序仍然需要对Hive运行机制有深入的了解。有一些大家比较熟悉的优化约定包括:Join中需要将大表写在靠右的位置;尽量使用UDF而不是transfrom……转载 2013-07-31 14:41:10 · 610 阅读 · 0 评论 -
搭建hadoop-0.20.2开发测试环境(三)
搭建hadoop环境1、安装jdk,值得注意的是:linux下的java有两种一个是openjdk一个sun的。因为一些原因,Sun Java 无法从 Ubuntu 的软件库里面取得取而代之的是 OpenJDK,不过 OpenJDK 跑某些程式会出现问题所以还是需要 Sun Java。(这是前人给的经验,我根据他的说法,直接安装了sun的jdk,谢谢)$ sudo add-apt-原创 2013-08-01 10:25:00 · 828 阅读 · 0 评论 -
java.lang.IllegalStateException: Invalid shuffle port number -1 returned for attempt_1377744323071_0
java.lang.IllegalStateException: Invalid shuffle port number -1 returned for attempt_1377744323071_0001_m_000000_2解决:在网上查了一下,这个yarn调试问题,在 yarn-site.xml文件中添加一下配置: yarn.nodemanager.aux-services原创 2013-08-29 11:21:31 · 1284 阅读 · 0 评论 -
WARN conf.Configuration: mapred.output.value.class is deprecated. Instead, use mapreduce.job.output.
WARN conf.Configuration: mapred.output.value.class is deprecated. Instead, use mapreduce.job.output.value.class解决:他的意思是使用的class是旧版本了,建议你使用新版本的class该问题不需要处理,不影响程序运行原创 2013-08-29 11:24:15 · 910 阅读 · 0 评论 -
org.apache.hadoop.fs.FileAlreadyExistsException: Output directory hdfs://127.0.0.1:9000/user/hadoop/
org.apache.hadoop.fs.FileAlreadyExistsException: Output directory hdfs://127.0.0.1:9000/user/hadoop/output already exists解决:hdfs的output目录已经存在,使用下面的命令删除就okhadoop@ubuntu:/usr/local/hadoop/bin$ ha原创 2013-08-29 11:26:26 · 9807 阅读 · 1 评论 -
hdfs benchmark
hdfs benchmark1. TestDFSIO1)简介该benchmark用于测试hdfs的读写速率,发现所在网络的性能瓶颈。其在hdfs上的默认输出目录为/benchmarks/TestDFSIO;在本地的默认输出路径为当前目录(可通过设置-D test.build.data来修改),默认文件名为TestDFSIO_results.log(可以通过-resFile参数来修改转载 2014-03-31 15:26:29 · 1537 阅读 · 0 评论 -
Hadoop现有测试框架探幽
Hadoop现有测试框架探幽背景从使用hadoop的第一天开始,就一直没有离开过对Hadoop自身功能的开发以及hadoop本身bug的修复的相关开发。这样的开发模式已经持续了好几年,但是可以从中发现的一个现象:对于我们修复的bug或者开发的功能,一直都没有一种很规范,很统一,高效,好管理,并且一目了然的测试的方式。常常的现象是:开发了一个功能或修复了一个bug后,就针对该修改进行一些转载 2014-03-31 14:51:42 · 831 阅读 · 0 评论 -
搭建hadoop-dist-2.0.0-cdh4.2.0开发测试环境
项目中用到的版本是hadoop-dist-2.0.0-cdh4.2.0,因此在虚拟机上搭了一个2.0的环境。hadoop的开发测试环境一般来说分3种:单机版:不配置任何配置文件,仅用来开发和调试伪分布式:namenode、datanode、job、tasktrack等服务都在同一个节点上,配置相关的xml文件,用来开发和调试完全分布式:master、slave等分布在不同的节点上,原创 2013-08-29 15:18:05 · 1648 阅读 · 0 评论 -
SecurityException: java.lang.SecurityException
[ZooKeeperSaslClient] SecurityException: java.lang.SecurityException: 无法定位登录配置 occurred when trying to find JAAS configuration.原因:host绑定没有配置原创 2013-08-15 11:17:56 · 1188 阅读 · 0 评论 -
搭建hadoop-0.20.2开发测试环境(二)
一开始以为ubuntu安装好以后,就万事大吉了,马上就可以开始hadoop了,没想到后面遇到很多问题,弄得头大,还好通过百度,总算解决了。在虚拟机上面安装的ubuntu,会发现主机与虚拟机的切换麻烦,另外虚拟机中不可复制粘贴,操作起来各种头痛。有同事建议我用ssh工具连ubuntu,好,那就下载一个secureCRT好了。但是在使用ssh连接之前还有一些准备工作要做1、设置ubun原创 2013-08-01 18:17:21 · 736 阅读 · 1 评论 -
搭建hadoop-0.20.2开发测试环境(一)
在win8系统下搭建一个hadoop的开发测试环境环境:VMware-workstation-full-9.0.2ubuntu-12.10-desktop-i386步骤:1、安装虚拟机,下载地址:VMware-workstation9.0.22、下载ubuntu iso镜像文件,地址:百度的3、在虚拟机下面安装ubuntu系统step1:创建新的虚拟机原创 2013-08-01 12:48:11 · 758 阅读 · 0 评论 -
SPSS--回归-多元线性回归模型案例解析!(一)
SPSS--回归-多元线性回归模型案例解析!(一) 多元线性回归,主要是研究一个因变量与多个自变量之间的相关关系,跟一元回归原理差不多,区别在于影响因素(自变量)更多些而已,例如:一元线性回归方程 为: 毫无疑问,多元线性回归方程应该为:上图中的 x1, x2, xp分别代表“自变量”Xp截止,代表有P个自变量,如果有“N组样本,那么这个多元线性回归,将转载 2014-03-19 17:56:40 · 62653 阅读 · 7 评论