- 博客(19)
- 资源 (14)
- 收藏
- 关注
原创 hadoop日志【4】----50G数据
以前测试的数据量最大的才8G左右,而且还是在sqlserver中的数据量一般运行都在30分钟左右而sqlserver运行同样的逻辑更快,最多8分钟决定测试一下能体现hadoop集群优越性的数据量然后就搞了一个50G的数据表果然效果明显,sqlserver运行一次需要至少5个小时,hadoop跑完一个流程则需要2个半小时,看来30G是自己使用的硬件在两种方案上的临界点了
2013-07-31 10:05:16 1276
原创 apche mahout0.8安装与测试
下载tar.gz的安装包地址:http://www.apache.org/dyn/closer.cgi/mahout/下载后解压在你希望安装的路径上修改bin目录下的mahout文件在文件开头添加变量HADOOP_HOME=hadoop的安装路径HADOOP_CONF_DIR=hadoop的配置路径如果想要调用本地的数据文件,不使用hadoop则还需要添加MAHOUT_L
2013-07-29 18:19:10 2305 7
原创 hadoop日志【3】---进度不动的reduce过程
集群的slave由于意外原因在运行过程中突然关机过两台结果这两台存放hadoop日志的路径权限竟然全部变成root的,hadoop无法保存日志,异常不断修改了文件权限,然后重新跑任务结果跑到20%的时候又不动了根据经验,要吗是slave中的防火墙把hdfs的端口给堵了造成文件无法在slave间复制,要吗就是又是日志保存出问题,导致无法正常生成task查看了一下负责reduce的
2013-07-25 18:27:09 1812
原创 ganglia简单认证
创建用户认证文件htpasswd -c /etc/httpd/conf.d/passwords 用户名创建文件.htaccess在路径/usr/share/ganglia下内容:AuthType BasicAuthName "Restricted Files"AuthUserFile /etc/httpd/conf.d/passwordsRequire user 用户名
2013-07-25 14:25:55 928
原创 ganglia监控hadoop集群
使用ganglia监控hadoop比较简单修改hadoop的配置文件为:conf/hadoop-metrics2.properties。依据安装的Ganglia版本找到配置文件中对应版本控制,将需要监控的项目前面注释去掉,*.servers的配置为 239.2.11.71:8649,这个地址是Ganglia的广播地址,是固定的。ganglia为3.1# for Ganglia 3.
2013-07-25 11:48:27 2315
原创 centos6.4 基本安装nagios
非常高效率的方法:yum install nagios*nagios竟然已经进入到了yum源,不错不错然后启动httpd服务:service httpd start然后启动nagios服务:service nagios start采用web访问:http://ip/nagios弹出权限认证窗口账户:nagiosadmin密码:nagiosadmin密码必须改cd /
2013-07-24 18:27:45 1085
转载 Apache Mahout
Apache Mahout的机器学习库的目标是建立可扩展的机器学习库可扩展到相当大的数据集。 我们的核心算法,聚类,分类和批量基于协同过滤的实现Apache Hadoop之上使用的map / reduce范式。 但是,我们并不限制基于Hadoop的实现贡献:贡献单个节点或在非Hadoop集群上运行的欢迎。 核心库进行了高度优化,以获得较好的性能也非分布式算法 可扩展性,以支持您
2013-07-24 18:02:55 935
原创 ganglia安装
本来打算采用编译的方式安装ganglia的,不过连续两天的诡异的错误自己还是放弃了错误的表现很奇怪最早采用最新的3.6的版本,依赖软件也全部采用最新的。安装过程1.安装APR:yum install apr-devel2.安装libtool:yum install libtool3.下载confuse,www.nongnu.org/confuse,configure,m
2013-07-24 17:55:14 1964
转载 编译出错 recompile with -fPIC
对作者表示深刻感谢来源:http://blog.csdn.net/greencacti/article/details/9188679作者:greencacti背景:这两天在玩ganglia这个的时候,发现这个依赖于libConfuse,先按照libConfuse以后,然后再编译ganglia的时候报错,提示"recomile with fPIC".资料:上
2013-07-24 10:51:06 7282
原创 hadoop日志【1】--hive服务和sqoop服务运行
周五下班时将hive服务和sqoop服务打开了想看看周一是否还运行结果今天来到一看果然不运行了,看来过了会话时间进程就同时被杀掉了,采用普通的方式果然还是和会话绑定在一起了研究了一下会话的问题,采用daemon进程即可
2013-07-22 10:32:00 939
转载 linux会话浅析
来源:http://hi.baidu.com/_kouu/item/542f65d07aa2fb1e21e250d9对原作者表示感谢说起会话,我们经常登录到linux系统,执行各种各样的程序,这都牵涉到会话。但是,一般情况下我们又很少会去关注到会话的存在,很少会去了解它的来龙去脉。本文就对linux会话相关的信息做一些整理,看看隐藏在我们日常使用的背后,都有些什么样的逻辑。【会
2013-07-22 09:42:05 670
转载 MapReduce:一个重大的倒退
本翻译属于原创,转载请注意出处,英文原版请查看:http://www.databasecolumn.com/2008/01/mapreduce-a-major-step-back.htmlhttp://www.cnblogs.com/chinacloud/archive/2010/12/03/1895366.html对原作者和翻译者表示感谢这篇文章是由dat
2013-07-19 16:06:42 706
转载 Hadoop-HDFS DFSClient的严重bug
来源:http://dongyajun.iteye.com/blog/628028,对原作者表示感谢上一篇说到Shell 对自身DN造成的性能影响,本篇说一下它对DFSClient的冲击。 不知道有没有朋友像我这样病态的使用Hadoop, 我的DFSClient总是一直Running的,因为我需要它时刻为我做事,所以我不会轻意重新创建一个与NN相连的DFSClient。 闲言少述。
2013-07-19 16:00:11 1127
转载 Hadoop-HDFS 对性能造成重大影响的神秘杀手-Shell.
来源:http://dongyajun.iteye.com/blog/627905关于想了解HDFS的源码的朋友, 可以到蔡斌大哥那读读他的javaeye.很抱歉, 我用了神秘杀手一词, 因为它实在害我太惨, 又花了好大精力才把它给拎出来。 近来在测试Hadoop时, 使用NameNode身上的dfshealth.jsp 管理页面发现,DataNode在运行的过程中, La
2013-07-19 15:50:20 628
原创 hadoop集群安装与配置--hadoop自动化安装脚本
基于expect进行hadoop的自动化安装但是,无法做到完全自动化和环境适应暂且记录下来思路:将集群中所有服务器具有sudo权限的账户、ip、密码保存在文件cluster.txt中格式:IP%密码%服务器名......以install.sh作为总脚本调用多个分脚本,并发送setfirewall.py、sethosts.sh、setprofile.py、setssh.p
2013-07-19 11:28:58 1063
原创 hadoop集群安装与配置--sqoop服务调用
一、基于thrift生成java服务端代码和C#端代码thrift接口代码:文件名称sqoopthrift.thriftnamespace java com.javabloger.gen.codeservice SqoopThrift{ string CreateTable(1:string host, 2:string database, 3:string userName, 4
2013-07-19 10:48:01 1373
原创 apache项目概览
igtop 是一个 Apache Hadoop 生态系统的开发、打包和测试系统Avro是一个数据序列化系统,设计用于支持大 批量数据交换的应用。HttpComponents也就是以前的httpclient项目,可以用来提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端/服务器编程工具包,并且它支持 HTTP 协议最新的版本和建议Hama 是个计算框架,基于BSP (Bu
2013-07-19 10:13:05 1538
原创 软件行业转折期
开源项目的广泛铺开标志着软件行业进入了一个转折期,从业人员将进一步职业细化,同时也更进一步的两极分化。专家化人员的需求量将增大,而且专业化程度要求更高,而专业化程度不高的普适性开发人员待遇将进一步的下降,而且门槛也进一步降低,真正成为一种“民工”职业。这也为软件开发从业人员提出新的要求,需要将自己的知识和技能领域进一步细化、专业化,提高自身的技术的精度。或者广泛积累知识,向技术管理
2013-07-06 20:29:56 565
伪分布模式hadoop软件1,和hive_3,sqoop_2搭配使用
2013-06-13
windwosDNS智能解析
2010-03-31
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人