2013年07月_无人境域

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月

原创 hadoop日志【4】----50G数据

以前测试的数据量最大的才8G左右，而且还是在sqlserver中的数据量一般运行都在30分钟左右而sqlserver运行同样的逻辑更快，最多8分钟决定测试一下能体现hadoop集群优越性的数据量然后就搞了一个50G的数据表果然效果明显，sqlserver运行一次需要至少5个小时，hadoop跑完一个流程则需要2个半小时，看来30G是自己使用的硬件在两种方案上的临界点了

2013-07-31 10:05:16 1276

原创 apche mahout0.8安装与测试

下载tar.gz的安装包地址：http://www.apache.org/dyn/closer.cgi/mahout/下载后解压在你希望安装的路径上修改bin目录下的mahout文件在文件开头添加变量HADOOP_HOME=hadoop的安装路径HADOOP_CONF_DIR=hadoop的配置路径如果想要调用本地的数据文件，不使用hadoop则还需要添加MAHOUT_L

2013-07-29 18:19:10 2305 7

原创 hadoop日志【3】---进度不动的reduce过程

集群的slave由于意外原因在运行过程中突然关机过两台结果这两台存放hadoop日志的路径权限竟然全部变成root的，hadoop无法保存日志，异常不断修改了文件权限，然后重新跑任务结果跑到20%的时候又不动了根据经验，要吗是slave中的防火墙把hdfs的端口给堵了造成文件无法在slave间复制，要吗就是又是日志保存出问题，导致无法正常生成task查看了一下负责reduce的

2013-07-25 18:27:09 1812

原创 ganglia简单认证

创建用户认证文件htpasswd -c /etc/httpd/conf.d/passwords 用户名创建文件.htaccess在路径/usr/share/ganglia下内容：AuthType BasicAuthName "Restricted Files"AuthUserFile /etc/httpd/conf.d/passwordsRequire user 用户名

2013-07-25 14:25:55 928

原创 ganglia监控hadoop集群

使用ganglia监控hadoop比较简单修改hadoop的配置文件为：conf/hadoop-metrics2.properties。依据安装的Ganglia版本找到配置文件中对应版本控制，将需要监控的项目前面注释去掉，*.servers的配置为 239.2.11.71：8649,这个地址是Ganglia的广播地址，是固定的。ganglia为3.1# for Ganglia 3.

2013-07-25 11:48:27 2315

原创 centos6.4 基本安装nagios

非常高效率的方法:yum install nagios*nagios竟然已经进入到了yum源，不错不错然后启动httpd服务:service httpd start然后启动nagios服务:service nagios start采用web访问:http://ip/nagios弹出权限认证窗口账户：nagiosadmin密码：nagiosadmin密码必须改cd /

2013-07-24 18:27:45 1085

转载 Apache Mahout

Apache Mahout的机器学习库的目标是建立可扩展的机器学习库可扩展到相当大的数据集。我们的核心算法，聚类，分类和批量基于协同过滤的实现Apache Hadoop之上使用的map / reduce范式。但是，我们并不限制基于Hadoop的实现贡献：贡献单个节点或在非Hadoop集群上运行的欢迎。核心库进行了高度优化，以获得较好的性能也非分布式算法可扩展性，以支持您

2013-07-24 18:02:55 935

原创 ganglia安装

本来打算采用编译的方式安装ganglia的，不过连续两天的诡异的错误自己还是放弃了错误的表现很奇怪最早采用最新的3.6的版本，依赖软件也全部采用最新的。安装过程1.安装APR:yum install apr-devel2.安装libtool:yum install libtool3.下载confuse,www.nongnu.org/confuse,configure，m

2013-07-24 17:55:14 1964

转载编译出错 recompile with -fPIC

对作者表示深刻感谢来源：http://blog.csdn.net/greencacti/article/details/9188679作者：greencacti背景：这两天在玩ganglia这个的时候，发现这个依赖于libConfuse，先按照libConfuse以后，然后再编译ganglia的时候报错，提示"recomile with fPIC".资料：上

2013-07-24 10:51:06 7282

原创 hadoop日志【2】

采用了nohup以后，今天再看hive和sqoop的服务就没有问题了

2013-07-23 09:57:03 780

原创 hadoop日志【1】--hive服务和sqoop服务运行

周五下班时将hive服务和sqoop服务打开了想看看周一是否还运行结果今天来到一看果然不运行了，看来过了会话时间进程就同时被杀掉了，采用普通的方式果然还是和会话绑定在一起了研究了一下会话的问题，采用daemon进程即可

2013-07-22 10:32:00 939

转载 linux会话浅析

来源：http://hi.baidu.com/_kouu/item/542f65d07aa2fb1e21e250d9对原作者表示感谢说起会话，我们经常登录到linux系统，执行各种各样的程序，这都牵涉到会话。但是，一般情况下我们又很少会去关注到会话的存在，很少会去了解它的来龙去脉。本文就对linux会话相关的信息做一些整理，看看隐藏在我们日常使用的背后，都有些什么样的逻辑。【会

2013-07-22 09:42:05 670

转载 MapReduce：一个重大的倒退

本翻译属于原创，转载请注意出处，英文原版请查看:http://www.databasecolumn.com/2008/01/mapreduce-a-major-step-back.htmlhttp://www.cnblogs.com/chinacloud/archive/2010/12/03/1895366.html对原作者和翻译者表示感谢这篇文章是由dat

2013-07-19 16:06:42 706

转载 Hadoop-HDFS DFSClient的严重bug

来源：http://dongyajun.iteye.com/blog/628028，对原作者表示感谢上一篇说到Shell 对自身DN造成的性能影响，本篇说一下它对DFSClient的冲击。不知道有没有朋友像我这样病态的使用Hadoop，我的DFSClient总是一直Running的，因为我需要它时刻为我做事，所以我不会轻意重新创建一个与NN相连的DFSClient。闲言少述。

2013-07-19 16:00:11 1127

转载 Hadoop-HDFS 对性能造成重大影响的神秘杀手-Shell.

来源：http://dongyajun.iteye.com/blog/627905关于想了解HDFS的源码的朋友, 可以到蔡斌大哥那读读他的javaeye.很抱歉, 我用了神秘杀手一词, 因为它实在害我太惨, 又花了好大精力才把它给拎出来。近来在测试Hadoop时, 使用NameNode身上的dfshealth.jsp 管理页面发现,DataNode在运行的过程中, La

2013-07-19 15:50:20 628

原创 hadoop集群安装与配置--hadoop自动化安装脚本

基于expect进行hadoop的自动化安装但是，无法做到完全自动化和环境适应暂且记录下来思路：将集群中所有服务器具有sudo权限的账户、ip、密码保存在文件cluster.txt中格式：IP%密码%服务器名......以install.sh作为总脚本调用多个分脚本，并发送setfirewall.py、sethosts.sh、setprofile.py、setssh.p

2013-07-19 11:28:58 1063

原创 hadoop集群安装与配置--sqoop服务调用

一、基于thrift生成java服务端代码和C#端代码thrift接口代码：文件名称sqoopthrift.thriftnamespace java com.javabloger.gen.codeservice SqoopThrift{ string CreateTable(1:string host, 2:string database, 3:string userName, 4

2013-07-19 10:48:01 1373

原创 apache项目概览

igtop 是一个 Apache Hadoop 生态系统的开发、打包和测试系统Avro是一个数据序列化系统，设计用于支持大批量数据交换的应用。HttpComponents也就是以前的httpclient项目，可以用来提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端/服务器编程工具包，并且它支持 HTTP 协议最新的版本和建议Hama 是个计算框架，基于BSP (Bu

2013-07-19 10:13:05 1538

原创软件行业转折期

开源项目的广泛铺开标志着软件行业进入了一个转折期，从业人员将进一步职业细化，同时也更进一步的两极分化。专家化人员的需求量将增大，而且专业化程度要求更高，而专业化程度不高的普适性开发人员待遇将进一步的下降，而且门槛也进一步降低，真正成为一种“民工”职业。这也为软件开发从业人员提出新的要求，需要将自己的知识和技能领域进一步细化、专业化，提高自身的技术的精度。或者广泛积累知识，向技术管理

2013-07-06 20:29:56 565

文章代码文件2-shell

文章代码文件2-shell，python，expect，shell语言

2013-07-19

hadoop集群自动化安装脚本

自动化安装脚本需要安装expect，并依据自己的实际环境更改ip和hostname 需要jdk的安装文件，需要重命名为jdk7.rpm

2013-06-27

hadoop1.1.2的eclipse插件

hadoop1.1.2的eclipse插件适用linux和windows

2013-06-13

伪分布模式hadoop软件1，和hive_3,sqoop_2搭配使用

hadoop软件1，和hive_3,sqoop_2搭配使用将hive和sqoop放置在hadoop根目录下

2013-06-13

windwosDNS智能解析随着原中国电信集团按南北地域分家，新的中国电信和网通集团随即成立，互联网的骨干网也被一分为二了，北有网通、南有电信。从此，细心的网民可以发现，有些经常访问的网站速度一下子慢了下来，有时候还有访问不到的情况出现。例如北方地区的网络用户访问中国网通的服务器会非常快，而访问中国电信的服务器时，感觉非常慢。这种现象不仅影响了网站的访问量，更严重的是它直接影响了一些经营性网站的经济效益。据分析，产生这个问题的根本原因是中国电信分家之后，电信与网通之间的互连存在问题。虽然信息产业部已经在规划南北互通计划，但在今后相当长的一段时期内，南北方网互连的问题还会长期存在。解决方案

2010-03-31

CMS的javascript

cms项目中使用的javascript，功能还行。

2009-03-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

无人境域