- 博客(14)
- 资源 (13)
- 收藏
- 关注
转载 Hadoop Streaming框架使用(三)
前两篇文章介绍了Hadoop Streaming框架的使用方法。由于篇幅所限,并没有介绍其中的高级使用方法,但是有一些用法还是相当常见的。今天对一些高级用法进行一个简单的说明,希望能给大家一些启发。 1 使用cacheFile分发文件 如果文件(如字典文件)存放在HDFS中,希望计算时在每个计算节点上将文件当作本地文件处理,,可以使用-cacheFile hdfs://host:por
2014-12-28 23:23:20 682
转载 Hadoop Streaming 编程
1、概述Hadoop Streaming是Hadoop提供的一个编程工具,它允许用户使用任何可执行文件或者脚本文件作为Mapper和Reducer,例如:采用shell脚本语言中的一些命令作为mapper和reducer(cat作为mapper,wc作为reducer)$HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/contrib
2014-12-28 14:21:16 894
转载 Hadoop计算能力调度器应用和配置
需求公司里有两个部门,一个叫hive,一个叫pig,这两个部门都需要使用公司里的hadoop集群。于是问题来了,因为hadoop默认是FIFO调度的,谁先提交任务,谁先被处理,于是hive部门很担心pig这个部门提交一个耗时的任务,影响了hive的业务,hive希望可以和pig在高峰期时,平均使用整个集群的计算容量,互不影响。思路hadoop的默认调度器是FIFO,但是也有
2014-12-26 15:00:37 905
转载 基于Mahout的电影推荐系统
1.Mahout 简介Apache Mahout 是 Apache Software Foundation(ASF) 旗下的一个开源项目,提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。经典算法包括聚类、分类、协同过滤、进化编程等等,并且,在 Mahout 的最近版本中还加入了对 Apache Hadoop 的支持,使这些算法可以更高效的运行在云
2014-12-26 02:51:50 2258
转载 hadoop作业调优参数整理及原理
1 Map side tuning参数1.1 MapTask运行内部原理当map task开始运算,并产生中间数据时,其产生的中间结果并非直接就简单的写入磁盘。这中间的过程比较复杂,并且利用到了内存buffer来进行已经产生的 部分结果的缓存,并在内存buffer中进行一些预排序来优化整个map的性能。如上图所示,每一个map都会对应存在一个内存 buffer(MapOut
2014-12-25 18:27:11 1038
转载 Ubuntu下配置Hadoop 2.3.0单节点模式
以下操作在32位Ubuntu 12.04版本下测试通过,64位系统配置64位版本Hadoop请自行搜索源代码编译相关内容。--- 分隔线神圣不可侵犯 -------------------------------------------------------------安装Ubuntu安装过程略……不想折腾的,直接在虚拟机里跑一跑好了……在 Ubuntu 下创建
2014-12-23 01:25:22 693
转载 Linux centos 下 eclipse 打开文件时关闭
http://processors.wiki.ti.com/index.php/Linux_Host_Support#cairo-misc.c:380:_cairo_operator_bounded_by_source:_Assertion_.60NOT_REACHED.27_failedhttp://processors.wiki.ti.com/index.php/Lin
2014-12-21 08:44:22 1298
转载 hadoop namenode启动过程详细剖析及瓶颈分析
NameNode启动过程详细剖析NameNode中几个关键的数据结构FSImageNamenode会将HDFS的文件和目录元数据存储在一个叫fsimage的二进制文件中,每次保存fsimage之后到下次保存之间的所有hdfs操作,将会记录在editlog文件中,当editlog达到一定的大小(bytes,由fs.checkpoint.size参数定义)或从上次保存过后一定时
2014-12-18 03:03:06 1247
转载 深入理解Hadoop集群和网络
本文将着重于讨论Hadoop集群的体系结构和方法,及它如何与网络和服务器基础设施的关系。最开始我们先学习一下Hadoop集群运作的基础原理。Hadoop里的服务器角色Hadoop主要的任务部署分为3个部分,分别是:Client机器,主节点和从节点。主节点主要负责Hadoop两个关键功能模块HDFS、Map Reduce的监督。当Job Tracker使用Map Reduce
2014-12-17 03:21:20 838
转载 ubuntu14.04安装DevStack与遇到的的问题记录
本文总结Ubuntu 14.04下部署DevStack的过程以及一些可能遇到的问题。 一、安装 以下的操作最好在普通用户下进行,至少在git clone devstack的时候使用普通用户,这样可以避免一些不必要的权限问题,当然,以后也可以使用权限更改命令来修改普通用户的权限,这种方法下文将会介绍。 1.首先获取系统更新内容 $ sudo apt-get u
2014-12-17 00:22:41 1730 3
转载 在linux服务器上lamp环境中怎样安装php的扩展模块
在一次安装wordpress模板中,不知为何 文章内容老是不能显示,最后打开debug后,说是functions.php文件中的mb_strlen()函数未定义,看来这...在一次安装wordpress模板中,不知为何 文章内容老是不能显示,最后打开debug后,说是functions.php文件中的mb_strlen()函数未定义,看来这就是文章内容不显示的原因了,那么怎么解决呢。
2014-12-16 18:24:04 2141
原创 OpenStack 手动安装(juno)
#OpenStack 手动安装手册(juno)##部署架构为了更好的展现OpenStack各组件分布式部署的特点,以及逻辑网络配置的区别,本实验不采用All in One 的部署模式,而是采用多节点分开部署的方式,方便后续学习研究。##网络拓扑##环境准备本实验采用Virtualbox Windows 版作为虚拟化平台,模拟相应的物理网络
2014-12-08 00:02:42 3806 1
转载 打造高性能高可靠块存储系统
块存储系统 分布式存储有出色的性能,可以扛很多故障,能够轻松扩展,所以我们使用Ceph构建了高性能、高可靠的块存储系统,并使用它支撑公有云和托管云的云主机、云硬盘服务。由于使用分布式块存储系统,避免了复制镜像的过程,所以云主机的创建时间可以缩短到10秒以内,而且云主机还能快速热迁移,方便了运维人员对物理服务器上硬件和软件的维护。用户对于块存储系统最直观的感受来源于云硬盘服务,现
2014-12-06 02:48:05 1432
转载 Linux下Tomcat6的自动重启及自动重启后的乱码问题
(1)写一个shell脚本mytt.sh,重新启动tomcat#!/bin/shpid=`ps aux | grep tomcat | grep -v grep | grep -v retomcat | awk '{print $2}'`echo $pidif [ -n "$pid" ]then{ echo ===========shutdown======
2014-12-02 09:57:54 879
hadoop-cdh4.6配置文件
2014-05-02
ext2Spring
2013-11-23
hadoopDemo-mapreduce
2013-11-13
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人