2014年12月_笔尖的痕

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月

转载 Hadoop Streaming框架使用（三）

前两篇文章介绍了Hadoop Streaming框架的使用方法。由于篇幅所限，并没有介绍其中的高级使用方法，但是有一些用法还是相当常见的。今天对一些高级用法进行一个简单的说明，希望能给大家一些启发。　　1 使用cacheFile分发文件　　如果文件（如字典文件）存放在HDFS中，希望计算时在每个计算节点上将文件当作本地文件处理，，可以使用-cacheFile hdfs://host:por

2014-12-28 23:23:20 682

转载 Hadoop Streaming 编程

1、概述Hadoop Streaming是Hadoop提供的一个编程工具，它允许用户使用任何可执行文件或者脚本文件作为Mapper和Reducer，例如：采用shell脚本语言中的一些命令作为mapper和reducer（cat作为mapper，wc作为reducer）$HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/contrib

2014-12-28 14:21:16 894

转载 Hadoop计算能力调度器应用和配置

需求公司里有两个部门，一个叫hive，一个叫pig，这两个部门都需要使用公司里的hadoop集群。于是问题来了，因为hadoop默认是FIFO调度的，谁先提交任务，谁先被处理，于是hive部门很担心pig这个部门提交一个耗时的任务，影响了hive的业务，hive希望可以和pig在高峰期时，平均使用整个集群的计算容量,互不影响。思路hadoop的默认调度器是FIFO，但是也有

2014-12-26 15:00:37 905

转载基于Mahout的电影推荐系统

1.Mahout 简介Apache Mahout 是 Apache Software Foundation（ASF）旗下的一个开源项目，提供一些可扩展的机器学习领域经典算法的实现，旨在帮助开发人员更加方便快捷地创建智能应用程序。经典算法包括聚类、分类、协同过滤、进化编程等等，并且，在 Mahout 的最近版本中还加入了对 Apache Hadoop 的支持，使这些算法可以更高效的运行在云

2014-12-26 02:51:50 2258

转载 hadoop作业调优参数整理及原理

1 Map side tuning参数1.1 MapTask运行内部原理当map task开始运算，并产生中间数据时，其产生的中间结果并非直接就简单的写入磁盘。这中间的过程比较复杂，并且利用到了内存buffer来进行已经产生的部分结果的缓存，并在内存buffer中进行一些预排序来优化整个map的性能。如上图所示，每一个map都会对应存在一个内存 buffer（MapOut

2014-12-25 18:27:11 1038

转载 Ubuntu下配置Hadoop 2.3.0单节点模式

以下操作在32位Ubuntu 12.04版本下测试通过，64位系统配置64位版本Hadoop请自行搜索源代码编译相关内容。--- 分隔线神圣不可侵犯 -------------------------------------------------------------安装Ubuntu安装过程略……不想折腾的，直接在虚拟机里跑一跑好了……在 Ubuntu 下创建

2014-12-23 01:25:22 693

转载 Linux centos 下 eclipse 打开文件时关闭

http://processors.wiki.ti.com/index.php/Linux_Host_Support#cairo-misc.c:380:_cairo_operator_bounded_by_source:_Assertion_.60NOT_REACHED.27_failedhttp://processors.wiki.ti.com/index.php/Lin

2014-12-21 08:44:22 1298

转载 hadoop namenode启动过程详细剖析及瓶颈分析

NameNode启动过程详细剖析NameNode中几个关键的数据结构FSImageNamenode会将HDFS的文件和目录元数据存储在一个叫fsimage的二进制文件中，每次保存fsimage之后到下次保存之间的所有hdfs操作，将会记录在editlog文件中，当editlog达到一定的大小（bytes，由fs.checkpoint.size参数定义）或从上次保存过后一定时

2014-12-18 03:03:06 1247

转载深入理解Hadoop集群和网络

本文将着重于讨论Hadoop集群的体系结构和方法，及它如何与网络和服务器基础设施的关系。最开始我们先学习一下Hadoop集群运作的基础原理。Hadoop里的服务器角色Hadoop主要的任务部署分为3个部分，分别是：Client机器，主节点和从节点。主节点主要负责Hadoop两个关键功能模块HDFS、Map Reduce的监督。当Job Tracker使用Map Reduce

2014-12-17 03:21:20 838

转载 ubuntu14.04安装DevStack与遇到的的问题记录

本文总结Ubuntu 14.04下部署DevStack的过程以及一些可能遇到的问题。　　一、安装　　以下的操作最好在普通用户下进行，至少在git clone devstack的时候使用普通用户，这样可以避免一些不必要的权限问题，当然，以后也可以使用权限更改命令来修改普通用户的权限，这种方法下文将会介绍。　　1.首先获取系统更新内容　　$ sudo apt-get u

2014-12-17 00:22:41 1730 3

转载在linux服务器上lamp环境中怎样安装php的扩展模块

在一次安装wordpress模板中，不知为何文章内容老是不能显示，最后打开debug后，说是functions.php文件中的mb_strlen()函数未定义，看来这...在一次安装wordpress模板中，不知为何文章内容老是不能显示，最后打开debug后，说是functions.php文件中的mb_strlen()函数未定义，看来这就是文章内容不显示的原因了，那么怎么解决呢。

2014-12-16 18:24:04 2141

原创 OpenStack 手动安装（juno）

#OpenStack 手动安装手册（juno）##部署架构为了更好的展现OpenStack各组件分布式部署的特点，以及逻辑网络配置的区别，本实验不采用All in One 的部署模式，而是采用多节点分开部署的方式，方便后续学习研究。##网络拓扑##环境准备本实验采用Virtualbox Windows 版作为虚拟化平台，模拟相应的物理网络

2014-12-08 00:02:42 3806 1

转载打造高性能高可靠块存储系统

块存储系统分布式存储有出色的性能，可以扛很多故障，能够轻松扩展，所以我们使用Ceph构建了高性能、高可靠的块存储系统，并使用它支撑公有云和托管云的云主机、云硬盘服务。由于使用分布式块存储系统，避免了复制镜像的过程，所以云主机的创建时间可以缩短到10秒以内，而且云主机还能快速热迁移，方便了运维人员对物理服务器上硬件和软件的维护。用户对于块存储系统最直观的感受来源于云硬盘服务，现

2014-12-06 02:48:05 1432

转载 Linux下Tomcat6的自动重启及自动重启后的乱码问题

（1）写一个shell脚本mytt.sh，重新启动tomcat#!/bin/shpid=`ps aux | grep tomcat | grep -v grep | grep -v retomcat | awk '{print $2}'`echo $pidif [ -n "$pid" ]then{ echo ===========shutdown======

2014-12-02 09:57:54 879