自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

笔尖的痕的专栏

don't be shy, just try!

  • 博客(14)
  • 资源 (13)
  • 收藏
  • 关注

转载 Hadoop Streaming框架使用(三)

前两篇文章介绍了Hadoop Streaming框架的使用方法。由于篇幅所限,并没有介绍其中的高级使用方法,但是有一些用法还是相当常见的。今天对一些高级用法进行一个简单的说明,希望能给大家一些启发。  1 使用cacheFile分发文件  如果文件(如字典文件)存放在HDFS中,希望计算时在每个计算节点上将文件当作本地文件处理,,可以使用-cacheFile hdfs://host:por

2014-12-28 23:23:20 682

转载 Hadoop Streaming 编程

1、概述Hadoop Streaming是Hadoop提供的一个编程工具,它允许用户使用任何可执行文件或者脚本文件作为Mapper和Reducer,例如:采用shell脚本语言中的一些命令作为mapper和reducer(cat作为mapper,wc作为reducer)$HADOOP_HOME/bin/hadoop  jar $HADOOP_HOME/contrib

2014-12-28 14:21:16 894

转载 Hadoop计算能力调度器应用和配置

需求公司里有两个部门,一个叫hive,一个叫pig,这两个部门都需要使用公司里的hadoop集群。于是问题来了,因为hadoop默认是FIFO调度的,谁先提交任务,谁先被处理,于是hive部门很担心pig这个部门提交一个耗时的任务,影响了hive的业务,hive希望可以和pig在高峰期时,平均使用整个集群的计算容量,互不影响。思路hadoop的默认调度器是FIFO,但是也有

2014-12-26 15:00:37 905

转载 基于Mahout的电影推荐系统

1.Mahout 简介Apache Mahout 是 Apache Software Foundation(ASF) 旗下的一个开源项目,提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。经典算法包括聚类、分类、协同过滤、进化编程等等,并且,在 Mahout 的最近版本中还加入了对 Apache Hadoop 的支持,使这些算法可以更高效的运行在云

2014-12-26 02:51:50 2258

转载 hadoop作业调优参数整理及原理

1 Map side tuning参数1.1 MapTask运行内部原理当map task开始运算,并产生中间数据时,其产生的中间结果并非直接就简单的写入磁盘。这中间的过程比较复杂,并且利用到了内存buffer来进行已经产生的 部分结果的缓存,并在内存buffer中进行一些预排序来优化整个map的性能。如上图所示,每一个map都会对应存在一个内存 buffer(MapOut

2014-12-25 18:27:11 1038

转载 Ubuntu下配置Hadoop 2.3.0单节点模式

以下操作在32位Ubuntu 12.04版本下测试通过,64位系统配置64位版本Hadoop请自行搜索源代码编译相关内容。--- 分隔线神圣不可侵犯 -------------------------------------------------------------安装Ubuntu安装过程略……不想折腾的,直接在虚拟机里跑一跑好了……在 Ubuntu 下创建 

2014-12-23 01:25:22 693

转载 Linux centos 下 eclipse 打开文件时关闭

http://processors.wiki.ti.com/index.php/Linux_Host_Support#cairo-misc.c:380:_cairo_operator_bounded_by_source:_Assertion_.60NOT_REACHED.27_failedhttp://processors.wiki.ti.com/index.php/Lin

2014-12-21 08:44:22 1298

转载 hadoop namenode启动过程详细剖析及瓶颈分析

NameNode启动过程详细剖析NameNode中几个关键的数据结构FSImageNamenode会将HDFS的文件和目录元数据存储在一个叫fsimage的二进制文件中,每次保存fsimage之后到下次保存之间的所有hdfs操作,将会记录在editlog文件中,当editlog达到一定的大小(bytes,由fs.checkpoint.size参数定义)或从上次保存过后一定时

2014-12-18 03:03:06 1247

转载 深入理解Hadoop集群和网络

本文将着重于讨论Hadoop集群的体系结构和方法,及它如何与网络和服务器基础设施的关系。最开始我们先学习一下Hadoop集群运作的基础原理。Hadoop里的服务器角色Hadoop主要的任务部署分为3个部分,分别是:Client机器,主节点和从节点。主节点主要负责Hadoop两个关键功能模块HDFS、Map Reduce的监督。当Job Tracker使用Map Reduce

2014-12-17 03:21:20 838

转载 ubuntu14.04安装DevStack与遇到的的问题记录

本文总结Ubuntu 14.04下部署DevStack的过程以及一些可能遇到的问题。  一、安装  以下的操作最好在普通用户下进行,至少在git clone devstack的时候使用普通用户,这样可以避免一些不必要的权限问题,当然,以后也可以使用权限更改命令来修改普通用户的权限,这种方法下文将会介绍。  1.首先获取系统更新内容  $ sudo apt-get u

2014-12-17 00:22:41 1730 3

转载 在linux服务器上lamp环境中怎样安装php的扩展模块

在一次安装wordpress模板中,不知为何 文章内容老是不能显示,最后打开debug后,说是functions.php文件中的mb_strlen()函数未定义,看来这...在一次安装wordpress模板中,不知为何 文章内容老是不能显示,最后打开debug后,说是functions.php文件中的mb_strlen()函数未定义,看来这就是文章内容不显示的原因了,那么怎么解决呢。

2014-12-16 18:24:04 2141

原创 OpenStack 手动安装(juno)

#OpenStack 手动安装手册(juno)##部署架构为了更好的展现OpenStack各组件分布式部署的特点,以及逻辑网络配置的区别,本实验不采用All in One 的部署模式,而是采用多节点分开部署的方式,方便后续学习研究。##网络拓扑##环境准备本实验采用Virtualbox Windows 版作为虚拟化平台,模拟相应的物理网络

2014-12-08 00:02:42 3806 1

转载 打造高性能高可靠块存储系统

块存储系统 分布式存储有出色的性能,可以扛很多故障,能够轻松扩展,所以我们使用Ceph构建了高性能、高可靠的块存储系统,并使用它支撑公有云和托管云的云主机、云硬盘服务。由于使用分布式块存储系统,避免了复制镜像的过程,所以云主机的创建时间可以缩短到10秒以内,而且云主机还能快速热迁移,方便了运维人员对物理服务器上硬件和软件的维护。用户对于块存储系统最直观的感受来源于云硬盘服务,现

2014-12-06 02:48:05 1432

转载 Linux下Tomcat6的自动重启及自动重启后的乱码问题

(1)写一个shell脚本mytt.sh,重新启动tomcat#!/bin/shpid=`ps aux | grep tomcat | grep -v grep | grep -v retomcat | awk '{print $2}'`echo $pidif [ -n "$pid" ]then{   echo ===========shutdown======

2014-12-02 09:57:54 879

clickhouse官方文档PDF版本

clickhouse官方文档PDF版本哈。clickhouse官方文档PDF版本哈。

2018-10-12

apache spark的设计与实现

写的apache spark的设计与实现,共享给大家。

2016-02-03

openstack icehouse配置文件

自己配置的openstack icehouse的配置文件,有四个节点,集成了所有组件。供参考。

2014-10-07

hadoop-cdh4.6配置文件

hadoop-hbase-hive-zookeeper的cdh4.6.0和spark-0.9.0-incubating-bin-cdh4集群配置文件

2014-05-02

ext2Spring

基于extDirectSpring的源码,Jar包比较大所以删掉了,工程是基于extDirectSpring-1.3.8和spring-3.2.4,Jar包可以到网上下载,里面没勇嫂数据库。

2013-11-23

hadoopDemo-mapreduce

自己写的Hadoop的demo,是基于hadoop-2.0.0-cdh4.4.0的及其hadoop其他项目(hive,hbase,pig,zookeeper),Jar包自己找,然后下吧。本代码是基于集群配置的。

2013-11-13

Hadoop in Practice

Hadoop in Practice 是英文的书籍,有空要看看。

2013-11-05

Hadoop权威指南(中文版)

Hadoop权威指南,中文版的哈,很好的书,再看,是这方面最权威的书籍。

2012-04-23

集体智慧编程(中文版)

集体智慧编程(中文版),里卖弄有很都算法 都很好、很实用的算法。

2012-04-23

SQL.Server.MVP.Deep.Dives

学习SQL Server的书籍,是一本MVP们写的书哦。

2012-03-08

LINQ资料word版

LINQ属于C#语言的一部分 我认为这个资料是学习LINQ的好资料 LINQ很强大,哈哈

2012-02-24

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除