2014年05月_笔尖的痕

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月

转载 Spark安装与学习

摘要：Spark是继Hadoop之后的新一代大数据分布式处理框架，由UC Berkeley的Matei Zaharia主导开发。我只能说是神一样的人物造就的神器，详情请猛击http://www.spark-project.org/ Created 2012-05-09 Modified 2012-08-131 Scala安装

2014-05-29 17:22:47 862

转载 sqoop2 1.99.3安装

HADOOP环境为hadoop2.2.0下载的sqoop包为sqoop-1.99.3-bin-hadoop200,下载地址：1.解压文件到工作目录:tar -xzvf sqoop-1.99.3-bin-hadoop200.tar.gzmv sqoop-1.99.3-bin-hadoop200 /usr/app/sqoop2.修改环境变量：

2014-05-29 16:57:17 2098

转载 SSH登录很慢问题的解决

用ssh连其他linux机器，会等待10-30秒才有提示输入密码。严重影响工作效率。登录很慢，登录上去后速度正常，这种情况主要有两种可能的原因：1. DNS反向解析的问题OpenSSH在用户登录的时候会验证IP，它根据用户的IP使用反向DNS找到主机名，再使用DNS找到IP地址，最后匹配一下登录的IP是否合法。如果客户机的IP没有域名，或者DNS服务器很慢或不通，那么登录就会很花时

2014-05-29 15:30:14 2711

转载 OpenStack安装部署管理中常见问题解决方法

OpenStack在开源云计算世界里谈的很是火热，也有许多来人开始安装和部署OpenStack，在这个过程中很多人都遇到了问题，本文针对一些常见的问题提供了解决办法。　　一、网络问题-network更多网络原理机制可以参考《OpenStack云平台的网络模式及其工作机制》。　　1.1、控制节点与网络控制器区别OpenStack平台中有两种类型的物理节点，控制节点和计

2014-05-18 00:06:13 2967

转载构建OpenStack的高可用性（HA，High Availability）

1、CAP理论1） CAP 理论给出了3个基本要素：一致性 ( Consistency) ：任何一个读操作总是能读取到之前完成的写操作结果；可用性 ( Availability) ：每一个操作总是能够在确定的时间内返回；分区可容忍性 (Tolerance of network Partition) ：在出现网络分区的情况下，仍然能够满足一致性和可用性； C

2014-05-18 00:05:03 1683

转载虚拟机克隆CentOS后的网卡配置

CentOS虚拟机克隆，物理地址会冲突，于是自动新建了网卡eth1，无法启动网卡。解决办法： www.2cto.com 方式1： 1）修改/etc/sysconfig/network-scripts/ifcfg-eth0 为 /etc/sysconfig/network-scripts/ifcfg-eth1 2）配置/etc/sysconfig/networ

2014-05-11 11:34:39 1189

转载 maven常用命令介绍

1 下载源代码：mvn dependency:sources -DdownloadSources=true -DdownloadJavadocs=true maven常用命令介绍这里主要是在eclipse中使用maven，因此只使用到了一部分命令，整理下来方便以后查阅。生成清除Eclipse项目结构：mvn eclipse:eclipsem

2014-05-09 23:19:12 1318

转载 spark入门

系统：centos6.4 spark版本：0.8.11.spark官方网址里面有软件下载，文档，和视频教程。官网见：猛戳此处2.spark安装centos下安装方法见参考文献1。安装后运行example出现问题：1）WARN cluster.ClusterScheduler: Initial job has not accepted any r

2014-05-08 22:52:40 1022

原创 maven命令

导出yimvn dependency:copy-dependencies -DoutputDirectory=lib -DincludeScope=compile

2014-05-08 22:01:40 546

原创 ubuntu 163 mirrors

http://mirrors.163.com/.help/ubuntu.html

2014-05-06 23:05:17 1108

转载 spark读取hbase数据做分布式计算

由于spark提供的hbaseTest是scala版本，并没有提供java版。我将scala版本改为java版本，并根据数据做了些计算操作。程序目的：查询出hbase满足条件的用户，统计各个等级个数。代码如下，注释已经写详细：package com.sdyc.ndspark.sys;import org.apache.commons.logging.Log;imp

2014-05-03 23:53:04 2822

转载 spark 学习

zhuspark,又一个传说中的分布式实现,详情:http://spark-project.org/,安装这里就不写了，因为网上已有中文介绍，这里主要是介绍一下入门，和hadoop一样，学习的时候，首先学习spark提供的字符统计例子：javaWordCount原始代码如下：Java代码 import scala.Tuple2; impo

2014-05-03 23:51:47 1063

转载 Spark 0.9的安装配置

一、上传scala2.10.3到linux 下载scala 2.10.3文件。网上的scala-2.10.3.tgz、scala-2.10.3.rpm，前者支持unix，后者专门给linux使用。但我这里还是使用了前者，因为是绿色的，方便配置。二、上传Spark0.9的解压后文件三、配置相关文件 1、.bash_profile文件export S

2014-05-02 14:05:40 810

原创 hadoop-hbase-hive-zookeeper的cdh4.6.0和spark-0.9.0-incubating-bin-cdh4集群

配置文件下载地址：

2014-05-02 14:03:31 864

原创节点datanode无法启动

参照这篇文章配置的集群：http://www.linuxidc.com/Linux/2014-03/98606.htm

2014-05-02 11:21:12 1049

转载 Hadoop2.2.0的eclipse插件的编译

Hadoop2.x之后，已经发布了稳定的版本hadoop2.2.0.但是由于没有eclipse插件工具，辅助，开发调试相对起来，会稍显麻烦，特别是基于Java开发的工程师们，虽然写完MR任务后，也可以采用打成jar包的方式，上传调试，但是这种方式，也有点繁琐，不过网上也好像有一些，使用程序能够自动打包任务的程序，散仙没具体用过，在这里，就不多涉及了，有知道的朋友们，欢迎分享。下面开始

2014-05-02 01:28:32 727

转载 linux 查看进程端口号

1. 查看进程占用的端口号netstat -anp[root@nbatest ~]# netstat -anp | grep 进程名称2. 查看使用端口号的进程lsof[root@nbatest ~]# lsof -i: 端口号

2014-05-02 01:27:28 644

转载 Spark安装启动 and 在程序中调用spark服务

1.软件准备2.基础软件安装 3.安装spark 注：SPARK_MASTER_IP这里填写spark master的IP或者主机名，如果使用的是ip，在指定master调用服务时就只能使用ip，类似spark://192.168.1.39:7077.如果使用的是主机名，那就只能使用主机名了。类似这样spark://主机名:7077.推荐使用主机名，因为就算ip变了也不用老改配置

2014-05-02 01:26:10 1594