- 博客(19)
- 资源 (13)
- 收藏
- 关注
转载 Spark安装与学习
摘要:Spark是继Hadoop之后的新一代大数据分布式处理框架,由UC Berkeley的Matei Zaharia主导开发。我只能说是神一样的人物造就的神器,详情请猛击http://www.spark-project.org/ Created 2012-05-09 Modified 2012-08-131 Scala安装
2014-05-29 17:22:47 862
转载 sqoop2 1.99.3安装
HADOOP环境为hadoop2.2.0下载的sqoop包为sqoop-1.99.3-bin-hadoop200,下载地址:1.解压文件到工作目录:tar -xzvf sqoop-1.99.3-bin-hadoop200.tar.gzmv sqoop-1.99.3-bin-hadoop200 /usr/app/sqoop2.修改环境变量:
2014-05-29 16:57:17 2098
转载 SSH登录很慢问题的解决
用ssh连其他linux机器,会等待10-30秒才有提示输入密码。严重影响工作效率。登录很慢,登录上去后速度正常,这种情况主要有两种可能的原因:1. DNS反向解析的问题OpenSSH在用户登录的时候会验证IP,它根据用户的IP使用反向DNS找到主机名,再使用DNS找到IP地址,最后匹配一下登录的IP是否合法。如果客户机的IP没有域名,或者DNS服务器很慢或不通,那么登录就会很花时
2014-05-29 15:30:14 2711
转载 OpenStack安装部署管理中常见问题解决方法
OpenStack在开源云计算世界里谈的很是火热,也有许多来人开始安装和部署OpenStack,在这个过程中很多人都遇到了问题,本文针对一些常见的问题提供了解决办法。 一、网络问题-network更多网络原理机制可以参考《OpenStack云平台的网络模式及其工作机制》。 1.1、控制节点与网络控制器区别OpenStack平台中有两种类型的物理节点,控制节点和计
2014-05-18 00:06:13 2967
转载 构建OpenStack的高可用性(HA,High Availability)
1、CAP理论1) CAP 理论给出了3个基本要素:一致性 ( Consistency) :任何一个读操作总是能读取到之前完成的写操作结果;可用性 ( Availability) :每一个操作总是能够在确定的时间内返回;分区可容忍性 (Tolerance of network Partition) :在出现网络分区的情况下,仍然能够满足一致性和可用性; C
2014-05-18 00:05:03 1683
转载 虚拟机克隆CentOS后的网卡配置
CentOS虚拟机克隆,物理地址会冲突,于是自动新建了网卡eth1,无法启动网卡。 解决办法: www.2cto.com 方式1: 1)修改/etc/sysconfig/network-scripts/ifcfg-eth0 为 /etc/sysconfig/network-scripts/ifcfg-eth1 2)配置/etc/sysconfig/networ
2014-05-11 11:34:39 1189
转载 maven常用命令介绍
1 下载源代码:mvn dependency:sources -DdownloadSources=true -DdownloadJavadocs=true maven常用命令介绍这里主要是在eclipse中使用maven,因此只使用到了一部分命令,整理下来方便以后查阅。生成清除Eclipse项目结构:mvn eclipse:eclipsem
2014-05-09 23:19:12 1318
转载 spark入门
系统:centos6.4 spark版本:0.8.11.spark官方网址里面有软件下载,文档,和视频教程。官网见:猛戳此处2.spark安装centos下安装方法见参考文献1。安装后运行example出现问题:1)WARN cluster.ClusterScheduler: Initial job has not accepted any r
2014-05-08 22:52:40 1022
原创 maven命令
导出yimvn dependency:copy-dependencies -DoutputDirectory=lib -DincludeScope=compile
2014-05-08 22:01:40 546
转载 spark读取hbase数据做分布式计算
由于spark提供的hbaseTest是scala版本,并没有提供java版。我将scala版本改为java版本,并根据数据做了些计算操作。程序目的:查询出hbase满足条件的用户,统计各个等级个数。代码如下,注释已经写详细:package com.sdyc.ndspark.sys;import org.apache.commons.logging.Log;imp
2014-05-03 23:53:04 2822
转载 spark 学习
zhuspark,又一个传说中的分布式实现,详情:http://spark-project.org/,安装这里就不写了,因为网上已有中文介绍,这里主要是介绍一下入门,和hadoop一样,学习的时候,首先学习spark提供的字符统计例子:javaWordCount原始代码如下:Java代码 import scala.Tuple2; impo
2014-05-03 23:51:47 1063
转载 Spark 0.9的安装配置
一、上传scala2.10.3到linux 下载scala 2.10.3文件。网上的scala-2.10.3.tgz、scala-2.10.3.rpm,前者支持unix,后者专门给linux使用。但我这里还是使用了前者,因为是绿色的,方便配置。二、上传Spark0.9的解压后文件三、配置相关文件 1、.bash_profile文件export S
2014-05-02 14:05:40 810
原创 hadoop-hbase-hive-zookeeper的cdh4.6.0和spark-0.9.0-incubating-bin-cdh4集群
配置文件下载地址:
2014-05-02 14:03:31 864
原创 节点datanode无法启动
参照这篇文章配置的集群:http://www.linuxidc.com/Linux/2014-03/98606.htm
2014-05-02 11:21:12 1049
转载 Hadoop2.2.0的eclipse插件的编译
Hadoop2.x之后,已经发布了稳定的版本hadoop2.2.0.但是由于没有eclipse插件工具,辅助,开发调试相对起来,会稍显麻烦,特别是基于Java开发的工程师们,虽然写完MR任务后,也可以采用打成jar包的方式,上传调试,但是这种方式,也有点繁琐,不过网上也好像有一些,使用程序能够自动打包任务的程序,散仙没具体用过,在这里,就不多涉及了,有知道的朋友们,欢迎分享。 下面开始
2014-05-02 01:28:32 727
转载 linux 查看 进程 端口号
1. 查看进程占用的端口号netstat -anp[root@nbatest ~]# netstat -anp | grep 进程名称2. 查看使用端口号的进程lsof[root@nbatest ~]# lsof -i: 端口号
2014-05-02 01:27:28 644
转载 Spark安装启动 and 在程序中调用spark服务
1.软件准备2.基础软件安装 3.安装spark 注:SPARK_MASTER_IP这里填写spark master的IP或者主机名,如果使用的是ip,在指定master调用服务时就只能使用ip,类似spark://192.168.1.39:7077.如果使用的是主机名,那就只能使用主机名了。类似这样spark://主机名:7077.推荐使用主机名,因为就算ip变了也不用老改配置
2014-05-02 01:26:10 1594
hadoop-cdh4.6配置文件
2014-05-02
ext2Spring
2013-11-23
hadoopDemo-mapreduce
2013-11-13
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人