自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 收藏
  • 关注

原创 Spark2.2.1运行在mesos1.7上成功执行wordcount例子

实验环境:共三台机器,Redhat7.1操作系统,其中一台master,两台slave。三台机器上已经安装配置了Spark2.2.1(参考 Spark2.2.1安装配置)。本文主要记录mesos安装配置的过程,以及Spark的wor在wordcount例子运行的过程。一、mesos安装配置尝试了两种安装方式,一种是下载mesos源码包然后自己编译安装(编译过程中有错误,暂时没有解决,虽...

2018-12-29 15:59:42 333

原创 spark中textfile方法对文件的分片

以数据源为HDFS上的文件为例:JavaRDD data_raw = sc.textfile(path, partitionnum),path指定数据所在位置,partitionnum影响data_raw RDD所具有的partition数以及每个partition大小。首先计算两个值,第一个是与参数partitionnum有关,goalSize = totalSize/partitionnum,...

2018-05-28 22:07:10 4449 3

原创 hbase shell 中list命令报错ERROR: org.apache.hadoop.hbase.PleaseHoldException: Master is initializing

    hbase运行了好多天,今天需要重启一下,于是执行stop-hbase.sh命令,先是报错stopping hbasecat: /tmp/hbase-hadoop-master.pid: No such file or directory,网上找到的解决办法,是修改hbase-env.sh配置文件,在当中设置export HBASE_PID_DIR属性,指定一个文件目录,做了这个操作后,启...

2018-05-10 17:12:52 2309

原创 Spark作业执行之JVM参数设置

spark作业提交后,在driver上运行init()方法时报错:java.lang.OutOfMemoryError: GC overhead limit exceeded报错原因是代码中使用了HashMap而且数据量很大,所以导致GC overhead,调整JVM的启动参数-Xms和-Xmx,这个参数配置Java堆的大小,因为代码运行时hashmap对象存放在堆中,故需调大改参数。配置时需要考...

2018-04-28 17:57:38 3599

原创 解决spark+hbase 报错 java.lang.NoClassDefFoundError: org/apache/hadoop/hbase/HBaseConfiguration

spark2.2.1+hbase1.2.6+hadoop2.6.1+jdk1.8.1 提交spark作业时报错如下:Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/hbase/HBaseConfiguration at fsm.FreqSubGraphMining.init(FreqSubGr...

2018-04-04 15:14:54 3172

原创 Spark2.2.1+hadoop2.6.1安装配置成功运行WordCount

    hadoop2.6.1安装配置可以参考:分布式环境搭建redhat7+hadoop2.6.1+jdk1.8+WordCount成功运行例子Scala安装与配置1.下载Scala包2. 新建一个目录,将scala包复制进去使用如下命令解压tar -zxvf scala-2.12.4.tgz3. 配置环境变量vi /etc/profile在文件末尾增加以下内容:export SCALA_HOM...

2018-03-28 16:52:10 1020

原创 hadoop之map结果写入hbase数据库,无reduce

    算法需要读取整个文件作为一个分片,因此自定义了WholeFileInputFormat类和WholeFileRecordReader类用于实现一个map能够读取一整个文件。    Configuration类实例化的对象和HBaseConfiguration类实例化的对象作用不同,我遇到的问题是:若是只用Configuration类创建的对象conf,则job任务可以提交成功,输入分片也成...

2018-03-19 20:49:55 339

原创 eclipse中远程操作hbase例子,只有map过程没有reduce,map中读取hbase表的所有列

本文例子能够成功运行的前提是,hadoop分布式运行正常,hbase分布式运行正常,eclipse远程操作hadoop和hbase正常。话不多说,撕代码。 代码尽量加了详尽的注释,可以成功运行,过程中碰了不少壁,但是遇到问题解决问题才是科研的乐趣所在,O(∩_∩)O哈哈~package hbasetest;import java.io.BufferedWriter;import java.i

2018-01-19 11:33:48 265

原创 eclipse远程连接操作hbase数据库

远程操作只是为了调试测试,学习hbase的一些基本用法,在hadoop集群上运行之前先对程序进行调试测试运行。1.在eclipse中新建一个Java project,并新建一个包hbasetest2.导入所有的jar包。jar包在哪里找:将集群中hbasehome目录下lib目录中的所有文件拷贝到eclipse所在的机器上,导入jar包只需要将所有刚才拷贝的文件都导入即可。下面是成

2018-01-15 10:51:49 2125

原创 hadoop2.6.1+hbase1.4.0完全分布式

写这篇之前已经搭建好一个hadoop集群,集群中有三台服务器,能正常运行。具体见第一篇博文。 1.官网下载与hadoop对应的HBASE,我下载的是Hbase-1.4.0-bin.tar.gz,master节点服务器中新建目录/home/hbase,将下载的文件上传至新建的目录下。 2.进入新建的目录中,解压下载的文件,[root@master hadoop]# cd /hom

2018-01-11 14:48:50 924

翻译 好记性不如烂笔头---hadoop分布式文件系统HDFS

何为分布式文件系统,即管理网络中跨多台计算机存储的文件系统称为分布式文件系统,该系统架构于网络之上,引入了网络编程的复杂性,因此分布式文件系统比普通磁盘文件系统更为复杂。 HDFS的设计       HDFS以流式数据访问模式来存储超大文件,超大文件指具有MB、GB、TB级的文件目前也已经有存储PB级数据的hadoop集群了。流式数据访问是指一次写入,多次读取,这是最高效的访问模式,也

2018-01-09 21:17:41 263

原创 hadoop属性的配置调优记录

1.配置网页查看hadoop集群状态在浏览器输入http://ip地址:8088/cluster,即可用网页查看hadoop集群状态,配置好之后查看某个作业时会报错,这是因为没有设置域名重定向,我的电脑是Win7操作系统,设置域名重定向的方法是:在本地计算机的C:\Windows\System32\drivers\etc目录下找到hosts文件,记事本打开hosts文件,在hosts文件的最后,添...

2018-01-03 10:16:33 369

翻译 好记性不如烂笔头---hadoop配置调优

以下属性以作业为单位,默认值适合于常规作业。       map端的调优属性属性              类型       默认值 io.sort.mb       int          100 排序map输出时所使用的的内存缓冲区的大小,以兆字节为单位 io.sort.spill.percent        float       

2018-01-02 11:17:24 256

翻译 好记性不如烂笔头---hadoop的shuffle和sort过程

MapReduce确保每个reducer的输入都是按键排序的,系统执行排序的过程称为shuffle。  在map端,map函数开始产生输出时,并不是直接写入到磁盘,而是利用缓冲的方式写到内存并出于效率的考虑进行预排序,具体过程:每个map任务都有一个环形内存缓冲区用于存储任务输出,该缓冲区默认大小为100m,可以通过io.sort.mb属性调整该值,一旦缓冲达到阈值io.sort.spill.pe

2017-12-29 10:48:29 613

翻译 好记性不如烂笔头---hadoop的作业调度

早期的hadoop 使用非常简单的方法调度用户作业:按照作业的提交顺序,使用FIFO调度算法来运行作业。典型情况下,每个作业都会使用整个集群,但是这样作业需要等待直到轮到自己运行。不久后,增加了设置作业优先级的功能,可以通过设置mapred.job.priority属性或者jobclient的setjobpriority()方法来设置作业的优先级,在这两种方法中可以选择VERY-HIGH,HIGH

2017-12-28 19:41:08 228

翻译 好记性不如烂笔头---YARN作业运行机制

YARN将jobtracker的职能进行了划分,划分了两个独立的守护进程:管理集群上资源使用的资源管理器ResourceManager,管理集群上运行任务生命周期的应用管理器ApplicationMaster。基本思路是:AM与RM协商集群的计算资源:容器Container,在容器上运行特定应用程序的进程。容器由集群节点上运行的集群管理器NodeManager监视,以确保应用程序使用的资源不会超过

2017-12-27 21:56:42 243

翻译 好记性不如烂笔头---MapReduce1作业运行机制

学习hadoop先从搞懂作业运行机制开始,不看懂运行机制总感觉MapReduce的执行是一件很神秘的事情,现在来解开她的神秘面纱,本想自己看看书就算了,但是记忆力真的是个好东西,然而我却没有。。。只好把看到的内容记下来,也好留下更深的印象。另外,本文内容摘抄自《hadoop权威指南第3版》。jobtracker接收到对其的submitjob()方法的调用后,会把此调用放入一个内部队列中,交由作

2017-12-26 09:32:01 257 1

原创 分布式环境搭建redhat7+hadoop2.6.1+jdk1.8+WordCount成功运行例子

共三台服务器,安装的Redhat7系统,Redhat7命令与常用的Linux命令稍有不同。第一次写博客,记录过程方便自己的同时方便他人,直接开始正题,环境搭建过程如下。一、安装Redhat7.1系统1.用光盘安装,服务器开启后启动过程中按del键进入BIOS,在boot菜单中将boot priority的CD/ROM选项设置为1st,具体做法是选中CD/ROM选项并按shift+键。 2.安装设置

2017-12-18 14:54:54 680 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除