大数据
Yang838020787
这个作者很懒,什么都没留下…
展开
-
spark学习:(一)虚拟机安装及软件要求
1 Linux虚拟机的安装参考:https://blog.csdn.net/ProgrammingWay/article/details/78237856采用的是VMWare,CentOS6.9。因为是在自己电脑上进行实验,故架设三台虚拟机,分别命名为master(192.168.xxx.001),slave1(192.168.xxx.002),slave2(192.168.xxx.003...原创 2019-01-04 10:25:25 · 1908 阅读 · 0 评论 -
spark学习:(二)Hadoop安装
1 免密登录关闭防火墙,命令是:chkconfig iptables off(永久关闭防火墙)在每台虚拟机的/etc/hosts文件中添加以下内容:192.168.xxx.001 master192.168.xxx.002 slave1192.168.xxx.003 slave2检查这3个机器是否相互联通,命令为: ping -c 4 slave1...原创 2019-01-08 09:20:20 · 284 阅读 · 0 评论 -
spark学习:(三)eclipse下Hadoop配置
1 插件的安装与配置要求与Linux上安装的Hadoop版本一致。把下载好的Hadoop解压到本地目录。添加系统环境变量:新建变量名HADOOP_HOME,值为Hadoop的解压路径,如E:\hadoop-2.8.5。在path中添加:%HADOOP_HOME%\bin。把Windows-Hadoop插件解压得到的所有文件复制到hadoop-2.8.5的bin目录下。再把hadoo...原创 2019-02-03 10:55:47 · 291 阅读 · 0 评论 -
spark学习:(四)MapReduce使用
1 概述一个MapReduce作业(job)通常会把输入的数据集切分为若干独立的数据块,由map任务(task)以完全并行的方式处理它们。框架会对map的输出先进行排序,然后把结果输入给reduce任务。通常作业的输入和输出都会被存储在文件系统中。整个框架负责任务的调度和监控,以及重新执行已经失败的任务。MapReduce框架和HDFS是运行在一组相同的节点上的,也就是说,计算节点和存储节...原创 2019-02-25 15:21:57 · 1241 阅读 · 0 评论 -
spark学习:(五)Spark的使用
参考:https://www.cnblogs.com/qingyunzong/p/8888080.html1 安装配置解压安装包并修改目录名: 1 [root@master opt]# tar -zxvf spark-2.3.1-bin-hadoop2.7.tgz 2 [root@master opt]# mv sp...原创 2019-04-15 14:13:25 · 595 阅读 · 0 评论 -
spark学习:(七)spark提交模式
1 部署模式1.1 local[*]模式该模式被称为local[N]模式,是用单机的多个线程来模拟Spark分布式计算,直接运行在本地,便于调试,通常用来验证开发出来的应用程序逻辑上有没有问题。其中N代表可以使用N个线程,每个线程拥有一个core。如果不指定N,则默认是1个线程。local:只启动一个executor;local[K]:启动K个executor;local[*]...原创 2019-05-05 08:33:56 · 487 阅读 · 0 评论 -
spark学习:(六)RDD
RDD(弹性分布式数据集)RDD即弹性分布式数据集,有容错机制并可以被并行操作的元素集合,具有只读、可分区、容错、高效、无需物化、可以缓存、RDD依赖等特征。RDD只是数据集的抽象,分区内部并不会存储具体的数据。存储的只是具体数据的分区信息getPartitions,还有就是针对单个分区的读取方法compute。RDD的数据默认情况下存放在内存中,但是在内存资源不足时,spark会自动将RDD...原创 2019-04-30 15:51:38 · 259 阅读 · 0 评论 -
阿里云ECS部署elasticsearch7.1.0集群
1.本实验在三台阿里云ECS服务器上安装elasticsearch,首先要实现三台机器内网互通,参考:https://blog.csdn.net/weixin_38875344/article/details/89146937。 实例名 内网IP 外网IP node-1 master...原创 2019-07-08 20:34:02 · 1003 阅读 · 1 评论