大数据开发与应用学习
!@#~
本人博客用于记录自己学习过程中不大懂的,方便以后查找,如有错误欢迎指正
展开
-
centos7安装Python3
安装python3之前最好不要删除python2,因为yum是依赖于python2的下载Python-3.5.2.tar.xz包,在虚拟机中的火狐浏览器中搜索python下载相应的包将Python-3.5.2.tar.xz移动到/opt/modules目录下,解压,并重命名为python3 mv Python-3.5.2.tar.xz /opt/modules tar -Jxvf Python-3.5.2.tar.xz mv Python-3.5.2 python3进入解压后的目录下.原创 2020-11-02 12:56:51 · 80 阅读 · 0 评论 -
HBase shell报错
错误一:在jps各项正常,启动的时候没有报错,重启集群重启hadoop没有解决org.apache.hadoop.hbase.ipc.ServerNotRunningYetException: Server is not running关闭hadoop的安全模式hdfs dfsadmin -safemode get#查看当前的安全模式状态hdfs dfsadmin -safemode leave#强制退出当前的安全模式关闭安全模式,重启hbase之后又出现,再次jps发现少了一些进程E.原创 2020-06-29 20:27:22 · 1872 阅读 · 0 评论 -
HBase API
1. 以root身份启动hadoop集群,启动HBasestart-all.sh #启动hadoopcd /opt/modules/hbase/bin./start-hbase.sh2. 创建Maven项目3.在Maven中搜索HBase,添加 HBase-server,和HBase-client找到自己客户端对应的版本,复制到pom文件中,需要在pom文件首先添加<dependencies></dependencies>,然后把下面的...原创 2020-05-25 15:21:56 · 199 阅读 · 0 评论 -
利用已搭建好的hadoop集群
已搭建好hadoop,hbase,zookeeper用VMware打开集群,密码:123456配置网络连接1. 查看自己的网络状况网关为192.168.79.2子网掩码255.255.255.0起始IP为192.168.79.128,可以分别设置 192.168.79.131, 192.168.79.132, 192.168.79.1332. 为虚拟机配置网络1. Master(centos1)删除了一个DNS设置完之...原创 2020-05-20 15:18:54 · 473 阅读 · 1 评论 -
Zookeeper伪分布式搭建
从windows中下载zookeeper后上传到虚拟机在根目录下创建zookeeper文件夹 mkdir /zookeeper3. 把zookeeper移动到zookeeper文件夹中,解压[root@CentOS7 zookeeper]# cd /[root@CentOS7 /]# cd home/username/Downloads[root@CentOS7 Downlo...原创 2020-03-23 17:25:05 · 153 阅读 · 0 评论 -
Spark WordCounter
flatMap()方法是在Map方法基础上将切分的记录做扁平化处理,即切分后的每个单词都是一个新记录,其次map()将每个单词组成一个(key,value)的形式的元组,将且切分出的单词Word作为key,将1作为value,最后reduceByKey()方法将key相同的记录收集到一起,对其value进行迭代相加,最后得到一个数组countscala> val file = spark....原创 2019-06-27 15:28:46 · 257 阅读 · 0 评论 -
IDEA开发scala
1.File--Settings-plugins-Marketplace-scala-install2.File-project structer可设置jdk3.新建Maven项目勾选Create from archetype 在下面选中scala-archetype-simpleGroupld:edu.qfnu.sparkArtifactld:spark4.勾选 Us...原创 2019-06-26 16:49:12 · 238 阅读 · 0 评论 -
Hadoop 新增slave3和slave4节点
1.在master节点上,首先启动集群[root@master hadoop]# lsbin etc include lib libexec LICENSE.txt logs NOTICE.txt README.txt sbin share tmp[root@master hadoop]# cd etc[root@master etc]# lshadoop[r...原创 2019-06-23 10:19:16 · 936 阅读 · 0 评论 -
Spark环境搭建
1.下载scala-2.12.8.tgz和spark-2.4.3-bin-hadoop2.7.tgz2.将安装包移动到usr目录下[root@master bigdata]# mv scala-2.12.8.tgz spark-2.4.3-bin-hadoop2.7.tgz /usr3.解压tar -zxvf scala-2.12.8.tgz4.把scala-2.12.8重...原创 2019-06-23 10:18:48 · 348 阅读 · 0 评论 -
SecureCRT连接CentOS7虚拟机慢
首先解决一下SecureCRT连接本地虚拟机慢的问题(SSH配置问题)1.cd /etc/ssh/2.备份一下配置文件:cp sshd_config sshd_config.bak3.修改配置文件: vi /sshd_config 改为UseDNS no(把原来前面的代表注释的#去掉,在改为no)4.重启sshd服务systemctl restart sshd5...原创 2019-05-06 19:34:59 · 1271 阅读 · 0 评论 -
Centos7 Linux虚拟机修改密码
1.root权限2.输入passwd即可修改3.passwd 用户名4.修改即可原创 2019-05-06 19:37:33 · 1196 阅读 · 0 评论 -
HBase环境搭建
本人前提zookeeper-3.4.10装好,在 /usr/local 目录下Java中的jdk在 /usr/java/jdkHBase-1.4.9搭建1.HBase安装包上传到 /usr 目录下2.解压安装包 tar -zxvf hbse-1.4.9-bin.tar.gz (tar -xvf hbase-1.4.9.gz)3.配置HBase环境变量 cd hbase-1.4.9/...原创 2019-06-12 17:03:49 · 211 阅读 · 0 评论 -
Centos7虚拟机MySQ连接Hive
安装Hive1.下载apache-hive-2.3.4-bin.tar.gz2.解压安装包 tar -xvf file.tar //解压tar包 tar -zxvf file.tar.gz //解压tar.gz tar -jxvf file.tar.bz2 //解压tar.bz2 ...原创 2019-05-25 17:37:28 · 2437 阅读 · 0 评论 -
知识整理
1.可以通过web浏览器来访问你的虚拟机Hadoop平台,在搜索框中输入:192.168.xxx.xxx:50070即可访问可通过 Utilites-Browse the file system访问此界面2.错误查找,找log文件,在搜索引擎中找log文件中的内容,一般可以准确找到解决方法Hadoop日志[root@master ~]# cd /usr/hadoop[...原创 2019-05-26 17:24:41 · 135 阅读 · 0 评论 -
词频统计
完整代码package edu.qfnu.hadoop;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.a...原创 2020-03-23 21:41:19 · 334 阅读 · 0 评论 -
Hive进行词频统计
HIve对某热搜数据进行词频统计1.创建database和table,并把数据放到db2.sogou中hive> show databases;OKdb1db2defaultTime taken: 0.057 seconds, Fetched: 3 row(s)hive> drop database db2 cascade; //删除某个以存在的database...原创 2019-06-02 16:36:57 · 2635 阅读 · 0 评论 -
Hadoop执行单词计数和查重
#HDFS@HDFS1.File --settings–Bulid–Bulid Tools–Maven 勾选倒数第二行的 Override2.右键 pom.xml – Reimport (或 View – Tools Windows – Maven – )点击 Lifecycle中的install,联网会自动安装所需包3.节点(虚拟机)断开,或者DataNode或者NodeManager进...原创 2019-06-23 10:18:20 · 201 阅读 · 0 评论