2019最新某象数据分析数据挖掘与分布式爬虫全套合集

最新推荐文章于 2024-05-21 20:17:54 发布

┽→Mr. 宋ぃ

最新推荐文章于 2024-05-21 20:17:54 发布

阅读量348

点赞数

本文链接：https://blog.csdn.net/weixin_44441955/article/details/86356274

版权

一、配置JanusGraph01、02、03的java环境

mv /usr/bin/java /usr/bin/java.bak
将jdk8上传至home
tar -zxvf ./jdk-8u191-linux-x64.tar.gz -C /usr/local/
vi /etc/profile(=不需要空格，否则会报错 command not found)
JAVA_HOME=/usr/local/jdk1.8.0_191
PATH=PATH: PATH:PATH:JAVA_HOME/bin:
source /etc/profile

使用JG的国内公司：360、58、同盾

二、搭建hadoop单机版
将文件解压到/usr/local
tar -zxvf /home/hadoop-2.7.6.tar.gz -C /usr/local/
配置环境变量
vi /etc/profile/
HADOOP_HOME=/usr/local/hadoop-2.7.6/
PATH=PATH: PATH:PATH:JAVA_HOME/bin:HADOOPHOME/bin: HADOOP_HOME/bin:HADOOP
H

OME/bin:HADOOP_HOME/sbin:
source /etc/profile
测试 hadoop version报错：Error: JAVA_HOME is not set and could not be found.
由于hadoop是由java写到，所以需要告诉hadoop，java在哪里。通过vi ./etc/hadoop/hadoop-env.sh
export JAVA_HOME=/usr/local/jdk1.8.0_191/
hadoop version验证
例子
mkdir /home/testHadoopInput
cp ./etc/hadoop/*.xml /home/testHadoopInput
ll /home/testHadoopInput/（统计8个xml文件内到词频）
hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.6.jar wordcount /home/testHadoopInput/ /home/testHadoopOutput 统计词频
三、hadoop分布式部署
分布
（主机名：Janusgraph01）:（IP地址：10.5.17.174）:（功能NameNode、SecondNameNOde、DataNode、resourcemanager、nodemanager）
（主机名：Janusgraph02）:（IP地址：10.5.18.189）：（功能DataNode、nodemanager）
（主机名：Janusgraph03）:（IP地址：10.5.16.189）：（功能DataNode、nodemanager）
vim /etc/sysconfig/network 改hostname为Janusgraph0X   vim /etc/hosts/ 。改127.0.0.1 为Janusgraph0X；   reboot
配置Janusgraph01
vi ./etc/hadoop/hadoop-env.sh 为hadoop配置jdk。之前单机版本已经配置过
export JAVA_HOME=/usr/local/jdk1.8.0_191/
vi ./etc/hadoop/core-site.xml 核心配置文件
配置hdfs文件系统的命名空间；Janusgraph01是主机名，也可以用ip地址，9000为端口号
配置操作hdfs的缓存大小
配置临时数据存储目录
见core-site.xml配置
vi ./etc/hadoop/hdfs-site.xml
副本数
块大小，hadoop1时64M，hadoop2是128M，hadoop3时256M
hdfs元数据存储位置
hdfs数据存放位置
hdfs的检测目录，可以不用配置，这里就不进行配置了，如果需要，自行百度
hdfs的namenode的web ui地址，也就是从web默认看到的页面
hdfs的secondady namenode的web ui地址
是否开启web操作hdfs
是否启用hdfs的权限，acl控制列表
vi ./etc/hadoop/mapred-site.xml （注意要将mapred-site.xml.template重命名为 .xml的文件）
指定mapreduce的运行框架
历史服务的通信地址
历史服务的web ui 地址
vi ./etc/hadoop/yarn-site.xml
指定rm所启动的服务器名
指定mapreduce的shuffle
指定rm的内部通信地址
指定rm的scheduler的内部通信地址
指定rm的resource-tracker的内部通信地址
指定rm的admin的内部通信地址
指定rm的web ui 监控地址
vi ./etc/hadoop/slaves
Janusgraph01
Janusgraph02
Janusgraph03
远程分发到别的服务器
scp -r ./hadoop-2.7.6/ Janusgraph02:/usr/local/ 报错ssh: Could not resolve hostname Janusgraph02: Name or service not known
因为映射关系没搞定 vi /etc/hosts
10.5.17.174 Janusgraph01 www.Janusgraph01.com
10.5.18.189 Janusgraph02 www.Janusgraph02.com
10.5.16.189 Janusgraph03 www.Janusgraph03.com
继续scp -r ./hadoop-2.7.6/ Janusgraph02:/usr/local/
继续scp -r ./hadoop-2.7.6/ Janusgraph03:/usr/local/
分别在02、03上which hadoop、hadoop version 可以测试看是分发过去
启动之前需要格式化，在NAmenode上格式化；在JanusGraph上执行之后会在home目录下创建hadoopdata文件夹。
hadoop namenode -format（各种报错是因为配置文件里面各种格式不正确）执行之后
启动各个节点，有三种方式
全启动：start-all.sh
模块启动：start-dfs.sh start-yarn.sh
单个进程启动：sbin目录下：hadoop-dameon.sh start /stopnamenode hadoop-daemons.sh start/stop datanode yarn-dameon.sh start /stop namenode yarn-daemons.sh start/stop datanode mr-jobhistory-daemon.sh start/stop historyserver
DFS模块测试
./sbin/start-dfs.sh
跟着视频尝试的时候，发现JanusGraph02、03 的datanode都没有启动起来，查看logo是因为 2018-12-29 01:39:38,207 WARN org.apache.hadoop.hdfs.server.datanode.DataNode: Problem connecting to server: Janusgraph01:9000
解决办法：在02、03中将映射关系配进去就可以解决。
查看进程是否按照规划启动起来: jps（01：Namenode、SenondaryNamenode、Datanode；02：Datanode；03：Datanode）
查看对应模块的web ui监控是否正常:10.5.17.174:50070(网页打不开的原因？防火墙没关)
上传和下载文件，（测试hdfs）、跑一个MapReduce的作业，测试yarn
hdfs dfs -ls / 查看根目录是否有东西
上传hadoop2.7.6文件夹下面的readme到根目录： hdfs dfs -put ./README.text /
hdfs dfs -ls / 查看根目录是否有东西
hdfs dfs -cat /README.txt 读出文件

YARN模块测试
start-yarn.sh
jps:(01:ResourceManager、NodeManager；02：NodeManager；03：NodeManager)
web ui监控：10.5.17.174:8088
yarn jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.6.jar wordcount /README.txt /out/00
hdfs dfs -ls /out/00

四、配置ssh免密码登录
ssh-keygen -t rsa
ll ~/.ssh/ 查看秘钥列表
ssh-copy-id Janusgraph01 将秘钥拷贝到JanusGraph01 z这样 ssh JanusGraph01不要密码
ssh-copy-id Janusgraph02 将秘钥拷贝到JanusGraph02 这样 ssh JanusGraph02不要密码
ssh-copy-id Janusgraph03 将秘钥拷贝到JanusGraph03 这样 ssh JanusGraph03不要密码

五、Zookeeper配置
需要奇数台服务器：1，3，5，7(太多也没必要)
解压
配置环境变量vi /etc/profile
测试：zkServer.sh
配置 conf下面的zoo_sample.cfg
mv zoo_samples.conf zoo.cfg
快照存储目录修改一下，最好不放在tmp，直接自行创建好目录
端口为2181
集群配置：其中2888是为交流端口，3888是选举端口
server1=Janusgraph01：2888：3888
server1=Janusgraph02：2888：3888
server1=Janusgraph03：2888：3888
分发给Janusgraph02，03
配置各个服务器环境变量
快照存储目录修改一下，最好不放在tmp，直接自行创建好目录
mkdir /home/zkdata
vi /home/zkdata/myid
3台服务器分别写入1，2，3
zkServer.sh start
集群的一半服务启动才可以用，所以最起码启动两台服务器的zk
zkCli.sh 启动 shell
六、Hbase配置
解压
配置hbase-env.sh
export JAVA_HOME=/usr/local/jdk1.8.0_191/
export HBASE_CLASSPATH=/usr/local/hadoop-2.7.6/etc/hadoop/
export HBASE_MANAGES_ZK=false
配置hbase-site.xml(http://www.sohu.com/a/228927351_99978040)
分布式
hbase文件集群存储：位置和hadoop中配置一样
zookeeper连接目录
zookeeper文件保存目录(使用自带的配？那不自带的应该可以不用配置)
配置Regionservers
将localhost删除改为
JanusGraph01
JanusGraph02
JanusGraph03
vi backup-masters 增加备用master
Janusgraph02
分发，增加各个服务器的hbase环境变量
测试
hbase version
启动：启动hadoop、zookeeper之后、start-hbase.sh
JanusGraph01、JanusGraph02均多了HRegionServer、Hmaster
Janusgraph03多了HRegionServer
连接hbase服务：hbase shell
七、配置Janusgraph
下载Janusgraph zip包
解压到/usr/local/
运行hadoop、zookeeper、hbase
再运行elasticsearch
需要非root用户运行，所以给admin root权限
运行gremlin.sh，进行实例操作
graph=JanusGraphFactory.open(‘conf/janusgraph-hbase-es.properties’)
GraphOfTheGodsFactory.load(graph) 加载诸神图
g = graph.traversal()
g.V().has(‘name’, ‘saturn’).valueMap()
g.addV(‘person’).property(‘name’,‘Dennis’)
g.V().has(‘name’, ‘Dennis’).valueMap()

八、分布式配置Janusgraph
在janusgarph-hbase-es-properties 里面配置storage.hostname=10.5.17.174，10.5.18.189 10.5.16.189。zookeeper的地址，目前hbase和zookeeper地址一样，但是hbase多了之后，zookeeper不多，只需要配zookeeper就行（）
将janusgrap分发到各个服务器上去。

---------------------
作者：UP_2017
来源：CSDN
原文：https://blog.csdn.net/UP_2017/article/details/85988408
版权声明：本文为博主原创文章，转载请附上博文链接！

┽→Mr. 宋ぃ

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
2019最新某象数据分析数据挖掘与分布式爬虫全套合集

一、配置JanusGraph01、02、03的java环境mv /usr/bin/java /usr/bin/java.bak将jdk8上传至hometar -zxvf ./jdk-8u191-linux-x64.tar.gz -C /usr/local/vi /etc/profile(=不需要空格，否则会报错 command not found)JAVA_HOME=/usr/loca...
复制链接

扫一扫