01.大数据概述与Linux集群环境准备

1.大数据介绍

1.1什么是大数据?

简单来说大数据就是海量数据及其处理。

大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产(资源)。

在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》 [2] 中大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据进行分析处理。

大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity( 真实性)。

1.2大数据发展现状?

继物联网、云计算之后,大数据已经成为当前信息技术产业最受关注的概念之一。大数据是为了更经济地从高频率获取的、大容量的、不同结构和类型的数据中获取价值,而设计的新一代架构和技术。

全球市场方面,根据IDC数据,2020年全球大数据市场规模为1959亿美元,按照五年内实现10.4%的复合增长率测算,预计2024年全球大数据市场规模约为2983亿美元,到2026年,全球大数据市场规模将超过3600亿美元。

国内市场方面,大数据技术的快速发展,以及大数据与人工智能、VR、5G、区块链、边缘智能等一批新技术的交汇融合,持续加速技术创新。与此同时,伴随新型智慧城市和数字城市建设热潮,各地与大数据和数字经济相关的园区加速落地,大数据产业持续增长。赛迪研究院统计显示,2020年中国大数据产业规模达6388亿元,同比增长18.6%。《2021年大数据产业发展指数白皮书》显示,在大数据产业发展前10强城市中,长三角占5席、京津冀占2席、珠三角占2席、成渝经济圈占1席,东北和西北地区没有城市入围,表明大数据产业在全国各区域间的发展差异明显。

党中央、国务院高度重视大数据在推进经济社会发展中的地位和作用。2014年,大数据首次写入政府工作报告,大数据逐渐成为各级政府关注的热点。2015年9月,国务院发布《促进大数据发展的行动纲要》,大数据正式上升至国家战略层面,十九大报告提出要推动大数据与实体经济的深度融合。2021年11月,工业和信息化部发布《“十四五”大数据产业发展规划》(以下简称《规划》)。《规划》指出“十四五”时期是我国工业经济向数字经济迈进的关键时期,对大数据产业发展提出了新的要求,产业将步入集成创新、快速发展、深度应用、结构优化的新阶段。到2025年,大数据产业测算规模突破3万亿元,年均复合增长率保持在25%左右,创新力强、附加值高、自主可控的现代化大数据产业体系基本形成。

2.大数据的体系结构

在这里插入图片描述

3.集群环境准备

3.1准备虚拟机

克隆三个虚拟机hadoop01、hadoop02、hadoop03均为NAT模式,其中hadoop01内存设置为1G(16G内存以上建议设置为2G),hadoop02和hadoop03为512M。

注:虚拟机登录的用户名和密码都是root

3.2修改为静态IP

修改IP地址,将:

第一台hadoop01的虚拟机ip地址改为:192.168.64.101

第二台hadoop02的虚拟机ip地址改为:192.168.64.102

第三台hadoop03的虚拟机ip地址改为:192.168.64.103

3.2.1配置文件

cd /etc/sysconfig/network-scripts   #进入网络配置目录
 
dir ifcfg*                         #找到网卡配置文件
 
ifcfg-ens33                         #找到版本最新的文件并修改
 
vim ifcfg-ens33
 
或者
 
vim /etc/sysconfig/network-scripts/ifcfg-ens33

3.2.2配置文件内容

注意不要写注释部分

TYPE=Ethernet
 
BOOTPROTO=static                              #改成static,针对NAT
 
NAME=eno16777736
 
UUID=4cc9c89b-cf9e-4847-b9ea-ac713baf4cc8
 
DEVICE=eno16777736
 
DNS1=114.114.114.114     #和网关相同
 
ONBOOT=yes               #开机启动此网卡
 
IPADDR=192.168.64.101    #固定IP地址
 
NETMASK=255.255.255.0    #子网掩码
 
GATEWAY=192.168.64.2     #网关和NAT自动配置的相同,不同则无法登录

3.2.3重启网络

以下两种方式任选其一

service network restart   #重启网络
 
systemctl restart network.service   #重启网络centos7

3.2.4查看IP

ip addr                  #查看IP地址 ip add

3.3mobaxTerm的使用

在这里插入图片描述
登录成功后,弹出对话框点yes 保存密码。

3.4关闭防火墙

systemctl stop firewalld.service        #关闭防火墙服务
 
systemctl disable firewalld.service     #禁止防火墙开启启动

检查防火墙状态

[root@hadoop01 ~]# firewall-cmd --state		#检查防火墙状态
false							#返回值,未运行

3.5修改主机名

vi /etc/hostname

3.6修改hosts文件

vi /etc/hosts

在配置文件中增加ip地址映射

192.168.64.101 hadoop01
 
192.168.64.102 hadoop02
 
192.168.64.103 hadoop03

3.7三台机器重启

reboot

3.8设置免密登录

3.8.1三台机器生成公钥与私钥

ssh-keygen

执行该命令之后,按下三个回车即可

在这里插入图片描述

3.8.2拷贝公钥到同一台机器

三台机器执行命令:

ssh-copy-id hadoop01

3.8.3复制第一台机器的认证到其他机器

将第一台机器的公钥拷贝到其他机器上

在第一台机器上面执行以下命令

scp /root/.ssh/authorized_keys hadoop02:/root/.ssh
scp /root/.ssh/authorized_keys hadoop03:/root/.ssh

3.8.4测试

在hadoop01上进行远程登录测试

ssh hadoop02

不需要输入密码直接进入说明成功,exit退出

3.9三台机器时钟同步

通过网络进行时钟同步
通过网络连接外网进行时钟同步,必须保证虚拟机连上外网

ntpdate us.pool.ntp.org

阿里云时钟同步服务器

ntpdate ntp4.aliyun.com

三台机器定时任务

crontab  -e   

*/1 * * * * /usr/sbin/ntpdate us.pool.ntp.org;

或者直接与阿里云服务器进行时钟同步

crontab -e

*/1 * * * * /usr/sbin/ntpdate ntp4.aliyun.com;

3.10三台机器安装jdk

查看自带的openjdk

rpm -qa | grep java

如果有,请卸载系统自带的openjdk,方式如下(注:目前系统已经卸载)

rpm -e java-1.6.0-openjdk-1.6.0.41-1.13.13.1.el6_8.x86_64 tzdata-java-2016j-1.el6.noarch java-1.7.0-openjdk-1.7.0.131-2.6.9.0.el6_8.x86_64 --nodeps

三台机器创建目录

所有软件的安装路径

mkdir -p /opt/servers

所有软件压缩包的存放路径

mkdir -p /opt/softwares

上传jdk到/export/softwares路径下去,并解压

 tar -xvzf jdk-8u65-linux-x64.tar.gz -C ../servers/

配置环境变量

vim /etc/profile
export JAVA_HOME=/opt/servers/jdk1.8.0_65
export PATH=:$JAVA_HOME/bin:$PATH

修改完成之后记得 source /etc/profile生效

source /etc/profile

发送文件到hadoop02和hadoop03

scp -r /opt/servers/jdk1.8.0_65/ hadoop02:/opt/servers/
scp -r /opt/servers/jdk1.8.0_65/ hadoop03:/opt/servers/

注意:发送完成后要配置环境变量并生效。

scp /etc/profile hadoop02:/etc/
scp /etc/profile hadoop03:/etc/

source /etc/profile

测试

java -version

出现JDK版本号即为成功。

3.11修改windows中的hosts文件

在windows中的hosts文件里添加如下映射

192.168.64.101 hadoop01
192.168.64.102 hadoop02
192.168.64.103 hadoop03
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值