文章目录
1.大数据介绍
1.1什么是大数据?
简单来说大数据就是海量数据及其处理。
大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产(资源)。
在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》 [2] 中大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据进行分析处理。
大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity( 真实性)。
1.2大数据发展现状?
继物联网、云计算之后,大数据已经成为当前信息技术产业最受关注的概念之一。大数据是为了更经济地从高频率获取的、大容量的、不同结构和类型的数据中获取价值,而设计的新一代架构和技术。
全球市场方面,根据IDC数据,2020年全球大数据市场规模为1959亿美元,按照五年内实现10.4%的复合增长率测算,预计2024年全球大数据市场规模约为2983亿美元,到2026年,全球大数据市场规模将超过3600亿美元。
国内市场方面,大数据技术的快速发展,以及大数据与人工智能、VR、5G、区块链、边缘智能等一批新技术的交汇融合,持续加速技术创新。与此同时,伴随新型智慧城市和数字城市建设热潮,各地与大数据和数字经济相关的园区加速落地,大数据产业持续增长。赛迪研究院统计显示,2020年中国大数据产业规模达6388亿元,同比增长18.6%。《2021年大数据产业发展指数白皮书》显示,在大数据产业发展前10强城市中,长三角占5席、京津冀占2席、珠三角占2席、成渝经济圈占1席,东北和西北地区没有城市入围,表明大数据产业在全国各区域间的发展差异明显。
党中央、国务院高度重视大数据在推进经济社会发展中的地位和作用。2014年,大数据首次写入政府工作报告,大数据逐渐成为各级政府关注的热点。2015年9月,国务院发布《促进大数据发展的行动纲要》,大数据正式上升至国家战略层面,十九大报告提出要推动大数据与实体经济的深度融合。2021年11月,工业和信息化部发布《“十四五”大数据产业发展规划》(以下简称《规划》)。《规划》指出“十四五”时期是我国工业经济向数字经济迈进的关键时期,对大数据产业发展提出了新的要求,产业将步入集成创新、快速发展、深度应用、结构优化的新阶段。到2025年,大数据产业测算规模突破3万亿元,年均复合增长率保持在25%左右,创新力强、附加值高、自主可控的现代化大数据产业体系基本形成。
2.大数据的体系结构
3.集群环境准备
3.1准备虚拟机
克隆三个虚拟机hadoop01、hadoop02、hadoop03均为NAT模式,其中hadoop01内存设置为1G(16G内存以上建议设置为2G),hadoop02和hadoop03为512M。
注:虚拟机登录的用户名和密码都是root
3.2修改为静态IP
修改IP地址,将:
第一台hadoop01的虚拟机ip地址改为:192.168.64.101
第二台hadoop02的虚拟机ip地址改为:192.168.64.102
第三台hadoop03的虚拟机ip地址改为:192.168.64.103
3.2.1配置文件
cd /etc/sysconfig/network-scripts #进入网络配置目录
dir ifcfg* #找到网卡配置文件
ifcfg-ens33 #找到版本最新的文件并修改
vim ifcfg-ens33
或者
vim /etc/sysconfig/network-scripts/ifcfg-ens33
3.2.2配置文件内容
注意不要写注释部分
TYPE=Ethernet
BOOTPROTO=static #改成static,针对NAT
NAME=eno16777736
UUID=4cc9c89b-cf9e-4847-b9ea-ac713baf4cc8
DEVICE=eno16777736
DNS1=114.114.114.114 #和网关相同
ONBOOT=yes #开机启动此网卡
IPADDR=192.168.64.101 #固定IP地址
NETMASK=255.255.255.0 #子网掩码
GATEWAY=192.168.64.2 #网关和NAT自动配置的相同,不同则无法登录
3.2.3重启网络
以下两种方式任选其一
service network restart #重启网络
systemctl restart network.service #重启网络centos7
3.2.4查看IP
ip addr #查看IP地址 ip add
3.3mobaxTerm的使用
登录成功后,弹出对话框点yes 保存密码。
3.4关闭防火墙
systemctl stop firewalld.service #关闭防火墙服务
systemctl disable firewalld.service #禁止防火墙开启启动
检查防火墙状态
[root@hadoop01 ~]# firewall-cmd --state #检查防火墙状态
false #返回值,未运行
3.5修改主机名
vi /etc/hostname
3.6修改hosts文件
vi /etc/hosts
在配置文件中增加ip地址映射
192.168.64.101 hadoop01
192.168.64.102 hadoop02
192.168.64.103 hadoop03
3.7三台机器重启
reboot
3.8设置免密登录
3.8.1三台机器生成公钥与私钥
ssh-keygen
执行该命令之后,按下三个回车即可
3.8.2拷贝公钥到同一台机器
三台机器执行命令:
ssh-copy-id hadoop01
3.8.3复制第一台机器的认证到其他机器
将第一台机器的公钥拷贝到其他机器上
在第一台机器上面执行以下命令
scp /root/.ssh/authorized_keys hadoop02:/root/.ssh
scp /root/.ssh/authorized_keys hadoop03:/root/.ssh
3.8.4测试
在hadoop01上进行远程登录测试
ssh hadoop02
不需要输入密码直接进入说明成功,exit退出
3.9三台机器时钟同步
通过网络进行时钟同步
通过网络连接外网进行时钟同步,必须保证虚拟机连上外网
ntpdate us.pool.ntp.org
阿里云时钟同步服务器
ntpdate ntp4.aliyun.com
三台机器定时任务
crontab -e
*/1 * * * * /usr/sbin/ntpdate us.pool.ntp.org;
或者直接与阿里云服务器进行时钟同步
crontab -e
*/1 * * * * /usr/sbin/ntpdate ntp4.aliyun.com;
3.10三台机器安装jdk
查看自带的openjdk
rpm -qa | grep java
如果有,请卸载系统自带的openjdk,方式如下(注:目前系统已经卸载)
rpm -e java-1.6.0-openjdk-1.6.0.41-1.13.13.1.el6_8.x86_64 tzdata-java-2016j-1.el6.noarch java-1.7.0-openjdk-1.7.0.131-2.6.9.0.el6_8.x86_64 --nodeps
三台机器创建目录
所有软件的安装路径
mkdir -p /opt/servers
所有软件压缩包的存放路径
mkdir -p /opt/softwares
上传jdk到/export/softwares路径下去,并解压
tar -xvzf jdk-8u65-linux-x64.tar.gz -C ../servers/
配置环境变量
vim /etc/profile
export JAVA_HOME=/opt/servers/jdk1.8.0_65
export PATH=:$JAVA_HOME/bin:$PATH
修改完成之后记得 source /etc/profile生效
source /etc/profile
发送文件到hadoop02和hadoop03
scp -r /opt/servers/jdk1.8.0_65/ hadoop02:/opt/servers/
scp -r /opt/servers/jdk1.8.0_65/ hadoop03:/opt/servers/
注意:发送完成后要配置环境变量并生效。
scp /etc/profile hadoop02:/etc/
scp /etc/profile hadoop03:/etc/
source /etc/profile
测试
java -version
出现JDK版本号即为成功。
3.11修改windows中的hosts文件
在windows中的hosts文件里添加如下映射
192.168.64.101 hadoop01
192.168.64.102 hadoop02
192.168.64.103 hadoop03