【Ubuntu+大数据】Linux中大数据开发(Hadoop、MySQL、Idea、jdk、Hive)

一、Ubuntu中大数据开发【系统环境】搭建:

1、虚拟机只有一个Linux系统的开发(不推荐):

如果需要在一个Linux系统中进行开发,推荐独立出一个用户空间来进行开发(避免干扰)。

为什么要创建新用户:
用户之间是相互独立的,就像不同的分身系统一样,创建新用户方便我们独立进行开发工作。

但是这种方法是不推荐的,原因如下:

提示:在虚拟机里其实不建议一个虚拟机设置第二个用户来进行大数据开发,因为如果系统一崩,其他用户也用不了了,所以还是建议自己新开一个系统来独立进行大数据开发

虽然不推荐,但是我们还是需要把过程写出来给大家参考


(1)、命令行创建新用户(可选):
1、新建一个用户:

sudo useradd -m 用户名 -s /bin/bash

2、设置用户密码:

sudo passwd 用户名

3、给用户添加管理员权限(将用户加入到“sudo”组中):

sudo adduser 用户名 sudo

(2)、在系统设置中创建新用户(可选):
首先在设置中找到【用户】Users里,进行解锁,然后点击右上角【添加】add
在这里插入图片描述
管理员方便我们进行开发。
在这里插入图片描述
然后重启虚拟机,选择我们的新创建的用户,进入新用户(就像一个新的系统一样)


上面方法仅供参考,但不推荐,大家根据自己实际情况选择。

2、虚拟机独立一个Linux系统的开发(推荐):

在VM虚拟机中再开一个Ubuntu,然后再在这个系统中开发。

在这个“新”系统中,我们还需要:
(1)更新apt工具

sudo apt-get update

(2)使用apt工具安装Vim编辑器(写代码要用):

sudo apt-get install vim

(3)安装ssh服务端(客户端应该默认已经安装了)

sudo apt-get install openssh-server
//因为已经默认安装了客户端(client),所以我们只需要安装服务端(server)即可

(4)安装完以后,使用ssh命令尝试登录(看看是否已经安装成功):

ssh localhost

如果有验证输入yes即可,下载配置完成以后重新登录即可。
(5)退出登录:

exit

在这里插入图片描述


设置无密码登录ssh服务端:
退出后,
(1)用ssh-keygen命令生成密钥:

cd ~/.ssh/
ssh-keygen -t rsa

然后一直按回车就行。

(2)将密钥加入授权:

cat ./id_rsa.pub >> ./authorized_keys

如果不会操作的可以参考下图我i的做法:
在这里插入图片描述
完成!!!如图,现在登录ssh就不需要输入密码了。


二、【Java环境】jdk下载安装和问题排查:

大数据框架依赖于Java语言,所以还需要再系统中搭建Java开发环境:

超链接,点击我 ==》

三、【大数据框架环境】下载安装Hadoop框架

1、百度安装:

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
然后:
(1)解压安装:

注意,如果你的 目录以及变成中文,则需要(c是大写):
sudo tar -zxf ~/下载/hadoop-3.3.1.tar.gz -C /usr/local

sudo tar -zxf ~/Downloads/hadoop-3.3.1.tar.gz -C /usr/local

(2)修改文件名:

cd /usr/local
sudo mv ./hadoop-3.3.1/  ./hadoop

(3)修改文件权限:

sudo chown -R 用户名 ./hadoop

(4)查看当前版本(同时检查是否安装成功):

./hadoop/bin/hadoop version

(5)新建一个文件夹(input)来方便管理我们的文件:

cd /usr/local/hadoop
mkdir input

(6)将配置文件copy复制到新建文件夹下:

cp ./etc/hadoop/*.xml  ./input

(7)运行Grep实例检查是否真的安装成功:

./bin/hadoop jar /usr/local/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.1.jar grep ./input ./output 'dfs[a-z.]+'

(8)查看结果:

cat ./output/*

2、Hadoop的伪(一个Linux系统)分布式文件系统安装:

(1)、进入Hadoop安装目录(usr/local/hadoop)
(2)、一般配置文件都放在etc目录下,所以我们找一下:
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
(3)、最后配置成这样(复制即可,但是要注意版本名、路径要对应):

<configuration>
	<property>
		<name>hadoop.tmp.dir</name>
		<value>file:/usr/local/hadoop/tmp</value>
		<description>Abase for other temporary directories</description>
	</property>
		
	<property>
		<name>fs.defaultFS</name>
		<value>hdfs://localhost:9000</value>
	</property>
</configuration>

这是第二个配置文件:

<configuration>
	<property>
		<name>dfs.replication</name>
		<value>1</value>
	</property>
		
	<property>
		<name>dfs.namenode.name.dir</name>
		<value>file:/usr/local/hadoop/tmp/dfs/name</value>
	</property>
	<property>
		<name>dfs.datanode.data.dir</name>
		<value>file:/usr/local/hadoop/tmp/dfs/data</value>
	</property>
</configuration>

(4)、保存好上面两个配置文件的修改。

然后,
(5)、初始化——分布式文件系统(HDFS):

cd /usr/local/hadoop
./bin/hdfs namenode -format

然后
(6)、启动——分布式文件系统(HDFS):
如果目录不在这,先cd到这
cd /usr/local/hadoop

./sbin/start-dfs.sh

(7)、启动以后,输入jps即可查看当前正在运行的Java进程:
在这里插入图片描述
【可选】另外大家可以输入下面格式命令,来查看可以在分布式文件系统里使用的相关命令:
在这里插入图片描述


然后:hdfs端(分布式文件系统)的配置:

1、在hdfs端,使用它的命令,创建文件夹目录

./bin/hdfs dfs -mkdir -p /user/hadoop/input

2、用put命令上传本地的配置文件到hdfs端(分布式文件系统)新建的文件夹

./bin/hdfs dfs -put ./etc/hadoop/*.xml /user/hadoop/input

3、运行Grep实例测试一下:

./bin/hadoop jar /usr/local/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.1.jar grep /user/hadoop/input /user/hadoop/output 'dfs[a-z.]+'

4、查看结果:

./bin/hdfs dfs -cat /user/hadoop/output/*

在这里插入图片描述

注意:需要重新运行程序的时候,需要把之前在hdfs端创建的input文件夹删除:
在分布式文件系统端删除文件夹的命令如下:

./bin/hdfs dfs -rm -r /user/hadoop/input

停止hdfs端运行(如果需要):

/usr/local/hadoop/sbin/stop-dfs.sh

四、在linux下安装Idea(Java IDE)

因为需要编写Java语言,所以这个Java的集成开发环境(IDE)是必不可少的:

首先你也可以在应用商店里安装,有手就行,我就不啰嗦了。

下面只介绍官网安装方法:

(1)、首先当然是百度idea,然后进入官网,下载社区版(这就不用我多说了吧)
在这里插入图片描述
(2)、点击download之后:
在这里插入图片描述

(3)、下载完成后是一个tar.gz压缩包,一听到压缩包,首先我们应该解压(因为我们需要使用它):
这里我们直接解压到local目录下。

sudo tar -zxf ~/Downloads/ideaIC-2021.2.3.tar.gz -C /usr/local

如果你的目录是中文的话,需要改成:

sudo tar -zxf ~/下载/ideaIC-2021.2.3.tar.gz -C /usr/local

在这里插入图片描述

(4)、解压之后,我们就进入它的目录,就会发现它自带一个安装方法:
在这里插入图片描述
(5)、打开看看,看见它说要运行 ./idea.sh
那简单,直接输入命令的路径就能运行命令:

/usr/local/idea-IC-212.5457.46/bin/idea.sh

这样就会看到它弹出来安装界面了。
一般下一步就行。

五、【Hive环境】安装:

1、百度进入官网:http://www.apache.org/dyn/closer.cgi/hive/
2、进入下载页面:
在这里插入图片描述
3、选择一个版本:
在这里插入图片描述
4、下载它的bin二进制版本:
在这里插入图片描述

5、解压.tar.gz压缩包,解压到/usr/local,然后改一下文件名,和前面一样:

复制:
(1)解压安装:

注意,如果你的 目录已经变成中文,则需要(c是大写):
sudo tar -zxf ~/下载/apache-hive-1.2.2-bin.tar.gz -C /usr/local

sudo tar -zxf ~/Downloads/apache-hive-1.2.2-bin.tar.gz -C /usr/local

(2)修改文件名(原名太长了):

cd /usr/local
sudo mv ./apache-hive-1.2.2-bin/  ./hive

(3)修改文件权限(给权限):

sudo chown -R 用户名 ./hive

(4) 为了更方便使用命令,设置环境变量:
打开配置文件:

vim ~/.bashrc

输入环境变量,并保存退出:
(如果不知道,请参考:链接 》》》

#定义它的路径
export HIVE_HOME=/usr/local/hive
#将他的bin路径给环境变量
export PATH=${PATH}:${HIVE_HOME}/bin
#hadoop也要给个路径:
export HADOOP_HOME=/usr/local/hadoop

然后是配置立即生效:

source ~/.bashrc

然后输入:hive 命令就能看到效果。

(5)修改配置文件:/usr/local/hive/conf下的hive-site.xml
执行如下命令:

cd /usr/local/hive/conf

更改文件名字:把最后的.template删掉。

mv hive-default.xml.template hive-default.xml

当然,你也可以不使用命令:
在这里插入图片描述

新建一个配置文件hive-site.xml文件:使用vim编辑器:

cd /usr/local/hive/conf
vim hive-site.xml

hive-site.xml中添加如下配置信息:

<?xml version="1.0" encoding="UTF-8" standalone="no"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
  <property>
    <name>javax.jdo.option.ConnectionURL</name>
    <value>jdbc:mysql://localhost:3306/hive?createDatabaseIfNotExist=true</value>
    <description>JDBC connect string for a JDBC metastore</description>
  </property>
  <property>
    <name>javax.jdo.option.ConnectionDriverName</name>
    <value>com.mysql.jdbc.Driver</value>
    <description>Driver class name for a JDBC metastore</description>
  </property>
  <property>
    <name>javax.jdo.option.ConnectionUserName</name>
    <value>hive</value>
    <description>username to use against metastore database</description>
  </property>
  <property>
    <name>javax.jdo.option.ConnectionPassword</name>
    <value>hive</value>
    <description>password to use against metastore database</description>
  </property>
</configuration>

然后,冒号,wq保存 退出。

六、【MySql】

1、安装:

sudo apt-get install mysql-server

2、启动mysql

service mysql start

3、使用root命令(如果没有,请输入sudo passwd root设置密码)

su

如图
4、登陆mysql的shell界面

mysql -u root -p 

在这里插入图片描述

5、新建hive数据库。
mysql>下:

create database hive; 

#这个hive数据库与hive-site.xml中localhost:3306/hive的hive对应,用来保存hive元数据

6.、配置mysql允许hive接入:
mysql>下:

grant all on *.* to hive@localhost identified by 'hive'; 

#将所有数据库的所有表的所有权限赋给hive用户,后面的hive是配置hive-site.xml中配置的连接密码
7、刷新mysql系统权限关系表
mysql>下:

flush privileges; 

8、启动hive

(1)先启动hadoop集群:

start-all.sh

(2)再启动hive

hive 
  • 4
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 搭建大数据环境需要以下步骤: 1. 安装HadoopHadoop是一个分布式计算框架,用于处理大规模数据集。安装Hadoop需要下载Hadoop软件包,并进行配置。 2. 安装HiveHive是一个数据仓库工具,用于在Hadoop上进行数据分析和查询。安装Hive需要下载Hive软件包,并进行配置。 3. 安装Spark:Spark是一个快速的大数据处理框架,用于在Hadoop上进行数据处理和分析。安装Spark需要下载Spark软件包,并进行配置。 4. 安装Zookeeper:Zookeeper是一个分布式协调服务,用于管理Hadoop集群的节点。安装Zookeeper需要下载Zookeeper软件包,并进行配置。 5. 安装HBase:HBase是一个分布式的NoSQL数据库,用于存储和管理大规模数据。安装HBase需要下载HBase软件包,并进行配置。 以上是搭建大数据环境的基本步骤,需要根据实际情况进行具体的配置和调整。 ### 回答2: 随着互联网技术的不断发展,越来越多的数据被产生和需要处理,因此,搭建大数据环境成为了一项非常重要的工作。目前,HadoopHive、Spark、Zookeeper、Hbase等大数据技术成为了最为重要的技术。下面,我们来详细介绍这些技术的大数据环境搭建。 1. Hadoop的安装 Hadoop是一个开源的分布式文件系统和数据处理框架,可以处理大规模数据的存储和处理。Hadoop的安装主要包括以下几个步骤: 1)安装JDK环境; 2)下载Hadoop的二进制包; 3)解压Hadoop的二进制包,并配置环境变量; 4)修改Hadoop的相关配置文件; 5)启动Hadoop。 2. Hive的安装 Hive是一个基于Hadoop的数据仓库工具,提供了类似于SQL的查询语言,可以用于大规模数据仓库的创建和查询。Hive的安装主要包括以下几个步骤: 1)安装JDK环境; 2)下载Hive的二进制包; 3)解压Hive的二进制包,并配置环境变量; 4)修改Hive的相关配置文件; 5)启动Hive。 3. Spark的安装 Spark是一个快速而通用的大数据处理引擎,可以执行大规模数据处理任务,并支持分布式计算。Spark的安装主要包括以下几个步骤: 1)安装JDK环境; 2)下载Spark的二进制包; 3)解压Spark的二进制包,并配置环境变量; 4)修改Spark的相关配置文件; 5)启动Spark。 4. Zookeeper的安装 Zookeeper是一个高性能分布式应用程序协调服务,可以用于协调和同步大规模集群的应用程序。Zookeeper的安装主要包括以下几个步骤: 1)安装JDK环境; 2)下载Zookeeper的二进制包; 3)解压Zookeeper的二进制包,并配置环境变量; 4)修改Zookeeper的相关配置文件; 5)启动Zookeeper。 5. Hbase的安装 Hbase是一个基于Hadoop的分布式非关系型数据库,提供了类似于Google的Bigtable的基于列的存储方式。Hbase的安装主要包括以下几个步骤: 1)安装JDK环境; 2)下载Hbase的二进制包; 3)解压Hbase的二进制包,并配置环境变量; 4)修改Hbase的相关配置文件; 5)启动Hbase。 在完成上述大数据技术的安装后,我们还需在使用时将它们进行整合,以达到更加高效的数据处理和管理。这些技术之间的整合一般都需要配置相关的XML文件和环境变量,具体操作可根据实际情况去修改和设置。小编建议,初学者应该多参考一些大佬的经验,互联网上有很多大牛分享了上述技术的搭建方法,读者可以多花些时间去学习和了解。 ### 回答3: 随着现代信息技术的不断发展,大数据的应用越来越广泛。作为目前大数据环境的主流组件,HadoopHive、Spark、Zookeeper和HBase都是大数据领域的重要工具。为了能够更好地进行大数据分析和处理,需要对这些工具进行合理的搭建和配置。 1. Hadoop的搭建 Hadoop是一个分布式存储和计算的框架,搭建Hadoop需要安装JAVA环境,并下载相应的Hadoop压缩包。将Hadoop解压到本地目录,在安装文件设置JAVA_HOME和HADOOP_HOME环境变量。启动Hadoop需要先启动NameNode和DataNode,然后启动JobTracker和TaskTracker。搭建好Hadoop后,还需要使用HDFS命令行或Hadoop API进行文件的上传、下载、删除等基本操作。 2. Hive的搭建 Hive是一个基于Hadoop的数据仓库工具,可以将结构化数据映射到Hadoop的存储系统Hive搭建需要先安装JAVA环境和Hadoop,然后下载并解压Hive压缩包。将HiveHadoop的配置文件进行关联,启动Hive服务时需要启动Metastore和HiveServer2服务。搭建完成后,可以使用HiveQL语句进行数据的查询、插入、删除等操作。 3. Spark的搭建 Spark是一个快速通用的大数据计算引擎,可用于数据分析、机器学习等场景。Spark搭建需要安装JAVA和Scala等相关组件,并下载Spark压缩包。将Spark解压到本地目录后,设置SPARK_HOME环境变量以及Hadoop和YARN的配置相关参数。启动Spark服务时需要先启动Master和Slave节点。搭建完成后,可以使用Spark Shell和Spark SQL进行数据处理和分析。 4. Zookeeper的搭建 Zookeeper是一个分布式的协调服务,可以用于管理各类分布式应用程序的配置和信息。将Zookeeper下载并解压到本地目录,设置ZOOKEEPER_HOME环境变量,并修改Zoo.cfg配置文件的端口号、数据目录等相关参数。启动Zookeeper服务时需要先启动一个Leader和多个Follower。搭建完成后,可以使用ZooKeeper API对Zookeeper的节点进行管理和配置。 5. HBase的搭建 HBase是一个列存储数据库,可以在Hadoop上提供实时读写服务。HBase搭建需要安装JAVA环境、Hadoop和Zookeeper,并下载HBase压缩包。将HBase解压到本地目录,并进行相关配置,比如修改HBase-site.xml配置文件的参数、设置HBASE_HOME环境变量等。启动HBase服务前需要先启动Zookeeper服务。搭建完成后,可以使用Java API或HBase Shell进行数据的读写操作。 综上所述,搭建大数据环境需要先安装基础的JAVA环境和相关组件,然后根据各个工具的安装包进行相应的配置和启动,最后进行测试和调试。在搭建过程需要注意版本、路径等问题,避免出现配置错误。经过搭建和调试后,可以使用这些工具进行海量数据的分析和处理,为企业的决策提供有力的支持。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值