hadoop数据分析

本文详细介绍了如何搭建Hadoop伪分布式集群,包括HDFS和YARN的配置及测试,还提供了HDFS常用命令操作。在完成集群搭建后,通过实际的数据分析任务展示了Hadoop的数据处理能力,包括数据导入、SQL查询和结果导出。同时,文章提到了SSH免密登录、MySQL服务启动以及Hive元数据库初始化等操作。
摘要由CSDN通过智能技术生成

常用命令:

选项名称 使用格式     含义

-ls -ls <路径> 查看指定路径的当前目录结构

-lsr -lsr <路径> 递归查看指定路径的目录结构

-du -du <路径> 统计目录下个文件大小

-dus -dus <路径> 汇总统计目录下文件(夹)大小

-count -count [-q] <路径> 统计文件(夹)数量

-mv -mv <源路径> <目的路径> 移动

-cp -cp <源路径> <目的路径> 复制

-rm -rm [-skipTrash] <路径> 删除文件/空白文件夹

-rmr -rmr [-skipTrash] <路径> 递归删除

-put -put <多个linux上的文件> <hdfs路径> 上传文件

-copyFromLocal -copyFromLocal <多个linux上的文件> <hdfs路径> 从本地复制

-moveFromLocal -moveFromLocal <多个linux上的文件> <hdfs路径> 从本地移动

-getmerge -getmerge <源路径> <linux路径> 合并到本地

-cat -cat <hdfs路径> 查看文件内容

-text -text <hdfs路径> 查看文件内容

-copyToLocal -copyToLocal [-ignoreCrc] [-crc] [hdfs源路径] [linux目的路径] 从本地复制

-moveToLocal -moveToLocal [-crc] <hdfs源路径> <linux目的路径> 从本地移动

-mkdir -mkdir <hdfs路径> 创建空白文件夹

-setrep -setrep [-R] [-w] <副本数> <路径> 修改副本数量

-touchz -touchz <文件路径> 创建空白文件

-stat -stat [format] <路径> 显示文件统计信息

-tail -tail [-f] <文件> 查看文件尾部信息

-chmod -chmod [-R] <权限模式> [路径] 修改权限

-chown -chown [-R] [属主][:[属组]] 路径 修改属主

-chgrp -chgrp [-R] 属组名称 路径 修改属组

-help -help [命令选项] 帮助

------------------------------------Hadoop数据分析-------------------

修改云主机host文件,添加内网IP,映射名为hadoop000:

 

vim /etc/hosts

 

172.18.34.50 hadoop000

 

hostnamectl set-hostname hadoop000

 

云主机ssh免密登录(已经免密,直接登录)

ssh hadoop000

 

格式化HDFS文件系统

haooop namenode -format

 

启动hadoop集群

start-all.sh

 

jps

查看进程

 

开启mysql服务

systemctl start mysqld.server

 

初始化hive元数据库,进入hive客户端,创建hive数据库

schematool -dbType mysql -initSchema

 

hive

进入客户端

 

create database hive;

 

简单演示:

1创建project数据库,不存在则创建

create database if not exists project;

 

use project;

 

2创建theft数据表,分割字符为','

create table if not exists project.theft(

id string,

case_type string

case_subtype string,

casename string,

loss string,

case_course string,

case_toplimit string,

time_lowerlimit string,

address string,

report_time string

row format delimited fields terminated by ',';

 

3使用load data子句加载云主机数据/root/college/theft.csv至theft

load data local inpath '/root/college/theft.csv' into table project.theft

 

4统计2021年五月份发生的案件总数&#

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值