常用命令:
选项名称 使用格式 含义
-ls -ls <路径> 查看指定路径的当前目录结构
-lsr -lsr <路径> 递归查看指定路径的目录结构
-du -du <路径> 统计目录下个文件大小
-dus -dus <路径> 汇总统计目录下文件(夹)大小
-count -count [-q] <路径> 统计文件(夹)数量
-mv -mv <源路径> <目的路径> 移动
-cp -cp <源路径> <目的路径> 复制
-rm -rm [-skipTrash] <路径> 删除文件/空白文件夹
-rmr -rmr [-skipTrash] <路径> 递归删除
-put -put <多个linux上的文件> <hdfs路径> 上传文件
-copyFromLocal -copyFromLocal <多个linux上的文件> <hdfs路径> 从本地复制
-moveFromLocal -moveFromLocal <多个linux上的文件> <hdfs路径> 从本地移动
-getmerge -getmerge <源路径> <linux路径> 合并到本地
-cat -cat <hdfs路径> 查看文件内容
-text -text <hdfs路径> 查看文件内容
-copyToLocal -copyToLocal [-ignoreCrc] [-crc] [hdfs源路径] [linux目的路径] 从本地复制
-moveToLocal -moveToLocal [-crc] <hdfs源路径> <linux目的路径> 从本地移动
-mkdir -mkdir <hdfs路径> 创建空白文件夹
-setrep -setrep [-R] [-w] <副本数> <路径> 修改副本数量
-touchz -touchz <文件路径> 创建空白文件
-stat -stat [format] <路径> 显示文件统计信息
-tail -tail [-f] <文件> 查看文件尾部信息
-chmod -chmod [-R] <权限模式> [路径] 修改权限
-chown -chown [-R] [属主][:[属组]] 路径 修改属主
-chgrp -chgrp [-R] 属组名称 路径 修改属组
-help -help [命令选项] 帮助
------------------------------------Hadoop数据分析-------------------
修改云主机host文件,添加内网IP,映射名为hadoop000:
vim /etc/hosts
172.18.34.50 hadoop000
hostnamectl set-hostname hadoop000
云主机ssh免密登录(已经免密,直接登录)
ssh hadoop000
格式化HDFS文件系统
haooop namenode -format
启动hadoop集群
start-all.sh
jps
查看进程
开启mysql服务
systemctl start mysqld.server
初始化hive元数据库,进入hive客户端,创建hive数据库
schematool -dbType mysql -initSchema
hive
进入客户端
create database hive;
简单演示:
1创建project数据库,不存在则创建
create database if not exists project;
use project;
2创建theft数据表,分割字符为','
create table if not exists project.theft(
id string,
case_type string
case_subtype string,
casename string,
loss string,
case_course string,
case_toplimit string,
time_lowerlimit string,
address string,
report_time string
)
row format delimited fields terminated by ',';
3使用load data子句加载云主机数据/root/college/theft.csv至theft
load data local inpath '/root/college/theft.csv' into table project.theft
4统计2021年五月份发生的案件总数&#