不会敲代码的小力-CSDN博客

原创 HDFS的API和读写流程学习笔记20210915

HDFS的API学习笔记20210915参数优先级上传API文件移动判断文件写流程节点距离计算节点选择读流程namenode工作原理Fsimage 和EditsDATANODE 工作机制数据完整性奇偶校验CRC校验掉线时限参数设置参数优先级上传API和最后一个参数一样文件移动判断文件写流程节点距离计算节点选择读流程串行读namenode工作原理Fsimage 和Editsoiv查看Fsimage文件（1）查看oiv和oev命令[atguigu@hado

2021-09-15 17:40:16 457

原创 HDFS的API学习笔记20210914

HDFS的API学习笔记20210914环境准备配置HADOOP_HOME环境变量配置Path环境变量。IDEA在IDEA中创建一个Maven工程HdfsClientDemo，并导入相应的依赖坐标+日志添加在项目的src/main/resources目录下，新建一个文件，命名为“log4j.properties”，在文件中填入示例：环境准备配置HADOOP_HOME环境变量配置Path环境变量。IDEA在IDEA中创建一个Maven工程HdfsClientDemo，并导入相应的依赖坐标+日志添加

2021-09-15 09:40:16 145

原创 HDFS学习笔记20210913

HDFS学习笔记20210913HDFSHDFS（Hadoop Distributed File System）HDFS的使用场景：HDFS优缺点HDFS组成架构HDFS文件块大小命令大全HDFSHDFS（Hadoop Distributed File System）是一个文件系统HDFS的使用场景：适合一次写入，多次读出的场景HDFS优缺点HDFS组成架构HDFS文件块大小机械128固态可以256 比较优的解命令大全-setrep：设置HDFS中文件的副本数

2021-09-13 17:23:23 131

原创 Hadoop学习笔记20210913

Hadoop的学习日记20210913Hadoop的配置方面的日记core-site.xmlhdfs-site.xmlyarn-site.xmlmapred-site.xml配置服务器名第一次启动集群需要格式化HDFS在linux上面存储的位置>>追加符号乱删数据解决办法历史服务器端单节点启动停止配置日志的聚集集群常用脚本Java进程脚本：jpsall常用端口号常用配置文件：Hadoop的配置方面的日记core-site.xml<?xml version="1.0" encodi

2021-09-13 16:33:05 566 1

原创 yum局域网制作

yum局域网制作1 三台服务器克隆修改名字修改网洛CentOS 6和CentOS 7防火墙的关闭关闭selinux （需要在所有的主机中进行设置）本地资源库的配置局域网1 三台服务器克隆修改名字vi /etc/hostname 修改网洛/etc/sysconfig/network-scripts/ifcfg-ens33CentOS 6和CentOS 7防火墙的关闭参考链接：https://www.linuxidc.com/Linux/2016-12/138979.htm关闭selin

2021-08-19 16:56:36 66

原创 Linux 磁盘挂载

Linux 磁盘挂载为什么要磁盘挂载？分区的意义（好处）/etc/fstab 各个字段含义挂载光盘有什么用呢？linux安装时为什么要分/、swap、/boot区磁盘挂载链接：https://blog.csdn.net/weixin_45492179/article/details/102613643为什么要磁盘挂载？参考链接：https://www.zhihu.com/question/36946229/answer/484350289分区的意义（好处）数据的安全性提供系统的IO性能

2021-08-18 15:25:19 69

原创安装虚拟机与静态网络配置

安装虚拟机与静态网络配置安装虚拟机先查看电脑是否开启虚拟化安装新的虚拟机补充CentOS 7安装教程centos7开机界面出现多个选项配置网络1 虚拟网络编辑器将主机虚拟机连接到此网络开启不了配置静态网络查看你的虚拟机网络补充解释网络：子网掩码IP默认网关修改linux的网络配置文件安装虚拟机先查看电脑是否开启虚拟化参考链接：https://blog.csdn.net/weixin_45492179/article/details/103017986安装新的虚拟机参考链接：https://bl

2021-08-13 17:46:04 162

原创 VMware教程与CentOS Linux下载教程

VMware下载教程VMware下载教程VM官网：VMware16版本VMware安装教程直接下一步！CentOS Linux下载各个版本的ISO镜像文件说明：VMware下载教程VM官网：https://www.vmware.com/cn.htmlVMware16版本Vmware16链接：https://my.vmware.com/cn/web/vmware/downloads/#all_products注：没有账号注册一个即可VMware安装教程直接下一步！CentOS Linu

2021-08-12 17:59:27 93

原创 hive的数据类型

hive的数据类型1.Hive的内置数据类型可以分为两大类：(1)、基础数据类型；(2)、复杂数据类型2.hive基本数据类型3.hive集合类型3.1 集合类型之array(1) 先创建一张表(2)准备数据文件 array.txt(3)加载数据文件到t_array表中(4)查询数据3.2 集合类型之map(1) 先创建一张表(5)准备数据文件 map.txt(6)加载数据文件到t_map表中(1) 先创建一张表(8)准备数据文件 struct.txt(9)加载数据文件到t_struct表中(10)查询数据

2020-12-05 17:27:23 472

原创 JAVA 代码规范(一)

注:转自微信公众号:程序员最可爱一、MyBatis 不要为了多个查询条件而写 1 = 1二、迭代entrySet() 获取Map 的key 和value三、使用Collection.isEmpty() 检测空四、初始化集合时尽量指定其大小五、使用StringBuilder 拼接字符串六、若需频繁调用Collection.contains 方法则使用Set七、使用静态代码块实现赋值静态成员变量八、删除未使用的局部变量、方法参数、私有方法、字段和多余的括号。九、工具类中屏蔽构造函数十、删除多余的异常捕获并跑出十

2020-09-17 15:53:08 179

原创启动hiveserver2服务

启动hiveserver2服务启动hiveserver2服务后台启动beeline连接hiveserver2启动hiveserver2服务后台启动cd /export/servers/hive-1.1.0-cdh5.14.0nohup bin/hive --service hiveserver2 &beeline连接hiveserver2bin/beelinebeeline> !connect jdbc:hive2://Hadoop003:10000...

2020-09-12 09:55:37 784

原创案例一 Flume接受telent数据

Flume接受telent数据第一步：开发配置文件第二步：启动配置文件案例：使用网络telent命令向一台机器发送一些网络数据，然后通过flume采集网络端口数据第一步：开发配置文件根据数据采集的需求配置采集方案，描述在配置文件中(文件名可任意自定义)配置我们的网络收集的配置文件在flume的conf目录下新建一个配置文件（采集方案） vi /export/servers/apache-flume-1.8.0-bin/conf/netcat-logger.conf# 定义这个agent中

2020-09-12 09:42:06 296

原创 Flume安装部署

Flume安装部署上传安装文件并解压上传安装文件并解压tar -zxvf apache-flume-1.8.0-bin.tar.gz -C /export/servers/ cd /export/servers/apache-flume-1.8.0-bin//confcp flume-env.sh.template flume-env.shvim flume-env.shexport JAVA_HOME=${JAVA_HOME}...

2020-09-11 21:56:24 272

原创 Flume内部模块

Flume内部模块Flume内部模块1.1.2 运行机制1.1.3 Flume采集系统结构图Flume内部模块1、Source :与数据源对接，用于数据的收集，采集。2、Channel: 数据的传输（一个flumeAgent内部）3、Sink : 负责数据的输出或下沉（一个flumeAgent内部）1.1.2 运行机制1、Flume分布式系统中最核心的角色是agent，flume采集系统就是由一个个agent所连接起来形成2、每一个agent相当于一个数据传递员，内部有三个组件：

2020-09-11 21:27:51 203

原创 Flume的基本介绍

Flume的基本介绍前言1.1 Flume介绍1.1.1 概述前言在一个完整的离线大数据处理系统中，除了hdfs+mapreduce+hive组成分析系统的核心之外，还需要数据采集、结果数据导出、任务调度等不可或缺的辅助系统，而这些辅助工具在hadoop生态体系中都有便捷的开源框架，如图所示：1.1 Flume介绍1.1.1 概述Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。Flume可以采集文件，socket数据包、文件、文件夹、kafka等各种形式源数据，又可以

2020-09-11 21:11:41 111

原创 Kettle中创建Hadoop clusters中root directory access

root directory access不对的解决方案之一**正常应该是这样**把hadoop核心配置文件放入kettle目录修改正常应该是这样把hadoop核心配置文件放入kettle目录路径:data-integration\plugins\pentaho-big-data-plugin\hadoop-configurations\cdh514修改data-integration\plugins\pentaho-big-data-plugin\plugin.properties文件

2020-09-10 20:19:07 2116

原创 zookeeper的安装

zookeeper的安装下载安装包、解压解压：修改环境变量（注意：3台zookeeper都需要修改）修改zookeeper配置文件修改内容：下载安装包、解压下载地址：CDH版本：http://archive.cloudera.com/cdh5/cdh/5/zookeeper-3.4.5-cdh5.14.0.tar.gzapache版本：https://archive.apache.org/dist/zookeeper/解压：cd /export/softwaretar -zxvf zookee

2020-09-10 18:10:43 103

原创 Hive的优化方案

Hive的优化1、 Fetch抓取2、本地模式3、数据倾斜4、Count(distinct)5、分区剪裁、列剪裁6、动态分区调整7、数据倾斜8、影响Map的数量9、影响reduce的数量10、并行执行11、严格模式12、jvm重用13、推测执行1、 Fetch抓取设置属性 set hive.fetch.task.conversion=none;所有的查询语句都要转化成MR程序。**set hive.fetch.task.conversion=more; **简单的查询不会转化成MR程序（sele

2020-08-14 21:05:36 2760

原创 Hive表数据加载和导出

Hive表数据加载和导出Hive表数据加载Hive数据的导出清空hive数据表Hive查询语句Hive修改配置文件优先级Hive支持的数据存储格式Hive表数据加载五种情况1、直接向分区表中插入数据insert into table score3 partition(month =‘201807’) values (‘001’,‘002’,‘100’);2、通过查询插入数据（linux ） load data local inpath ‘/export/servers/hivedatas/sc

2020-08-14 20:21:11 2582

原创 Hive基本介绍(4)

Hive基本介绍3Hive的自定义函数UDFHive通过reflect调用java方法Hive的自定义函数函数查看show functions；show function 函数名；desc function extended upper;UDF UDAF UDTF一进一出多进一出一进多出UDF1.创建一个class 继承UDF2. 编写evaluate函数，在这里编写业务需求需要的代码3. 打成jar包，并上传4. 将jar包添加到hive 在hi

2020-08-14 20:09:35 2511

原创 Hive基本介绍(3)

Hive基本介绍3Hive的数据类型基本数据类型复杂数据类型加载数据外部表内部表分区表特别强调：作用：分桶表特别强调：分桶逻辑：分桶的作用和好处Hive的数据类型基本数据类型INT BIGINT FLOAT DOUBLE DEICIMAL STRING VARCHAR CHAR BINARY TIMESTAMP DATE INTERVAL ARRAY复杂数据类型MAP STRUCT UNIONcreate table stu3 as select * from stu2; 复制数据复试表结构c

2020-08-12 15:37:21 2401

原创 Hive基本介绍(2)

Hive基本介绍2数据格式：数据格式部分自定义：hive支持的数据格式Hive元数据Hive的访问方式Hive传选项数据库的基本操作数据表的基本操作（增删改查）创建基本数据表（内部表）：创建外部数据表：内部表与外部表的区别：删除表修改表查询表数据格式：Hive中没有定义专门的数据格式数据格式部分自定义：列分隔符（通常为空格、”\t”、”\x001″）行分隔符（”\n”）读取文件数据的方法（Hive 中默认有三个文件格式 TextFile，SequenceFile 以及 RCFile）。Hiv

2020-08-12 15:07:39 2462

原创 Hive基本介绍(1)

Hive基本介绍1Hive基本概念Hive的意义是什么Hive可以对数据进行存储与计算Hive缺点Hive的内部组成架构Hive基本概念是一个基于hadoop的数据仓库工具，可以将结构化数据映射成一张数据表，并提供类SQL的查询功能。Hive的意义是什么背景：hadoop是个好东西，但是学习难度大，成本高，坡度陡。意义（目的）：降低程序员使用hadoop的难度。降低学习成本。Hive可以对数据进行存储与计算存储使用HDFS存储计算使用MapReduce进行计算Hive的特性1、扩展

2020-08-12 14:47:01 2630

原创 Hadoop基本介绍(4)

MapMap的输出到内存Reduce数据读取Map到reduce内存角度宏观流程Map到reduce处理流程角度宏观步骤Shuffle阶段如何能够让Map执行效率最高如何能够让Reduce执行效率最高Map的输出到内存Map的输出先写入环形缓冲区（默认大小100M-可以认为调整）（可以再输出的同时写入数据），当缓冲区内的数据达到阈值（默认0.8-可以人为调整）时，对数据进行flash。flash 出去的数据的数量达到一定量（默认4个）时，进行数据的合并Reduce数据读取Reduce 主动

2020-08-10 19:49:50 3217

原创 Hadoop基本介绍(3)

MapReduce计算框架MapReduce计算框架并行计算框架Hadoop为什么比传统技术方案快MapReduce核心思想偏移量hadoop数据类型MapReduce计算任务的步骤Shuffle阶段的Partition分区算法Split的逻辑切分MapReduce计算框架是指实现某项任务或某项工作从开始到结束的计算过程或流的结构并行计算框架一个大的任务拆分成多个小任务，将多个小任务分发到多个节点上。每个节点同时执行计算Hadoop为什么比传统技术方案快1、分布式存储2、分布式并行计算

2020-08-10 17:09:34 2913

原创 Hadoop基本介绍(2)

Hadoop基本介绍2HDFS 特性HDFS缺点：HDFS高级命令HDFS安全模式Fsimage EditsFsimage Edits作用：查看Fsimage EditsSecondaryNamenode工作原理前提：目标：意义：什么时候进行文件拷贝合并HDFS 特性1、海量数据存储： HDFS可横向扩展，其存储的文件可以支持PB级别数据。2、高容错性：节点丢失，系统依然可用，数据保存多个副本，副本丢失后自动恢复。可构建在廉价（与小型机大型机比）的机器上，实现线性扩展(随着节点数量的增加，集群的存

2020-08-07 23:09:49 3801

原创 Hadoop基本介绍(1)

Hadoop基本介绍hadoop 的组成部分HDFS辅助管理者：SecondaryNameNode工作者：DataNodeMapReduceYarnHDFS 副本存放机制第一份第二份第三个Namenode作用DataNode作用RPC remote procedure callHDFS数据写入流程（重点）HDFS数据读取流程（重点）HDFS数据完整性HDFS适用场景hadoop 的组成部分HDFS管理者：NameNode作用：负责管理，管理集群内各个节点。负责管理整个文件系统的元数据（指的是数据的

2020-08-07 18:20:13 4734

空空如也

空空如也