- 博客(57)
- 收藏
- 关注
原创 HDFS的API和读写流程学习笔记20210915
HDFS的API学习笔记20210915参数优先级上传API文件移动判断文件写流程节点距离计算节点选择读流程namenode工作原理Fsimage 和EditsDATANODE 工作机制数据完整性奇偶校验CRC校验掉线时限参数设置参数优先级上传API和最后一个参数一样文件移动判断文件写流程节点距离计算节点选择读流程串行读namenode工作原理Fsimage 和Editsoiv查看Fsimage文件(1)查看oiv和oev命令[atguigu@hado
2021-09-15 17:40:16 457
原创 HDFS的API学习笔记20210914
HDFS的API学习笔记20210914环境准备配置HADOOP_HOME环境变量配置Path环境变量。IDEA在IDEA中创建一个Maven工程HdfsClientDemo,并导入相应的依赖坐标+日志添加在项目的src/main/resources目录下,新建一个文件,命名为“log4j.properties”,在文件中填入示例:环境准备配置HADOOP_HOME环境变量配置Path环境变量。IDEA在IDEA中创建一个Maven工程HdfsClientDemo,并导入相应的依赖坐标+日志添加
2021-09-15 09:40:16 145
原创 HDFS学习笔记20210913
HDFS学习笔记20210913HDFSHDFS(Hadoop Distributed File System)HDFS的使用场景:HDFS优缺点HDFS组成架构HDFS文件块大小命令大全HDFSHDFS(Hadoop Distributed File System)是一个文件系统HDFS的使用场景:适合一次写入,多次读出的场景HDFS优缺点HDFS组成架构HDFS文件块大小机械128固态可以256 比较优的解命令大全-setrep:设置HDFS中文件的副本数
2021-09-13 17:23:23 131
原创 Hadoop学习笔记20210913
Hadoop的学习日记20210913Hadoop的配置方面的日记core-site.xmlhdfs-site.xmlyarn-site.xmlmapred-site.xml配置 服务器名第一次启动集群需要格式化HDFS在linux上面存储的位置>>追加符号乱删数据解决办法历史服务器端单节点启动 停止配置日志的聚集集群常用脚本Java进程脚本:jpsall常用端口号常用配置文件:Hadoop的配置方面的日记core-site.xml<?xml version="1.0" encodi
2021-09-13 16:33:05 566 1
原创 yum局域网制作
yum局域网制作1 三台服务器克隆修改名字修改网洛CentOS 6和CentOS 7防火墙的关闭关闭selinux (需要在所有的主机中进行设置)本地资源库的配置局域网1 三台服务器克隆修改名字vi /etc/hostname 修改网洛/etc/sysconfig/network-scripts/ifcfg-ens33CentOS 6和CentOS 7防火墙的关闭参考链接:https://www.linuxidc.com/Linux/2016-12/138979.htm关闭selin
2021-08-19 16:56:36 66
原创 Linux 磁盘挂载
Linux 磁盘挂载为什么要磁盘挂载?分区的意义(好处)/etc/fstab 各个字段含义挂载光盘有什么用呢?linux安装时为什么要分/、swap、/boot区磁盘挂载链接:https://blog.csdn.net/weixin_45492179/article/details/102613643为什么要磁盘挂载?参考链接:https://www.zhihu.com/question/36946229/answer/484350289分区的意义(好处)数据的安全性提供系统的IO性能
2021-08-18 15:25:19 69
原创 安装虚拟机与静态网络配置
安装虚拟机与静态网络配置安装虚拟机先查看电脑是否开启虚拟化安装新的虚拟机补充CentOS 7安装教程centos7开机界面出现多个选项配置网络1 虚拟网络编辑器将主机虚拟机连接到此网络开启不了配置静态网络查看你的虚拟机网络补充解释网络:子网掩码IP默认网关修改linux的网络配置文件安装虚拟机先查看电脑是否开启虚拟化参考链接:https://blog.csdn.net/weixin_45492179/article/details/103017986安装新的虚拟机参考链接:https://bl
2021-08-13 17:46:04 162
原创 VMware教程与CentOS Linux下载教程
VMware下载教程VMware下载教程VM官网:VMware16版本VMware安装教程直接下一步!CentOS Linux下载各个版本的ISO镜像文件说明:VMware下载教程VM官网:https://www.vmware.com/cn.htmlVMware16版本Vmware16链接:https://my.vmware.com/cn/web/vmware/downloads/#all_products注:没有账号注册一个即可VMware安装教程直接下一步!CentOS Linu
2021-08-12 17:59:27 93
原创 hive的数据类型
hive的数据类型1.Hive的内置数据类型可以分为两大类:(1)、基础数据类型;(2)、复杂数据类型2.hive基本数据类型3.hive集合类型3.1 集合类型之array(1) 先创建一张表(2)准备数据文件 array.txt(3)加载数据文件到t_array表中(4)查询数据3.2 集合类型之map(1) 先创建一张表(5)准备数据文件 map.txt(6)加载数据文件到t_map表中(1) 先创建一张表(8)准备数据文件 struct.txt(9)加载数据文件到t_struct表中(10)查询数据
2020-12-05 17:27:23 472
原创 JAVA 代码规范(一)
注:转自微信公众号:程序员最可爱一、MyBatis 不要为了多个查询条件而写 1 = 1二、迭代entrySet() 获取Map 的key 和value三、使用Collection.isEmpty() 检测空四、初始化集合时尽量指定其大小五、使用StringBuilder 拼接字符串六、若需频繁调用Collection.contains 方法则使用Set七、使用静态代码块实现赋值静态成员变量八、删除未使用的局部变量、方法参数、私有方法、字段和多余的括号。九、工具类中屏蔽构造函数十、删除多余的异常捕获并跑出十
2020-09-17 15:53:08 179
原创 启动hiveserver2服务
启动hiveserver2服务启动hiveserver2服务后台启动beeline连接hiveserver2启动hiveserver2服务后台启动cd /export/servers/hive-1.1.0-cdh5.14.0nohup bin/hive --service hiveserver2 &beeline连接hiveserver2bin/beelinebeeline> !connect jdbc:hive2://Hadoop003:10000...
2020-09-12 09:55:37 784
原创 案例一 Flume接受telent数据
Flume接受telent数据第一步:开发配置文件第二步:启动配置文件案例:使用网络telent命令向一台机器发送一些网络数据,然后通过flume采集网络端口数据第一步:开发配置文件根据数据采集的需求配置采集方案,描述在配置文件中(文件名可任意自定义)配置我们的网络收集的配置文件在flume的conf目录下新建一个配置文件(采集方案) vi /export/servers/apache-flume-1.8.0-bin/conf/netcat-logger.conf# 定义这个agent中
2020-09-12 09:42:06 296
原创 Flume安装部署
Flume安装部署上传安装文件并解压上传安装文件并解压tar -zxvf apache-flume-1.8.0-bin.tar.gz -C /export/servers/ cd /export/servers/apache-flume-1.8.0-bin//confcp flume-env.sh.template flume-env.shvim flume-env.shexport JAVA_HOME=${JAVA_HOME}...
2020-09-11 21:56:24 272
原创 Flume内部模块
Flume内部模块Flume内部模块1.1.2 运行机制1.1.3 Flume采集系统结构图Flume内部模块1、Source :与数据源对接,用于数据的收集,采集。2、Channel: 数据的传输(一个flumeAgent内部)3、Sink : 负责数据的输出 或 下沉(一个flumeAgent内部)1.1.2 运行机制1、Flume分布式系统中最核心的角色是agent,flume采集系统就是由一个个agent所连接起来形成2、每一个agent相当于一个数据传递员,内部有三个组件:
2020-09-11 21:27:51 203
原创 Flume的基本介绍
Flume的基本介绍前言1.1 Flume介绍1.1.1 概述前言在一个完整的离线大数据处理系统中,除了hdfs+mapreduce+hive组成分析系统的核心之外,还需要数据采集、结果数据导出、任务调度等不可或缺的辅助系统,而这些辅助工具在hadoop生态体系中都有便捷的开源框架,如图所示:1.1 Flume介绍1.1.1 概述Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。Flume可以采集文件,socket数据包、文件、文件夹、kafka等各种形式源数据,又可以
2020-09-11 21:11:41 111
原创 Kettle中创建Hadoop clusters中root directory access
root directory access不对的解决方案之一**正常应该是这样**把hadoop核心配置文件放入kettle目录修改正常应该是这样把hadoop核心配置文件放入kettle目录路径:data-integration\plugins\pentaho-big-data-plugin\hadoop-configurations\cdh514修改data-integration\plugins\pentaho-big-data-plugin\plugin.properties文件
2020-09-10 20:19:07 2116
原创 zookeeper的安装
zookeeper的安装下载安装包、解压解压:修改环境变量(注意:3台zookeeper都需要修改)修改zookeeper配置文件修改内容:下载安装包、解压下载地址:CDH版本:http://archive.cloudera.com/cdh5/cdh/5/zookeeper-3.4.5-cdh5.14.0.tar.gzapache版本:https://archive.apache.org/dist/zookeeper/解压:cd /export/softwaretar -zxvf zookee
2020-09-10 18:10:43 103
原创 Hive的优化方案
Hive的优化1、 Fetch抓取2、本地模式3、数据倾斜4、Count(distinct)5、分区剪裁、列剪裁6、动态分区调整7、数据倾斜8、影响Map的数量9、影响reduce的数量10、并行执行11、严格模式12、jvm重用13、 推测执行1、 Fetch抓取设置属性 set hive.fetch.task.conversion=none;所有的查询语句都要转化成MR程序。**set hive.fetch.task.conversion=more; **简单的查询不会转化成MR程序(sele
2020-08-14 21:05:36 2760
原创 Hive表数据加载和导出
Hive表数据加载和导出Hive表数据加载Hive数据的导出清空hive数据表Hive查询语句Hive修改配置文件优先级Hive支持的数据存储格式Hive表数据加载五种情况1、直接向分区表中插入数据insert into table score3 partition(month =‘201807’) values (‘001’,‘002’,‘100’);2、通过查询插入数据(linux ) load data local inpath ‘/export/servers/hivedatas/sc
2020-08-14 20:21:11 2582
原创 Hive基本介绍(4)
Hive基本介绍3Hive的自定义函数UDFHive通过reflect调用java方法Hive的自定义函数函数查看show functions;show function 函数名 ;desc function extended upper;UDF UDAF UDTF一进一出 多进一出 一进多出UDF1.创建一个class 继承UDF2. 编写evaluate函数,在这里编写业务需求需要的代码3. 打成jar包,并上传4. 将jar包添加到hive 在hi
2020-08-14 20:09:35 2511
原创 Hive基本介绍(3)
Hive基本介绍3Hive的数据类型基本数据类型复杂数据类型加载数据外部表内部表分区表特别强调:作用:分桶表特别强调:分桶逻辑:分桶的作用和好处Hive的数据类型基本数据类型INT BIGINT FLOAT DOUBLE DEICIMAL STRING VARCHAR CHAR BINARY TIMESTAMP DATE INTERVAL ARRAY复杂数据类型MAP STRUCT UNIONcreate table stu3 as select * from stu2; 复制数据复试表结构c
2020-08-12 15:37:21 2401
原创 Hive基本介绍(2)
Hive基本介绍2数据格式:数据格式部分自定义:hive支持的数据格式Hive元数据Hive的访问方式Hive传选项数据库的基本操作数据表的基本操作(增删改查)创建基本数据表(内部表):创建外部数据表:内部表与外部表的区别:删除表修改表查询表数据格式:Hive中没有定义专门的数据格式数据格式部分自定义:列分隔符(通常为空格、”\t”、”\x001″)行分隔符(”\n”)读取文件数据的方法(Hive 中默认有三个文件格式 TextFile,SequenceFile 以及 RCFile)。Hiv
2020-08-12 15:07:39 2462
原创 Hive基本介绍(1)
Hive基本介绍1Hive基本概念Hive的意义是什么Hive可以对数据进行存储与计算Hive缺点Hive的内部组成架构Hive基本概念是一个基于hadoop的数据仓库工具,可以将结构化数据映射成一张数据表,并提供类SQL的查询功能。Hive的意义是什么背景:hadoop是个好东西,但是学习难度大,成本高,坡度陡。意义(目的):降低程序员使用hadoop的难度。降低学习成本。Hive可以对数据进行存储与计算存储使用HDFS存储计算使用MapReduce进行计算Hive的特性1、扩展
2020-08-12 14:47:01 2630
原创 Hadoop基本介绍(4)
MapMap的输出到内存Reduce数据读取Map到reduce内存角度宏观流程Map到reduce处理流程角度宏观步骤Shuffle阶段如何能够让Map执行效率最高如何能够让Reduce执行效率最高Map的输出到内存Map的输出先写入环形缓冲区(默认大小100M-可以认为调整)(可以再输出的同时写入数据),当缓冲区内的数据达到阈值(默认0.8-可以人为调整)时,对数据进行flash。flash 出去的数据的数量达到一定量(默认4个)时,进行数据的合并Reduce数据读取Reduce 主动
2020-08-10 19:49:50 3217
原创 Hadoop基本介绍(3)
MapReduce计算框架MapReduce计算框架并行计算框架Hadoop为什么比传统技术方案快MapReduce核心思想偏移量hadoop数据类型MapReduce计算任务的步骤Shuffle阶段的Partition分区算法Split的逻辑切分MapReduce计算框架是指实现某项任务或某项工作从开始到结束的计算过程或流的结构并行计算框架一个大的任务拆分成多个小任务,将多个小任务分发到多个节点上。每个节点同时执行计算Hadoop为什么比传统技术方案快1、分布式存储2、分布式并行计算
2020-08-10 17:09:34 2913
原创 Hadoop基本介绍(2)
Hadoop基本介绍2HDFS 特性HDFS缺点:HDFS高级命令HDFS安全模式Fsimage EditsFsimage Edits作用:查看Fsimage EditsSecondaryNamenode工作原理前提:目标:意义:什么时候进行文件拷贝合并HDFS 特性1、海量数据存储: HDFS可横向扩展,其存储的文件可以支持PB级别数据。2、高容错性:节点丢失,系统依然可用,数据保存多个副本,副本丢失后自动恢复。可构建在廉价(与小型机大型机比)的机器上,实现线性扩展(随着节点数量的增加,集群的存
2020-08-07 23:09:49 3801
原创 Hadoop基本介绍(1)
Hadoop基本介绍hadoop 的组成部分HDFS辅助管理者:SecondaryNameNode工作者:DataNodeMapReduceYarnHDFS 副本存放机制第一份第二份第三个Namenode作用DataNode作用RPC remote procedure callHDFS数据写入流程(重点)HDFS数据读取流程(重点)HDFS数据完整性HDFS适用场景hadoop 的组成部分HDFS管理者:NameNode作用:负责管理,管理集群内各个节点。负责管理整个文件系统的元数据(指的是数据的
2020-08-07 18:20:13 4734
原创 一对多与多对一
Mapper的xml方式------------------------------------------------------------------------------------------
2020-08-06 11:44:19 3609
原创 SSM搭建
spring.datasource.password=123456spring.datasource.url=jdbc:mysql://127.0.0.1:3306/house?useUnicode=true&characterEncoding=UTF-8&serverTimezone=Hongkongspring.datasource.driver-class-name=com.mysql.cj.jdbc.Drivermybatis.configuration.map-...
2020-08-04 15:37:33 3542
原创 linux集群的部署+配置多节点无密码登录
linux集群的部署+配置多节点无密码登录linux集群的部署1、在虚拟机中实例三个虚拟机主机,三个虚拟主机需要配置IP,且两两之间可以ping通2、关闭防火墙(需要在所有的主机中进行设置)3、关闭selinux (需要在所有的主机中进行设置)4\ 设置所有主机的名称5、配置主机名与IP的对应关系配置多节点无密码登录1、在node01节点生成node02的公钥个私钥2、免密登录node01 ssh-copy-id node01 (需要输入node01的密码)时钟同步跟内网某台机器同步时间1、确
2020-08-03 20:30:59 4399
原创 mysql的安装部署
mysql的安装部署mysql的安装部署1、确认当前系统是否已经安装mysql 2、安装mysql 3、查看mysql当前状态 4、启动mysql修改mysql 乱码问题 1、进入mysql shell窗口2、查看当前编码格式吗3、修改mysql的 配置文件4、重启mysql5、二次确认mysql远程连接配置1、查看当前mysql 允许哪些主机连接2、添加权限,让任何主机使用rootu用户 123456密码,都能访问本mysql3、刷新权限4、二次确认mysql的安装部署1、确认当前系统是否已
2020-08-03 19:54:24 3653
原创 JDK安装步骤
JDK安装步骤1、上传解压 JDK安装包2、创建java的配置文件3、source4、验证是否安装成功5、确定版本6、再次确认1、上传解压 JDK安装包创建两个文件夹 一个存压缩包 一个存解压后的文件 mkdir -p /export/soft mkdir -p /export/install执行tar -zxvf jdk-8u141-linux-x64.tar.gz -C /export/installjdk-8u141-linux-x64.tar.gz 是解压名字2、创建java的
2020-08-03 18:17:03 3716
原创 制作局域网yum源
制作局域网yum源主节点启动 httpd 服务测试问题: 发现无法访问?原因: 因为 linux 的防火墙 禁止他人 访问自己的80端口解决: 通知 防火墙放行关闭防火墙原因: 为了方便 内网中集群间机器的相互操作, 通常会关闭防火墙关闭防火墙使用浏览器访问`http://192.168.100:201:80`第一步: 将常用软件包 复制到指定目录下第二步: 浏览器访问`http://192.168.100.201/CentOS-6.9/`拷贝yum源到httpd服务的默认工作路径下副节点1) 备份默认y
2020-08-03 17:45:57 4062
原创 本地资源库的配置
本地资源库的配置主节点主节点1、 备份/etc/yum.repos.d/内的所有文件 cd /etc/yum.repos.d/ 创建备份的文件夹 mkdir bk mv * bk 2、在备份的文件夹中拷贝CentOS-Media.repo 文件到/etc/yum.repos.d/ cp bk/CentOS-Media.repo . 3、对CentOS-Media.repo重命名(改成local.repo) mv CentOS-Media.repo lo
2020-08-03 16:34:10 3976
原创 linux 挂载iso文件
linux 挂载iso文件方法一方法二永久挂载方法一通过vm 虚拟软件“设置”-》cd/dvd-》设置ISO 映像。选中“开机链接”和“已连接” 创建一个iso挂载的目录 mkdir /mnt/cdrom lsblk -f sr0 iso9660 CentOS_6.9_Final 执行挂载命令:mount /dev/sr0 /mnt/cdrom方法二1、将ISO文件上传到linux 文件系统 2、创建需要将iso挂载到的目录 mkdi
2020-08-03 15:33:51 3948
原创 HBase常用shell操作
HBase常用shell操作1、进入HBase客户端命令操作界面2、查看帮助命令3、查看当前数据库中有哪些表4、创建一张表5、添加数据操作6、查询数据操作1、通过rowkey进行查询2、查看rowkey下面的某个列族的信息3、查看rowkey指定列族指定字段的值4、查看rowkey指定多个列族的信息6、查询所有数据7、列族查询8、多列族查询9、指定列族与某个列名查询10、指定列族与列名以及限定版本...
2019-12-12 21:26:49 3273
原创 HBase的底层原理
HBase的底层原理Client:Zookeeper:Master职责Region server的作用Client:访问数据的入口,包含访问hbase的API接口,维护着一些cache来加快对hbase的访问Zookeeper:*1 zookeeper的选举机制保证任何时候,集群中只有一个master2 实时监控Region Server的状态,将Region server的上线和下...
2019-12-12 20:57:07 512
原创 HBase特征简要
HBase特征简要1)海量存储2)列式存储3)极易扩展4)高并发5)稀疏1)海量存储Hbase适合存储PB级别的海量数据,在PB级别的数据以及采用廉价PC存储的情况下,能在几十到百毫秒内返回数据。这与Hbase的极易扩展性息息相关。正式因为Hbase良好的扩展性,才为海量数据的存储提供了便利。2)列式存储这里的列式存储其实说的是列族存储,Hbase是根据列族来存储数据的。列族下面可以有非常...
2019-12-12 20:33:13 3290
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人