- 博客(39)
- 资源 (5)
- 收藏
- 关注
原创 Hive存储与压缩
MR 支持的压缩编码为了支持多种压缩/解压缩算法,Hadoop 引入了编码/解码器,如下表所示:压缩性能的比较:开启压缩注:在开启之前要先确保你的hadoop有编译过snappy开启 Map 输出阶段压缩开启 map 输出阶段压缩可以减少 job 中 map 和 Reduce task 间数据传输量。具体配置如下:案例实操:1.开启 hive 中间传输数据压缩功能hive ...
2020-03-31 16:23:13 201
原创 Hive自定义函数
系统内置函数1)查看系统自带的函数hive> show functions;2)显示自带的函数的用法hive> desc function upper;3)详细显示自带的函数的用法hive> desc function extended upper;自定义函数1)Hive 自带了一些函数,比如:max/min 等,但是数量有限,自己可以通过自定义 UDF来方...
2020-03-31 16:22:09 258
原创 Hive 窗口函数
窗口函数背景平常我们使用 hive或者 mysql时,一般聚合函数用的比较多。但对于某些偏分析的需求,group by可能很费力,子查询很多,这个时候就需要使用窗口分析函数了相关函数说明OVER():指定分析函数工作的数据窗口大小,这个数据窗口大小可能会随着行的变而变化CURRENT ROW:当前行n PRECEDING:往前n行数据n FOLLOWING:往后n行数据UNBOUN...
2020-03-31 16:21:28 316
原创 Hive分桶查询和其他查询函数
分桶及抽样查询分桶表数据存储分区针对的是数据的存储路径;分桶针对的是数据文件。分区提供一个隔离数据和优化查询的便利方式。不过,并非所有的数据集都可形成合理的分区,特别是之前所提到过的要确定合适的划分大小这个疑虑。分桶是将数据集分解成更容易管理的若干部分的另一个技术。1.先创建分桶表,通过直接导入数据文件的方式(1)数据准备student.txt1001 ss11002 ss21...
2020-03-31 16:20:39 510
原创 Hive 数据查询
DQL数据查询查询语句的官网地址:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Select语法:[WITH CommonTableExpression (, CommonTableExpression)*] (Note: Only available starting with Hive 0.13.0...
2020-03-31 16:19:34 3329
原创 Hive 数据操作
DML数据操作数据导入向表中装载数据(Load)1.语法hive> load data [local] inpath '/root/datas/student.txt' overwrite | into table student [partition (partcol1=val1,…)];(1)load data:表示加载数据(2)local:表示从本地加载数据到hive表;...
2020-03-31 16:18:04 378
原创 Hive 数据定义
DDL数据定义创建数据库1)创建一个数据库,数据库在HDFS上的默认存储路径是/user/hive/warehouse/*.db。hive (default)> create database db_hive; 2)避免要创建的数据库已经存在错误,增加if not exists判断。(标准写法)hive (default)> create database db_hive...
2020-03-31 16:15:55 204
原创 Hive概述
Hive 基本概念什么是HiveHive用于解决海量结构化日志的数据统计是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供SQL查询功能本质是HQL(用hive写的语句)转化成MapReduce程序1)Hive 处理的数据存储在HDFS2)Hive 分析数据底层的默认实现是MapReduce3)执行程序运行在Yarn 上Hive的优缺点优点操...
2020-03-31 16:11:11 183
原创 Kafka API和监控
APIProducer API消息发送流程Kafka 的 Producer 发送消息采用的是异步发送的方式。在消息发送的过程中,涉及到了两个线程——main 线程和 Sender 线程,以及一个线程共享变量——RecordAccumulator。main 线程将消息发送给 RecordAccumulator,Sender 线程不断从 RecordAccumulator 中拉取消息发送到 Ka...
2020-03-31 15:59:41 1708
原创 KafKa概述
Kafka 概述定义Kafka 是一个分布式的基于发布/订阅模式的消息队列(Message Queue),主要应用于大数据实时处理领域。消息队列使用消息队列的好处1 )解耦允许你独立的扩展或修改两边的处理过程,只要确保它们遵守同样的接口约束。2 )可恢复性系统的一部分组件失效时,不会影响到整个系统。消息队列降低了进程间的耦合度,所以即使一个处理消息的进程挂掉,加入队列中的消息仍然...
2020-03-31 15:57:40 118
原创 Flume进阶
Flume事务Flume Agent 内部原理重要组件:1)ChannelSelector ChannelSelector 的作用就是选出 Event 将要被发往哪个 Channel。其共有两种类型,分别是 Replicating(复制)和 Multiplexing(多路复用)。 ReplicatingSelector 会将同一个 Event 发往所有的 Channel,Mult...
2020-03-30 13:02:42 162
原创 Flume概述
Flume 概述Flume定义 Flume 是 Cloudera 提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume 基于流式架构,灵活简单。Flume最主要的作用就是,实时读取服务器本地磁盘的数据,将数据写入到HDFS。Flume 基础架构Agent Agent 是一个 JVM 进程,它以事件的形式将数据从源头送至目的。 Agent...
2020-03-30 13:01:50 238
原创 4.HBase优化
高可用 在 HBase 中Hmaster负责监控RegionServer的生命周期,均衡RegionServer的负载,如果Hmaster挂掉了,那么整个HBase集群将陷入不健康的状态,并且此时的工作状态并不会维持太久。所以HBase支持对Hmaster的高可用配置。1.关闭HBase集群(如果没有开启则跳过此步)[root@h1 hbase]# bin/stop-hbase.sh2...
2020-03-30 12:59:46 134
原创 3.HBase详解
HBase 进阶架构原理1)StoreFile保存实际数据的物理文件,StoreFile 以 HFile 的形式存储在 HDFS 上。每个 Store 会有一个或多个 StoreFile(HFile),数据在每个 StoreFile 中都是有序的。2)MemStore写缓存,由于 HFile 中的数据要求是有序的,所以数据是先存储在 MemStore 中,排好序后,等到达刷写时机才会刷...
2020-03-30 12:59:00 286
原创 2.HBase shell命令大全
通用status查看集群状态,有三种可选的参数simple、summary、detailed。默认为summary。格式:statusstatus ‘simple’status ‘summary’status ‘detailed’version查看当前HBase版本。格式:versionwhoami查看当前用户。格式:whoamitable_he...
2020-03-30 12:57:16 1483
原创 1.HBase概述
HBase 简介定义 HBase 是一种分布式、可扩展、支持海量数据存储的 NoSQL 数据库。 HBase采用的是Key/Value的存储方式,这意味着,即使随着数据量增大,也几乎不会导致查询的性能下降 HBase又是一个列式数据库(对比于传统的行式数据库而言),当你的表字段很多的时候,你甚至可以把其中几个字段放在集群的一部分机器上,而另外几个字段放到另外一部分机器上,充分分...
2020-03-30 12:46:23 481
原创 hadoop完全分布式和高可用搭建
hadoop完全分布式环境配置:centos7 四台版本:zookeeper-3.4.14 、hadoop-2.7.7(当然你也可以自己选择)准备配置防火墙如果是服务器的话,首先要开启相关的端口。若是虚拟机,记得关闭防火墙关闭防火墙systemctl stop firewalldservice iptables stopxshell连接虚拟机小工具:当虚拟机或服务器数量过多时...
2020-03-30 12:33:00 676
原创 8.hadoop企业调优
MapReduce 跑的慢的原因MapReduce 程序效率的瓶颈在于两点:1.计算机性能CPU、内存、磁盘健康、网络2.I/O 操作优化(1)数据倾斜(2)Map和Reduce数设置不合理(3)Map运行时间太长,导致Reduce等待过久(4)小文件过多(5)大量的不可分块的超大文件(6)Spill次数过多(7)Merge次数过多等。MapReduce优化方法MapRe...
2020-03-30 12:30:17 105
原创 7.Yarn资源调度器
Yarn基本架构 YARN主要由ResourceManager、NodeManager、ApplicationMaster和Container等组件构成1)ResourceManager(RM)主要作用如下(1)处理客户端请求(2)监控NodeManager(3)启动或监控ApplicationMaster(4)资源的分配与调度2)NodeManager(NM)主要...
2020-03-30 12:29:31 163
原创 6.hadoop数据压缩
压缩概述压缩技术能够有效减少底层存储系统(HDFS)读写字节数。压缩提高了网络带宽和磁盘空间的效率。在运行MR程序时,I/O操作、网络数据传输、 Shuffle和Merge要花大量的时间,尤其是数据规模很大和工作负载密集的情况下,因此,使用数据压缩显得非常重要。鉴于磁盘I/O和网络带宽是Hadoop的宝贵资源,数据压缩对于节省资源、最小化磁盘I/O和网络传输非常有帮助。可以在任意MapRedu...
2020-03-30 12:27:57 180 1
原创 5.MapReduce框架原理与实操
InputFormat数据输入切片与MapTask并行度决定机制1.问题引出MapTask的并行度决定Map阶段的任务处理并发度,进而影响到整个Job的处理速度。思考:1G的数据,启动8个MapTask,可以提高集群的并发处理能力。那么1K的数据,也启动8个MapTask,会提高集群性能吗?MapTask并行任务是否越多越好呢?哪些因素影响了MapTask并行度?2.MapTask并...
2020-03-30 12:21:24 213
原创 4.序列化和统计案例
序列化概述序列化就是把内存中的对象转换成字节序列(或其他数据传输协议)以便于存储到磁盘(持久化)和网络传输反序列化就是将收到的字节序列(或其他数据传输协议)或者是磁盘的持久化数据,转换成内存中的对象Java的序列化是一个重量级序列化框架(Serializable),一个对象被序列化后,附带很多额外的信息(各种校验信息,Header,继承体系等),不便于在网络中高效传输。所以,Hadoop自己...
2020-03-30 12:03:51 180
原创 3.MapReduce概述
MapReduce定义 MapReduce是一个分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架。 MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个hadoop集群上MapReduce优缺点优点:易于编程:简单的实现一些接口,就可以完成一个分布式程序良好的扩展性:当计算资源不能得到满...
2020-03-30 12:02:57 276
原创 2.HDFS详解与实操
HDFS的Shell操作基本语法bin/hadoop fs 具体命令 OR bin/hdfs dfs 具体命令dfs是的实现类命令大全[root@h1 hadoop-2.7.7]# bin/hadoop fsUsage: hadoop fs [generic options] [-appendToFile <localsrc> ... <dst>] [-c...
2020-03-30 12:01:47 173
原创 1-hadoop概述与hdfs介绍
hadoophadoop是什么hadoop是一个分布式系统基础架构,最擅长做海量日志分析,其各个部分用于解决的问题分别是:HDFS:海量数据存储MapReduce:海量数据的分析YARN:资源管理调度Hadoop三大发行版本Hadoop三大发行版本:Apache、Cloudera、Hortonworks。Apache版本最原始(最基础)的版本,对于入门学习最好。Cloudera在...
2020-03-30 12:00:11 545
原创 隐马尔科夫模型HMM
隐马尔科夫模型(Hidden Markov Model,以下简称HMM)是比较经典的机器学习模型了,它在语言识别,自然语言处理,模式识别等领域得到广泛的应用。HMM初探什么样的问题需要HMM模型使用HMM模型时我们的问题一般有这两个特征:问题是基于序列的,比如时间序列,或者状态序列。问题中有两类数据,一类序列数据是可以观测到的,即观测序列;而另一类数据是不能观察到的,即隐藏状态序列,简...
2020-03-05 11:50:03 183
原创 EM算法与高斯混合模型(GMM)
单高斯模型(GSM) 高斯模型是一种常用的变量分布模型, 而且有很好的数学性质,具有各阶导数,变量频数分布由 μ、σ 完全决定等等,在许多领域得到广泛应用。它的概率密度分布函数如下:KaTeX parse error: No such environment: equation at position 8: \begin{̲e̲q̲u̲a̲t̲i̲o̲n̲}̲f \left ( x \...
2020-03-05 11:48:53 523 2
原创 聚类
聚类定义聚类就是对大量未知标注的数据集,按数据的内在相似性将数据集划分为多个类别,使类别内的数据相似度较大而类别间的数据相似度较小距离度量闵可夫斯基距离闵氏距离不是一种距离,而是一组距离的定义,是对多个距离度量公式的概括性的表述。其中p是一个变参数:当p=1时,就是曼哈顿距离;当p=2时,就是欧氏距离;当p→∞时,就是切比雪夫距离。曼哈顿距离曼哈顿距离也叫”曼哈顿街区距...
2020-03-05 11:47:22 1886
原创 SVM
基本概念支持向量机(Support Vector Machine, SVM)的基本模型是在特征空间上找到最佳的分离超平面使得训练集上正负样本间隔最大。SVM是用来解决二分类问题的有监督学习算法,在引入了核方法之后SVM也可以用来解决非线性问题。一般SVM有下面三种:硬间隔支持向量机(线性可分支持向量机):当训练数据线性可分时,可通过硬间隔最大化学得一个线性可分支持向量机,即分割过程中不允...
2020-03-05 11:46:27 219
原创 决策树与随机森林
从LR到决策树思考一下一个分类问题:是否去相亲,logistic回归的解决办法可能是这样的可是有时候,人更直观的方式是这样的决策树模型(决策树)分类决策树 模型是一种描述对实例进行分类的树形结构.决策树由结点(node)和有向边(directed edge)组成.结点有两种类型:内部结点(intemal node)和叶结点(leaf node).内部结点表示一个特征或属性,叶结点表示一...
2020-03-05 11:44:22 1118
原创 多元回归和Logistic回归
什么是线性回归有监督学习 => 学习样本为D={(xi,yi)}i=1ND=\{(x_i,y_i)\}^N_{i=1}D={(xi,yi)}i=1N输出/预测的结果yiy_iyi为连续变量需要学习映射f:x→yf:x→yf:x→y假定输入x与输出y之间有线性相关关系一元线性回归y=ax+by=ax+by=ax+b多元线性回归损失函数(loss function...
2020-03-05 11:41:47 3324
原创 git版本回退和删除与找回
开始之前为了方便演示,在test目录下新建几个文件创建一个 readme.txt 内容为:1111111111111使用 git add test.txt添加到暂存区使用git commit --message="the first change"提交到仓库然后再文件结尾添加222222222222再add添加到暂存区,然后使用commit保存以同样的方式再文末加入333333333...
2019-10-04 22:13:54 1230
原创 git入门
初步配置 Git是一个高可配置软件。首先,我们可以用config命令配置一下用户名和用户邮箱git config --global user.name "liu"git config --global user.email "liu@163.com"创建版本库 进入项目所在目录,右键点击Git Bash Here 然后初始化git init 会生成一个名为 .git的隐藏...
2019-10-04 21:24:14 117
原创 DataTable报错Cannot reinitialise DataTable问题与发起多次不同参数的ajax请求问题的解决
记一次错误经历,折磨了我一天,万恶的DataTable和粗心的自己 在我们使用DataTable时,经常会有这个需求:在页面初始化时,需要通过DataTable来向后台请求数据。同时为了实现搜索功能,也需要用这个插件来向后台的不同链接来发起ajax请求。这些需求通过DataTable来实现的话,通常会遇到两个问题:  ...
2019-09-10 18:13:13 2398 1
原创 通过java代码上传文件到hdfs时,hdfs文件系统上的文件大小为o
原因:文件夹和文件名都是存放在 NameNode 上的,本地可以通过公网访问 NameNode,所以创建文件夹和文件都可以,但是当写数据的时候,NameNode 和DataNode 是通过内网通信的,NameNode 会返回给 DataNode 的内网 IP,本地就访问不了了。所以在java代码中需要添加一句conf.set("dfs.client.use.datanode.hostname...
2019-04-25 08:30:09 1473
原创 阿里云无法下载hdfs中的文件
首先,/etc/hosts的那个文件,第一行的127.0.0.1一定要注释掉,然后下面配置的是阿里云的内网ip其次就是检查控制台中的防火墙是否添加了相关的端口规则然后,core-site.xml中,针对fs.defaultFS的值修改为<property> <name>fs.defaultFS</name> <value>hdfs://0....
2019-04-25 08:28:27 767
原创 用java客户端实现hdfs的简要功能
首先是将hadoop中的相关jar包导入到java运行环境中首先进入配置构建路径选择库,点击添加库选择用户库这里由于我已经添加了,,无法再次添加,就不做演示大体要添加进去的jar包是/hadoop/share/hadoop/hdfs中的和/hadoop/share/hadoop/common中的添加完以上的jar包之后,就可以开始代码的编写了前戏,解读:@Test方法用...
2019-04-25 08:24:58 237
原创 hdfs原理与操作命令
hadoop是一个分布式系统基础架构,最擅长做海量日志分析,用于解决的问题是:HDFS:海量数据存储MapReduce:海量数据的分析YARN:资源管理调度 hdfs的存储方式往服务器上写数据时,不是直接把数据放到机子上,而是把整块数据切成很多个小块,每台机器上可以存相同的数据...
2019-04-25 08:19:21 226
hive-hbase-handler-1.2.1.jar
2020-02-01
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人