旭cooler
码龄6年
关注
提问 私信
  • 博客:28,696
    28,696
    总访问量
  • 39
    原创
  • 2,097,333
    排名
  • 10
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:浙江省
  • 加入CSDN时间: 2018-11-25
博客简介:

weixin_43799054的博客

查看详细资料
个人成就
  • 获得18次点赞
  • 内容获得6次评论
  • 获得82次收藏
  • 代码片获得114次分享
创作历程
  • 31篇
    2020年
  • 8篇
    2019年
成就勋章
TA的专栏
  • Hive
    8篇
  • Kafka
    2篇
  • Flume
    2篇
  • HBase
    4篇
  • 机器学习
    6篇
  • Git
    2篇
  • DataTables
    1篇
  • hadoop
    12篇
  • hdfs
    3篇
  • 阿里云
    1篇
  • python
  • 大数据导论
    1篇
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

Hive存储与压缩

MR 支持的压缩编码为了支持多种压缩/解压缩算法,Hadoop 引入了编码/解码器,如下表所示:压缩性能的比较:开启压缩注:在开启之前要先确保你的hadoop有编译过snappy开启 Map 输出阶段压缩开启 map 输出阶段压缩可以减少 job 中 map 和 Reduce task 间数据传输量。具体配置如下:案例实操:1.开启 hive 中间传输数据压缩功能hive ...
原创
发布博客 2020.03.31 ·
230 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Hive自定义函数

系统内置函数1)查看系统自带的函数hive> show functions;2)显示自带的函数的用法hive> desc function upper;3)详细显示自带的函数的用法hive> desc function extended upper;自定义函数1)Hive 自带了一些函数,比如:max/min 等,但是数量有限,自己可以通过自定义 UDF来方...
原创
发布博客 2020.03.31 ·
282 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Hive 窗口函数

窗口函数背景平常我们使用 hive或者 mysql时,一般聚合函数用的比较多。但对于某些偏分析的需求,group by可能很费力,子查询很多,这个时候就需要使用窗口分析函数了相关函数说明OVER():指定分析函数工作的数据窗口大小,这个数据窗口大小可能会随着行的变而变化CURRENT ROW:当前行n PRECEDING:往前n行数据n FOLLOWING:往后n行数据UNBOUN...
原创
发布博客 2020.03.31 ·
351 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Hive分桶查询和其他查询函数

分桶及抽样查询分桶表数据存储分区针对的是数据的存储路径;分桶针对的是数据文件。分区提供一个隔离数据和优化查询的便利方式。不过,并非所有的数据集都可形成合理的分区,特别是之前所提到过的要确定合适的划分大小这个疑虑。分桶是将数据集分解成更容易管理的若干部分的另一个技术。1.先创建分桶表,通过直接导入数据文件的方式(1)数据准备student.txt1001 ss11002 ss21...
原创
发布博客 2020.03.31 ·
532 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Hive 数据查询

DQL数据查询查询语句的官网地址:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Select语法:[WITH CommonTableExpression (, CommonTableExpression)*] (Note: Only available starting with Hive 0.13.0...
原创
发布博客 2020.03.31 ·
3374 阅读 ·
2 点赞 ·
0 评论 ·
12 收藏

Hive 数据操作

DML数据操作数据导入向表中装载数据(Load)1.语法hive> load data [local] inpath '/root/datas/student.txt' overwrite | into table student [partition (partcol1=val1,…)];(1)load data:表示加载数据(2)local:表示从本地加载数据到hive表;...
原创
发布博客 2020.03.31 ·
398 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

Hive 数据定义

DDL数据定义创建数据库1)创建一个数据库,数据库在HDFS上的默认存储路径是/user/hive/warehouse/*.db。hive (default)> create database db_hive; 2)避免要创建的数据库已经存在错误,增加if not exists判断。(标准写法)hive (default)> create database db_hive...
原创
发布博客 2020.03.31 ·
251 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Hive概述

Hive 基本概念什么是HiveHive用于解决海量结构化日志的数据统计是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供SQL查询功能本质是HQL(用hive写的语句)转化成MapReduce程序1)Hive 处理的数据存储在HDFS2)Hive 分析数据底层的默认实现是MapReduce3)执行程序运行在Yarn 上Hive的优缺点优点操...
原创
发布博客 2020.03.31 ·
200 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Kafka API和监控

APIProducer API消息发送流程Kafka 的 Producer 发送消息采用的是异步发送的方式。在消息发送的过程中,涉及到了两个线程——main 线程和 Sender 线程,以及一个线程共享变量——RecordAccumulator。main 线程将消息发送给 RecordAccumulator,Sender 线程不断从 RecordAccumulator 中拉取消息发送到 Ka...
原创
发布博客 2020.03.31 ·
1756 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

KafKa概述

Kafka 概述定义Kafka 是一个分布式的基于发布/订阅模式的消息队列(Message Queue),主要应用于大数据实时处理领域。消息队列使用消息队列的好处1 )解耦允许你独立的扩展或修改两边的处理过程,只要确保它们遵守同样的接口约束。2 )可恢复性系统的一部分组件失效时,不会影响到整个系统。消息队列降低了进程间的耦合度,所以即使一个处理消息的进程挂掉,加入队列中的消息仍然...
原创
发布博客 2020.03.31 ·
134 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Flume进阶

Flume事务Flume Agent 内部原理重要组件:1)ChannelSelector  ChannelSelector 的作用就是选出 Event 将要被发往哪个 Channel。其共有两种类型,分别是 Replicating(复制)和 Multiplexing(多路复用)。  ReplicatingSelector 会将同一个 Event 发往所有的 Channel,Mult...
原创
发布博客 2020.03.30 ·
183 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Flume概述

Flume 概述Flume定义​ Flume 是 Cloudera 提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume 基于流式架构,灵活简单。Flume最主要的作用就是,实时读取服务器本地磁盘的数据,将数据写入到HDFS。Flume 基础架构Agent​ Agent 是一个 JVM 进程,它以事件的形式将数据从源头送至目的。​ Agent...
原创
发布博客 2020.03.30 ·
266 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

4.HBase优化

高可用  在 HBase 中Hmaster负责监控RegionServer的生命周期,均衡RegionServer的负载,如果Hmaster挂掉了,那么整个HBase集群将陷入不健康的状态,并且此时的工作状态并不会维持太久。所以HBase支持对Hmaster的高可用配置。1.关闭HBase集群(如果没有开启则跳过此步)[root@h1 hbase]# bin/stop-hbase.sh2...
原创
发布博客 2020.03.30 ·
149 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

3.HBase详解

HBase 进阶架构原理1)StoreFile保存实际数据的物理文件,StoreFile 以 HFile 的形式存储在 HDFS 上。每个 Store 会有一个或多个 StoreFile(HFile),数据在每个 StoreFile 中都是有序的。2)MemStore写缓存,由于 HFile 中的数据要求是有序的,所以数据是先存储在 MemStore 中,排好序后,等到达刷写时机才会刷...
原创
发布博客 2020.03.30 ·
301 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

2.HBase shell命令大全

通用status查看集群状态,有三种可选的参数simple、summary、detailed。默认为summary。格式:statusstatus ‘simple’status ‘summary’status ‘detailed’version查看当前HBase版本。格式:versionwhoami查看当前用户。格式:whoamitable_he...
原创
发布博客 2020.03.30 ·
1528 阅读 ·
1 点赞 ·
0 评论 ·
3 收藏

1.HBase概述

HBase 简介定义​ HBase 是一种分布式、可扩展、支持海量数据存储的 NoSQL 数据库。​ HBase采用的是Key/Value的存储方式,这意味着,即使随着数据量增大,也几乎不会导致查询的性能下降​ HBase又是一个列式数据库(对比于传统的行式数据库而言),当你的表字段很多的时候,你甚至可以把其中几个字段放在集群的一部分机器上,而另外几个字段放到另外一部分机器上,充分分...
原创
发布博客 2020.03.30 ·
500 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

hadoop完全分布式和高可用搭建

hadoop完全分布式环境配置:centos7 四台版本:zookeeper-3.4.14 、hadoop-2.7.7(当然你也可以自己选择)准备配置防火墙如果是服务器的话,首先要开启相关的端口。若是虚拟机,记得关闭防火墙关闭防火墙systemctl stop firewalldservice iptables stopxshell连接虚拟机小工具:当虚拟机或服务器数量过多时...
原创
发布博客 2020.03.30 ·
733 阅读 ·
0 点赞 ·
0 评论 ·
9 收藏

8.hadoop企业调优

MapReduce 跑的慢的原因MapReduce 程序效率的瓶颈在于两点:1.计算机性能CPU、内存、磁盘健康、网络2.I/O 操作优化(1)数据倾斜(2)Map和Reduce数设置不合理(3)Map运行时间太长,导致Reduce等待过久(4)小文件过多(5)大量的不可分块的超大文件(6)Spill次数过多(7)Merge次数过多等。MapReduce优化方法MapRe...
原创
发布博客 2020.03.30 ·
123 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

7.Yarn资源调度器

Yarn基本架构​ YARN主要由ResourceManager、NodeManager、ApplicationMaster和Container等组件构成1)ResourceManager(RM)主要作用如下(1)处理客户端请求(2)监控NodeManager(3)启动或监控ApplicationMaster(4)资源的分配与调度2)NodeManager(NM)主要...
原创
发布博客 2020.03.30 ·
181 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

6.hadoop数据压缩

压缩概述压缩技术能够有效减少底层存储系统(HDFS)读写字节数。压缩提高了网络带宽和磁盘空间的效率。在运行MR程序时,I/O操作、网络数据传输、 Shuffle和Merge要花大量的时间,尤其是数据规模很大和工作负载密集的情况下,因此,使用数据压缩显得非常重要。鉴于磁盘I/O和网络带宽是Hadoop的宝贵资源,数据压缩对于节省资源、最小化磁盘I/O和网络传输非常有帮助。可以在任意MapRedu...
原创
发布博客 2020.03.30 ·
199 阅读 ·
0 点赞 ·
1 评论 ·
0 收藏
加载更多