大数据核心原理与实践
讲解原则:精炼、实用、细节、深刻!基于TDH平台,对Hadoop生态系统中各大开源组件核心原理进行讲解(包括HDFS、Inceptor-Hive、Hyperdrive-HBase、Search-ESearch等),加上自己的理解,配以实际案例,望在Java技术栈上更进一步!
bwgg
Java研发、算法研发。
本博客有无数彩蛋等你发现!
展开
-
深入理解 Hive 分区分桶 (Inceptor)
大数据核心原理与实践专栏为何分区分桶我们知道传统的DBMS系统一般都具有表分区的功能,通过表分区能够在特定的区域检索数据,减少扫描成本,在一定程度上提高查询效率,当然我们还可以通过进一步在分区上建立索引进一步提升查询效率。在此就不赘述了。在Hive数仓中也有分区分桶的概念,在逻辑上分区表与未分区表没有区别,在物理上分区表会将数据按照分区键的列值存储在表目录的子目录中,目录名=“分区...原创 2018-08-31 17:36:11 · 38610 阅读 · 3 评论 -
flume+kafka+slipstream实现黑名单用户访问实时监测
说明之前说过,关于flume和kafka的实践操作就不单独拿出来讲了,打算用一个案例将两者结合,同流式计算一起在具体案例中讲述。本篇博文案例背景:用户访问系统会留下一条条访问记录(除了姓名和身份证号外,还包括ip地址、登陆地点、设备等一系列详情信息),在数据库中我们有一份黑名单用户数据(姓名和身份证号),现在业务需求是我们需要实时监测访问系统的黑名单用户,将访问信息实时写入数据库中,并在前...原创 2018-07-23 11:21:38 · 1539 阅读 · 1 评论 -
Kafka系列(一):kafka核心原理架构心得与实践(精炼)
专栏:大数据核心原理与实践关于 kafka 的重要性就不再多说了,它不仅解耦了大数据组件之间的耦合性,而且还能对接流实时计算框架,充当其数据源,同时还能能接收大量数据输入,以类似于消息队列的方式组织统一管理。原创 2018-11-26 23:16:13 · 2332 阅读 · 4 评论 -
Sqoop全量数据导入、增量数据导入、并发导入 (Sqoop进阶)
Sqoop支持两种方式的全量数据导入和增量数据导入,同时可以指定数据是否以并发形式导入。下面依次来看:全量数据导入就像名字起的那样,全量数据导入就是一次性将所有需要导入的数据,从关系型数据库一次性地导入到Hadoop中(可以是HDFS、Hive等)。全量导入形式使用场景为一次性离线分析场景。用sqoop import命令,具体如下:# 全量数据导入sqoop import...原创 2018-07-17 20:22:37 · 32688 阅读 · 10 评论 -
Sqoop从mysql导入数据至HDFS操作(sqoop初级)
后面文章打算用flume + kafka + SlipStream流处理结合起来做一个黑名单访问实时监测数据案例,所以就不单独介绍每个组件具体的用法了,直接在实战中让大家直观感受下在生产环境中这些组件是如何配套使用的。由于Sqoop比较独立,所以它的实践还是单独拿出来在本篇博文中讲解好了。 MySQL端操作(待导出的数据库)1、创建用于导出数据用户并赋予权限。以root用户登...原创 2018-07-22 12:40:31 · 17401 阅读 · 1 评论 -
HBase二级索引实践(带你感受二级索引的力量)
hyper_table之前HBase SQL BulkLoad环节创建的,我们将数据通过BulkLoad方式导入预先分好Region的hyper_table表中。具体参考如下博文:HBase中利用SQL BulkLoad快速导入数据 这里大家只要清楚此表结构即可,结构如下:hyper_table表结构 字段 rowkey num country rd...原创 2018-07-22 16:41:33 · 15765 阅读 · 6 评论 -
HBase系列(三):利用SQL BulkLoad快速导入海量数据
HBase BulkLoad概述直接用put命令将海量数据导入至HBase会耗费大量时间(HFile合并、Region分割等),而且用原生的put命令导入海量数据,会占用HRegionServer很多资源,HBase集群会变得压力山大,集群基本对外丧失写的能力。其实HBase中数据以HFile文件的形式存储于HDFS,所以我们可以绕过HBase put API,直接将数据加工成HFile文...原创 2018-07-21 22:23:56 · 4741 阅读 · 3 评论 -
HBase系列(二):HBase架构及读写流程
本篇博文从分析HBase架构开始,首先从架构中各个组成部分开始,接着从HBase写入过程角度入手,分析HFile的Compaction合并、Region的Split分割过程及触发机制。架构分析HBase...原创 2018-07-20 23:35:27 · 14055 阅读 · 2 评论 -
HBase系列(一):HBase表结构及数据模型的理解
专栏:大数据核心原理与实践HBase适用场景首先在搞HBase之前我们要对其建立感性认识,其适用场景如下:并发、简单、随机查询。 (注:HBase不太擅长复杂join查询,但可以通过二级索引即全局索引的方式来优化性能,后续博文会进行讲解)半结构化、非结构化数据存储。一般我们从数仓中离线统计分析海量数据,将得到的结果插入HBase中用于实时查询。HBase表结构这...原创 2018-07-18 21:55:18 · 26208 阅读 · 8 评论 -
YARN提交任务作业(以wordcount样例程序为例)
前提已经搭建好Hadoop环境。向YARN提交wordcount任务1、首先在HDFS创建输入文件目录,并将待处理的wordcount文件传入相应的输入文件目录。# 创建输入文件目录hadoop fs -mkdir -p /tmp/jbw/wordcount_input_dir# 将待处理的文件上传至对应目录hadoop fs -put /mnt/disk1/lin...原创 2018-07-17 11:02:46 · 7226 阅读 · 0 评论 -
搭建TDH商业大数据平台社区版(附其他主流商业大数据平台下载汇总)
大数据核心原理与实践专栏说明:TDH社区版还挺好用的,无限量续签许可证,如果大家只是想玩玩儿大数据平台,或者刚入行大数据想练手,那么TDH社区版就够用了,避免了你前期安装一系列Hadoop组件的麻烦。想当年,笔者不知道有一站式大数据平台这玩意儿,还是从配置虚拟机到一个一个开源组件安装测试、到最终协调起来工作一步步走来。现在想想真是耗费时间,这也是为什么想了很久还是写下了这篇博文,希...原创 2018-07-25 13:11:20 · 9920 阅读 · 10 评论 -
HDFS读写流程(史上最精炼详细)
概述开始之前先看看其基本属性,HDFS(Hadoop Distributed File System)是GFS的开源实现。特点如下:能够运行在廉价机器上,硬件出错常态,需要具备高容错性流式数据访问,而不是随机读写面向大规模数据集,能够进行批处理、能够横向扩展简单一致性模型,假定文件是一次写入、多次读取缺点:不支持低延迟数据访问不适合大量小文件存储(因为每条元数据占...原创 2018-07-16 23:32:13 · 83663 阅读 · 31 评论