大数据_bwgg的博客-CSDN博客

大数据

关注

关注数：文章数：18 文章阅读量：330243 文章收藏量：1264

作者: bwgg

Java研发、算法研发。本博客有无数彩蛋等你发现！

展开

解决Flume采集数据时在HDFS上产生大量小文件的问题

问题：flume指定HDFS类型的Sink时，采集数据至HDFS指定目录，会产生大量小文件。问题重现：1、创建flume配置文件flume-env.sh，：flume配置文件如下（根据自身需要修改）：因为flume可以配置多种采集方式，每种采集方式对应一个agent配置文件，flume即通过运行agent完成采集工作，这里为了方便重现问题，直接监控整个目录。flume的agent配置文件如...

原创 2018-06-07 18:24:42 · 11885 阅读 · 1 评论
最常用的kubectl命令(附带场景和截图) —— kubernetes实用随笔（二）

系列文章： kubernetes和Docker —— kubernetes实用随笔（一）最常用的kubectl命令(附带场景和截图) —— kubernetes实用随笔（二）kubernetes核心对象 —— kubernetes实用随笔（三）上几篇博客主要介绍了k8s核心概念、接下来直接上手操作，在操作命令时，最好还是现将概念弄懂，否则排查问题时无从...

原创 2018-06-27 13:09:11 · 20416 阅读 · 2 评论
kubernetes核心对象 —— kubernetes实用随笔（三）

系列文章： kubernetes和Docker —— kubernetes实用随笔（一）最常用的kubectl命令(附带场景和截图) —— kubernetes实用随笔（二）kubernetes核心对象 —— kubernetes实用随笔（三）这篇开始就主要对kubernetes核心对象进行讲解。我们可以把Kubernetes构建容器的过程当做一个制造...

原创 2018-07-15 21:29:13 · 3966 阅读 · 1 评论
Kafka系列(一)：kafka核心原理架构心得与实践（精炼）

专栏：大数据核心原理与实践关于 kafka 的重要性就不再多说了，它不仅解耦了大数据组件之间的耦合性，而且还能对接流实时计算框架，充当其数据源，同时还能能接收大量数据输入，以类似于消息队列的方式组织统一管理。

原创 2018-11-26 23:16:13 · 2332 阅读 · 4 评论
基于TDH大数据平台安装并上架Sophon可拖拽式人工智能平台

大数据核心原理与实践专栏先决条件首先说明一下，Sophon人工智能平台有单独的安装包SophonWeb，可独立部署，部署方式同社区版TDH安装方式一样，极为简单。即当TDH平台部署即可，过程参考先前博文。但是现在，如果我们生产环境中已经部署好TDH大数据平台，现在又想用Sophon人工智能平台，这时就需要手动上架Sophon应用了。因为SophonWeb收费，我们可以先安装TD...

原创 2018-09-12 14:48:46 · 3647 阅读 · 0 评论
深入理解 Hive 分区分桶（Inceptor）

大数据核心原理与实践专栏为何分区分桶我们知道传统的DBMS系统一般都具有表分区的功能，通过表分区能够在特定的区域检索数据，减少扫描成本，在一定程度上提高查询效率，当然我们还可以通过进一步在分区上建立索引进一步提升查询效率。在此就不赘述了。在Hive数仓中也有分区分桶的概念，在逻辑上分区表与未分区表没有区别，在物理上分区表会将数据按照分区键的列值存储在表目录的子目录中，目录名=“分区...

原创 2018-08-31 17:36:11 · 38615 阅读 · 3 评论
HBase二级索引实践（带你感受二级索引的力量）

hyper_table之前HBase SQL BulkLoad环节创建的，我们将数据通过BulkLoad方式导入预先分好Region的hyper_table表中。具体参考如下博文：HBase中利用SQL BulkLoad快速导入数据这里大家只要清楚此表结构即可，结构如下：hyper_table表结构字段 rowkey num country rd...

原创 2018-07-22 16:41:33 · 15765 阅读 · 6 评论
HBase系列(三)：利用SQL BulkLoad快速导入海量数据

HBase BulkLoad概述直接用put命令将海量数据导入至HBase会耗费大量时间（HFile合并、Region分割等），而且用原生的put命令导入海量数据，会占用HRegionServer很多资源，HBase集群会变得压力山大，集群基本对外丧失写的能力。其实HBase中数据以HFile文件的形式存储于HDFS，所以我们可以绕过HBase put API，直接将数据加工成HFile文...

原创 2018-07-21 22:23:56 · 4741 阅读 · 3 评论
Sqoop从mysql导入数据至HDFS操作（sqoop初级）

后面文章打算用flume + kafka + SlipStream流处理结合起来做一个黑名单访问实时监测数据案例，所以就不单独介绍每个组件具体的用法了，直接在实战中让大家直观感受下在生产环境中这些组件是如何配套使用的。由于Sqoop比较独立，所以它的实践还是单独拿出来在本篇博文中讲解好了。 MySQL端操作（待导出的数据库）1、创建用于导出数据用户并赋予权限。以root用户登...

原创 2018-07-22 12:40:31 · 17401 阅读 · 1 评论
HBase系列(二)：HBase架构及读写流程

本篇博文从分析HBase架构开始，首先从架构中各个组成部分开始，接着从HBase写入过程角度入手，分析HFile的Compaction合并、Region的Split分割过程及触发机制。架构分析HBase...

原创 2018-07-20 23:35:27 · 14055 阅读 · 2 评论
HBase和ElasticSearch索引类型及存储位置

本篇博文主要对HyperBase（HBase）、Search（ElasticSearch）的索引类型及具体存储位置进行概要总结，让大家从整体上了解TDH平台中HyperBase和Search索引的管理。后续会在大数据核心原理与实践中对索引相关知识进行详细讲解。专栏：大数据核心原理与实践ESSearch索引类型存放位置在早期ESSearch1.X版本，会将索引存在内存，但之后...

原创 2018-07-20 17:05:23 · 2744 阅读 · 0 评论
搭建TDH商业大数据平台社区版（附其他主流商业大数据平台下载汇总）

大数据核心原理与实践专栏说明：TDH社区版还挺好用的，无限量续签许可证，如果大家只是想玩玩儿大数据平台，或者刚入行大数据想练手，那么TDH社区版就够用了，避免了你前期安装一系列Hadoop组件的麻烦。想当年，笔者不知道有一站式大数据平台这玩意儿，还是从配置虚拟机到一个一个开源组件安装测试、到最终协调起来工作一步步走来。现在想想真是耗费时间，这也是为什么想了很久还是写下了这篇博文，希...

原创 2018-07-25 13:11:20 · 9921 阅读 · 10 评论
HBase系列(一)：HBase表结构及数据模型的理解

专栏：大数据核心原理与实践HBase适用场景首先在搞HBase之前我们要对其建立感性认识，其适用场景如下：并发、简单、随机查询。（注：HBase不太擅长复杂join查询，但可以通过二级索引即全局索引的方式来优化性能，后续博文会进行讲解）半结构化、非结构化数据存储。一般我们从数仓中离线统计分析海量数据，将得到的结果插入HBase中用于实时查询。HBase表结构这...

原创 2018-07-18 21:55:18 · 26215 阅读 · 8 评论
Sqoop全量数据导入、增量数据导入、并发导入（Sqoop进阶）

Sqoop支持两种方式的全量数据导入和增量数据导入，同时可以指定数据是否以并发形式导入。下面依次来看：全量数据导入就像名字起的那样，全量数据导入就是一次性将所有需要导入的数据，从关系型数据库一次性地导入到Hadoop中（可以是HDFS、Hive等）。全量导入形式使用场景为一次性离线分析场景。用sqoop import命令，具体如下：# 全量数据导入sqoop import...

原创 2018-07-17 20:22:37 · 32689 阅读 · 10 评论
flume+kafka+slipstream实现黑名单用户访问实时监测

说明之前说过，关于flume和kafka的实践操作就不单独拿出来讲了，打算用一个案例将两者结合，同流式计算一起在具体案例中讲述。本篇博文案例背景：用户访问系统会留下一条条访问记录（除了姓名和身份证号外，还包括ip地址、登陆地点、设备等一系列详情信息），在数据库中我们有一份黑名单用户数据（姓名和身份证号），现在业务需求是我们需要实时监测访问系统的黑名单用户，将访问信息实时写入数据库中，并在前...

原创 2018-07-23 11:21:38 · 1539 阅读 · 1 评论
YARN提交任务作业（以wordcount样例程序为例）

前提已经搭建好Hadoop环境。向YARN提交wordcount任务1、首先在HDFS创建输入文件目录，并将待处理的wordcount文件传入相应的输入文件目录。# 创建输入文件目录hadoop fs -mkdir -p /tmp/jbw/wordcount_input_dir# 将待处理的文件上传至对应目录hadoop fs -put /mnt/disk1/lin...

原创 2018-07-17 11:02:46 · 7229 阅读 · 0 评论
HDFS读写流程（史上最精炼详细）

概述开始之前先看看其基本属性，HDFS（Hadoop Distributed File System）是GFS的开源实现。特点如下：能够运行在廉价机器上，硬件出错常态，需要具备高容错性流式数据访问，而不是随机读写面向大规模数据集，能够进行批处理、能够横向扩展简单一致性模型，假定文件是一次写入、多次读取缺点：不支持低延迟数据访问不适合大量小文件存储（因为每条元数据占...

原创 2018-07-16 23:32:13 · 83695 阅读 · 31 评论
kubernetes和Docker —— kubernetes实用随笔（一）

系列文章： kubernetes和Docker —— kubernetes实用随笔（一）最常用的kubectl命令(附带场景和截图) —— kubernetes实用随笔（二）kubernetes核心对象 —— kubernetes实用随笔（三）最近项目用到kubernetes（以下简称k8s，k和s之间有8个字母），虽然之前也有简单使用过，但最近发现k8s概念较多，命...

原创 2018-06-25 10:47:42 · 33396 阅读 · 1 评论

大数据

作者: bwgg

解决Flume采集数据时在HDFS上产生大量小文件的问题

最常用的kubectl命令(附带场景和截图) —— kubernetes实用随笔（二）

kubernetes核心对象 —— kubernetes实用随笔（三）

Kafka系列(一)：kafka核心原理架构心得与实践（精炼）

基于TDH大数据平台安装并上架Sophon可拖拽式人工智能平台

深入理解 Hive 分区分桶 （Inceptor）

HBase二级索引实践（带你感受二级索引的力量）

HBase系列(三)：利用SQL BulkLoad快速导入海量数据

Sqoop从mysql导入数据至HDFS操作（sqoop初级）

HBase系列(二)：HBase架构及读写流程

HBase和ElasticSearch索引类型及存储位置

搭建TDH商业大数据平台社区版（附其他主流商业大数据平台下载汇总）

HBase系列(一)：HBase表结构及数据模型的理解

Sqoop全量数据导入、增量数据导入、并发导入 （Sqoop进阶）

flume+kafka+slipstream实现黑名单用户访问实时监测

YARN提交任务作业（以wordcount样例程序为例）

HDFS读写流程（史上最精炼详细）

kubernetes和Docker —— kubernetes实用随笔（一）

深入理解 Hive 分区分桶（Inceptor）

Sqoop全量数据导入、增量数据导入、并发导入（Sqoop进阶）