little prince,blue coder

人生苦短,去做能让你热血沸腾的事情吧

Kafka系列(一):kafka核心原理架构心得与实践(精炼)

专栏:大数据核心原理与实践 关于 kafka 的重要性就不再多说了,它不仅解耦了大数据组件之间的耦合性,而且还能对接流实时计算框架,充当其数据源,同时还能能接收大量数据输入,以类似于消息队列的方式组织统一管理。

2018-11-26 23:16:13

阅读数 282

评论数 2

利用Redis实现异步消息队列优化系统性能 (Redis高级应用)

写在前面 今天把之前在项目中使用 Redis 做异步消息队列的使用经验总结一下。首先明确使用目的,因为项目中,我们进行某个操作后可能后续会有一系列的其他耗时操作,但是我们不希望将主线程阻塞在此过程中,这时便可将其他操作异步化。举个栗子,当你给这篇博客点赞或评论的时候,博客系统会保存你的点赞评论信...

2018-08-18 11:16:32

阅读数 1150

评论数 0

SpringMVC 5.0 请求映射匹配核心源码解读 (SpringMVC 5.x 与 SpringMVC 4.x 对比)

基于最新的SpringMVC 5.x版本,源码中加入大量注释分析,结合文字描述,实时比对新旧版本的区别,细致分析SpringMVC中请求匹配原理。现在讲解SpringMVC的请求匹配原理的博文都是基于SpringMVC 4.x 或者更低的版本,所以如果你之前学习过类似的博文你会对urlMap很熟悉...

2018-07-31 00:03:33

阅读数 731

评论数 0

搭建TDH商业大数据平台社区版(附其他主流商业大数据平台下载汇总)

大数据核心原理与实践专栏 说明: TDH社区版还挺好用的,无限量续签许可证,如果大家只是想玩玩儿大数据平台,或者刚入行大数据想练手,那么TDH社区版就够用了,避免了你前期安装一系列Hadoop组件的麻烦。 想当年,笔者不知道有一站式大数据平台这玩意儿,还是从配置虚拟机到一个一个开源组件安...

2018-07-25 13:11:20

阅读数 2704

评论数 7

flume+kafka+slipstream实现黑名单用户访问实时监测

说明 之前说过,关于flume和kafka的实践操作就不单独拿出来讲了,打算用一个案例将两者结合,同流式计算一起在具体案例中讲述。 本篇博文案例背景:用户访问系统会留下一条条访问记录(除了姓名和身份证号外,还包括ip地址、登陆地点、设备等一系列详情信息),在数据库中我们有一份黑名单用户数据(姓...

2018-07-23 11:21:38

阅读数 415

评论数 2

Sqoop全量数据导入、增量数据导入、并发导入 (Sqoop进阶)

Sqoop支持两种方式的全量数据导入和增量数据导入,同时可以指定数据是否以并发形式导入。下面依次来看: 全量数据导入 就像名字起的那样,全量数据导入就是一次性将所有需要导入的数据,从关系型数据库一次性地导入到Hadoop中(可以是HDFS、Hive等)。全量导入形式使用场景为一次性离线...

2018-07-17 20:22:37

阅读数 5218

评论数 1

蚂蚁金服风险大脑-支付风险识别天池大赛 —— 赛后总结

          周末这几天都忙着东奔西跑,比赛也在周末结束了,故现来总结一波。这次报名蚂蚁金服风险大赛主要是为了做个案例,用商业发行版TDH大数据平台社区版+可拖拽式快速人工智能平台Sophon来完成。   数据预处理(编码2分钟+运行5分钟):          上传至HDFS,用分...

2018-07-09 19:12:05

阅读数 1583

评论数 3

kubernetes的pod或instance一直处于pending状态的解决方案

问题复现:     6台虚拟机上,kong组件(一个用于部署api服务的组件)副本数为4,总有一两个instance起不起来,一直处于pending状态,如下:   解决思路:     整体解决思路:pod -> instance -> De...

2018-06-21 16:10:51

阅读数 4583

评论数 2

阿尔卑斯山时间规划法精髓(提高工作效率)

非常有效的提高每日工作效率的方法——阿尔卑斯山时间规划法。 这玩意是时间管理大师罗塔尔.丁.塞维特《把时间花在刀刃上》一书中提出。 本文适用于:平时觉得自己工作效率低,没节奏,老是不由自主的加班的孩纸。 利用阿尔卑斯山法制定每日计划 1. 列出任务 不要想到什么些什么,因为这样会遗漏任务。我们可以...

2019-01-21 10:27:21

阅读数 67

评论数 0

有效说服三部曲(纯干货无废话)

有效说服三部曲 废话不多说,三部曲 第一步:分析说服对象 第二步:选择说服的途径 第三步:其他技巧 1.分析说服对象 1.1 分析说服对象需求,探索对方意向。 从对方的需求中去接近他们,才会有机会进行有效说服。 探索对方真正意向,使之与我们的说服目的相关。才能依照他们意向打动他们。交谈前,想想自己...

2018-12-22 20:03:09

阅读数 311

评论数 0

基于TDH大数据平台安装并上架Sophon可拖拽式人工智能平台

大数据核心原理与实践专栏 先决条件 首先说明一下,Sophon人工智能平台有单独的安装包SophonWeb,可独立部署,部署方式同社区版TDH安装方式一样,极为简单。即当TDH平台部署即可,过程参考先前博文。 但是现在,如果我们生产环境中已经部署好TDH大数据平台,现在又想用Soph...

2018-09-12 14:48:46

阅读数 323

评论数 0

深入理解 Hive 分区分桶 (Inceptor)

大数据核心原理与实践专栏 为何分区分桶 我们知道传统的DBMS系统一般都具有表分区的功能,通过表分区能够在特定的区域检索数据,减少扫描成本,在一定程度上提高查询效率,当然我们还可以通过进一步在分区上建立索引进一步提升查询效率。在此就不赘述了。 在Hive数仓中也有分区分桶的概念,在逻辑上...

2018-08-31 17:36:11

阅读数 2404

评论数 0

SpringBoot 2.x 整合 MyBatis (简单优雅)

创建项目 SPRING INITIALIZR网址,直接创建Maven项目

2018-08-10 11:42:35

阅读数 1461

评论数 2

SpringBoot启动报org.springframework.boot.test.context、org.springframework.test.context.junit4不存在的解决方案

问题描述: org.springframework.boot.test.context does not exist org.springframework.test.context.junit4.SpringJUnit4ClassRunner not exsit SpringBoot启动时...

2018-08-02 13:31:15

阅读数 2812

评论数 0

kafka无法收到flume采集的数据的解决办法

问题重现 在写黑名单那篇博文的时候,我是通过直接copy log日志文件到监控目录下的方式来模拟数据的,在前几次模拟访问日志文件的时候挺正常的,copy进去基本都是秒采集(文件显示直接加了.COMPLETED后缀)。 但到后来再往采集目录下copy log日志文件的时候,待采集目录下的文件并不...

2018-07-23 19:10:54

阅读数 1106

评论数 0

HBase二级索引实践(带你感受二级索引的力量)

 hyper_table之前HBase SQL BulkLoad环节创建的,我们将数据通过BulkLoad方式导入预先分好Region的hyper_table表中。具体参考如下博文: HBase中利用SQL BulkLoad快速导入数据   这里大家只要清楚此表结构即可,结构如下: h...

2018-07-22 16:41:33

阅读数 2164

评论数 0

Sqoop从mysql导入数据至HDFS操作(sqoop初级)

  后面文章打算用flume + kafka + SlipStream流处理结合起来做一个黑名单访问实时监测数据案例,所以就不单独介绍每个组件具体的用法了,直接在实战中让大家直观感受下在生产环境中这些组件是如何配套使用的。由于Sqoop比较独立,所以它的实践还是单独拿出来在本篇博文中讲解好了。 ...

2018-07-22 12:40:31

阅读数 465

评论数 0

HBase系列(三):利用SQL BulkLoad快速导入海量数据

HBase BulkLoad概述 直接用put命令将海量数据导入至HBase会耗费大量时间(HFile合并、Region分割等),而且用原生的put命令导入海量数据,会占用HRegionServer很多资源,HBase集群会变得压力山大,集群基本对外丧失写的能力。 其实HBase中数据以HFi...

2018-07-21 22:23:56

阅读数 798

评论数 0

HBase系列(二):HBase架构及读写流程

本篇博文从分析HBase架构开始,首先从架构中各个组成部分开始,接着从HBase写入过程角度入手,分析HFile的Compaction合并、Region的Split分割过程及触发机制。 架构分析 HBase...

2018-07-20 23:35:27

阅读数 701

评论数 0

HBase和ElasticSearch索引类型及存储位置

本篇博文主要对HyperBase(HBase)、Search(ElasticSearch)的索引类型及具体存储位置进行概要总结,让大家从整体上了解TDH平台中HyperBase和Search索引的管理。后续会在大数据核心原理与实践中对索引相关知识进行详细讲解。 专栏:大数据核心原理与实践 ...

2018-07-20 17:05:23

阅读数 759

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭