自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

little prince,blue coder

人生苦短,去做能让你热血沸腾的事情吧

原创 微信公众号爬虫(综合解决方案)

最终解决方案 通过搜狗微信先检索公众号,获取公众号主页链接,接着爬每一篇具体文章。 一般公司内部会部署自己爬虫平台,通过代理池能最终解决此问题。在没有用代理池遇到验证码反爬措施时,我们自动识别并填写并维护一个cookie池,即能降低验证码出现的频率。 遇到验证码时的理想状态是自动识别,可通过购买现...

2019-05-17 20:39:16 3471 2

原创 Kafka系列(一):kafka核心原理架构心得与实践(精炼)

专栏:大数据核心原理与实践 关于 kafka 的重要性就不再多说了,它不仅解耦了大数据组件之间的耦合性,而且还能对接流实时计算框架,充当其数据源,同时还能能接收大量数据输入,以类似于消息队列的方式组织统一管理。

2018-11-26 23:16:13 1677 2

原创 利用Redis实现异步消息队列优化系统性能 (Redis高级应用)

写在前面 今天把之前在项目中使用 Redis 做异步消息队列的使用经验总结一下。首先明确使用目的,因为项目中,我们进行某个操作后可能后续会有一系列的其他耗时操作,但是我们不希望将主线程阻塞在此过程中,这时便可将其他操作异步化。举个栗子,当你给这篇博客点赞或评论的时候,博客系统会保存你的点赞评论信...

2018-08-18 11:16:32 5882 8

原创 SpringMVC 5.0 请求映射匹配核心源码解读 (SpringMVC 5.x 与 SpringMVC 4.x 对比)

基于最新的SpringMVC 5.x版本,源码中加入大量注释分析,结合文字描述,实时比对新旧版本的区别,细致分析SpringMVC中请求匹配原理。现在讲解SpringMVC的请求匹配原理的博文都是基于SpringMVC 4.x 或者更低的版本,所以如果你之前学习过类似的博文你会对urlMap很熟悉...

2018-07-31 00:03:33 1961 0

原创 搭建TDH商业大数据平台社区版(附其他主流商业大数据平台下载汇总)

大数据核心原理与实践专栏 说明: TDH社区版还挺好用的,无限量续签许可证,如果大家只是想玩玩儿大数据平台,或者刚入行大数据想练手,那么TDH社区版就够用了,避免了你前期安装一系列Hadoop组件的麻烦。 想当年,笔者不知道有一站式大数据平台这玩意儿,还是从配置虚拟机到一个一个开源组件安装...

2018-07-25 13:11:20 5682 7

原创 flume+kafka+slipstream实现黑名单用户访问实时监测

说明 之前说过,关于flume和kafka的实践操作就不单独拿出来讲了,打算用一个案例将两者结合,同流式计算一起在具体案例中讲述。 本篇博文案例背景:用户访问系统会留下一条条访问记录(除了姓名和身份证号外,还包括ip地址、登陆地点、设备等一系列详情信息),在数据库中我们有一份黑名单用户数据(姓...

2018-07-23 11:21:38 866 1

原创 Sqoop全量数据导入、增量数据导入、并发导入 (Sqoop进阶)

Sqoop支持两种方式的全量数据导入和增量数据导入,同时可以指定数据是否以并发形式导入。下面依次来看: 全量数据导入 就像名字起的那样,全量数据导入就是一次性将所有需要导入的数据,从关系型数据库一次性地导入到Hadoop中(可以是HDFS、Hive等)。全量导入形式使用场景为一次性离线...

2018-07-17 20:22:37 21635 5

原创 蚂蚁金服风险大脑-支付风险识别天池大赛 —— 赛后总结

          周末这几天都忙着东奔西跑,比赛也在周末结束了,故现来总结一波。这次报名蚂蚁金服风险大赛主要是为了做个案例,用商业发行版TDH大数据平台社区版+可拖拽式快速人工智能平台Sophon来完成。   数据预处理(编码2分钟+运行5分钟):          上传至HDFS,用分...

2018-07-09 19:12:05 3280 3

原创 kubernetes的pod或instance一直处于pending状态的解决方案

问题复现: 6台虚拟机上,kong组件(一个用于部署api服务的组件)副本数为4,总有一两个instance起不起来,一直处于pending状态,如下: 解决思路: 整体解决思路:pod -> instance -> DeamonSet -> ConfigMap ...

2018-06-21 16:10:51 23840 2

原创 团队情绪识别与管理

情商是管理情绪的能力,包括管理他人的情绪(社会能力)和管理自己的情绪(个人能力)。 如何识别他人情绪 善于发现两大线索: 语言线索 人们用语言表达出来的情绪很少,尤其是当一个人说的话与他的非语言信息不一致时,非语言信息更能准确反应其真实情绪。我们要关注他们说话的方式,而不是内容。 非语言线...

2019-11-30 22:48:00 151 0

原创 横向沟通及管理

横向沟通 横向,即指的是面向的对象是平级的同事或非直接下属,要把信息有效地传达给对方,这种类型的沟通比纵向沟通要困难一些,为何呢? 1、团队成员间的利益冲突。 2、管理者缺乏权利支持。 3、团队成员高估自己部门的价值。 4、团队成员自恃有理,觉得自己说的都对,都有道理,觉得沟通没有意义。 需要具备...

2019-11-30 21:01:19 273 0

原创 阿尔卑斯山时间规划法精髓(提高工作效率)

非常有效的提高每日工作效率的方法——阿尔卑斯山时间规划法。 这玩意是时间管理大师罗塔尔.丁.塞维特《把时间花在刀刃上》一书中提出。 本文适用于:平时觉得自己工作效率低,没节奏,老是不由自主的加班的孩纸。 利用阿尔卑斯山法制定每日计划 1. 列出任务 不要想到什么些什么,因为这样会遗漏任务。我们可以...

2019-01-21 10:27:21 2017 0

原创 有效说服三部曲(纯干货无废话)

有效说服三部曲 废话不多说,三部曲 第一步:分析说服对象 第二步:选择说服的途径 第三步:其他技巧 1.分析说服对象 1.1 分析说服对象需求,探索对方意向。 从对方的需求中去接近他们,才会有机会进行有效说服。 探索对方真正意向,使之与我们的说服目的相关。才能依照他们意向打动他们。交谈前,想想自己...

2018-12-22 20:03:09 982 0

原创 基于TDH大数据平台安装并上架Sophon可拖拽式人工智能平台

大数据核心原理与实践专栏 先决条件 首先说明一下,Sophon人工智能平台有单独的安装包SophonWeb,可独立部署,部署方式同社区版TDH安装方式一样,极为简单。即当TDH平台部署即可,过程参考先前博文。 但是现在,如果我们生产环境中已经部署好TDH大数据平台,现在又想用Soph...

2018-09-12 14:48:46 1687 0

原创 深入理解 Hive 分区分桶 (Inceptor)

大数据核心原理与实践专栏 为何分区分桶 我们知道传统的DBMS系统一般都具有表分区的功能,通过表分区能够在特定的区域检索数据,减少扫描成本,在一定程度上提高查询效率,当然我们还可以通过进一步在分区上建立索引进一步提升查询效率。在此就不赘述了。 在Hive数仓中也有分区分桶的概念,在逻辑上...

2018-08-31 17:36:11 14781 2

原创 SpringBoot 2.x 整合 MyBatis (简单优雅)

创建项目 SPRING INITIALIZR网址,直接创建Maven项目

2018-08-10 11:42:35 4088 2

原创 SpringBoot启动报org.springframework.boot.test.context、org.springframework.test.context.junit4不存在的解决方案

问题描述: org.springframework.boot.test.context does not exist org.springframework.test.context.junit4.SpringJUnit4ClassRunner not exsit SpringBoot启动时...

2018-08-02 13:31:15 14084 2

原创 kafka无法收到flume采集的数据的解决办法

问题重现 在写黑名单那篇博文的时候,我是通过直接copy log日志文件到监控目录下的方式来模拟数据的,在前几次模拟访问日志文件的时候挺正常的,copy进去基本都是秒采集(文件显示直接加了.COMPLETED后缀)。 但到后来再往采集目录下copy log日志文件的时候,待采集目录下的文件并不...

2018-07-23 19:10:54 3309 0

原创 HBase二级索引实践(带你感受二级索引的力量)

 hyper_table之前HBase SQL BulkLoad环节创建的,我们将数据通过BulkLoad方式导入预先分好Region的hyper_table表中。具体参考如下博文: HBase中利用SQL BulkLoad快速导入数据   这里大家只要清楚此表结构即可,结构如下: h...

2018-07-22 16:41:33 11350 6

原创 Sqoop从mysql导入数据至HDFS操作(sqoop初级)

  后面文章打算用flume + kafka + SlipStream流处理结合起来做一个黑名单访问实时监测数据案例,所以就不单独介绍每个组件具体的用法了,直接在实战中让大家直观感受下在生产环境中这些组件是如何配套使用的。由于Sqoop比较独立,所以它的实践还是单独拿出来在本篇博文中讲解好了。 ...

2018-07-22 12:40:31 6493 0

原创 HBase系列(三):利用SQL BulkLoad快速导入海量数据

HBase BulkLoad概述 直接用put命令将海量数据导入至HBase会耗费大量时间(HFile合并、Region分割等),而且用原生的put命令导入海量数据,会占用HRegionServer很多资源,HBase集群会变得压力山大,集群基本对外丧失写的能力。 其实HBase中数据以HFi...

2018-07-21 22:23:56 2966 3

原创 HBase系列(二):HBase架构及读写流程

本篇博文从分析HBase架构开始,首先从架构中各个组成部分开始,接着从HBase写入过程角度入手,分析HFile的Compaction合并、Region的Split分割过程及触发机制。 架构分析 HBase...

2018-07-20 23:35:27 8750 1

原创 HBase和ElasticSearch索引类型及存储位置

本篇博文主要对HyperBase(HBase)、Search(ElasticSearch)的索引类型及具体存储位置进行概要总结,让大家从整体上了解TDH平台中HyperBase和Search索引的管理。后续会在大数据核心原理与实践中对索引相关知识进行详细讲解。 专栏:大数据核心原理与实践 ...

2018-07-20 17:05:23 1756 0

原创 HBase系列(一):HBase表结构及数据模型的理解

专栏:大数据核心原理与实践 HBase适用场景 首先在搞HBase之前我们要对其建立感性认识,其适用场景如下: 并发、简单、随机查询。 (注:HBase不太擅长复杂join查询,但可以通过二级索引即全局索引的方式来优化性能,后续博文会进行讲解) 半结构化、非结构化数据存储。 一般...

2018-07-18 21:55:18 9902 6

原创 YARN提交任务作业(以wordcount样例程序为例)

前提 已经搭建好Hadoop环境。 向YARN提交wordcount任务 1、首先在HDFS创建输入文件目录,并将待处理的wordcount文件传入相应的输入文件目录。 # 创建输入文件目录 hadoop fs -mkdir -p /tmp/jbw/wordcount_input_...

2018-07-17 11:02:46 3712 0

原创 HDFS读写流程(史上最精炼详细)

概述 开始之前先看看其基本属性,HDFS(Hadoop Distributed File System)是GFS的开源实现。 特点如下: 能够运行在廉价机器上,硬件出错常态,需要具备高容错性 流式数据访问,而不是随机读写 面向大规模数据集,能够进行批处理、能够横向扩展 简单一致性模型,假定...

2018-07-16 23:32:13 29141 21

原创 kubernetes核心对象 —— kubernetes实用随笔(三)

系列文章: kubernetes和Docker —— kubernetes实用随笔(一) 最常用的kubectl命令(附带场景和截图) —— kubernetes实用随笔(二) kubernetes核心对象 —— kubernetes实用随笔(三) 这篇开始就主要对kuber...

2018-07-15 21:29:13 1928 0

转载 markdown使用说明

欢迎使用Markdown编辑器写博客 本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦: Markdown和扩展Markdown简洁的语法 代码块高亮 图片链接和图片上传 LaTex数学公式 UML序列图和流程图 离线写博客 导入导出Markdown文...

2018-07-13 16:24:11 138 0

原创 linux下配置磁盘池可能出现的问题及解决办法

总体流程: 初始化擦除磁盘 -> 建立磁盘池配置文件 -> warpdrive挂磁盘池   具体步骤: 1、准备两块磁盘(如dev/sdb1、dev/sdc1),用wipefs命令擦除磁盘。 wipefs -a /dev/sdb1 wipefs -a /de...

2018-07-12 20:07:21 1573 0

原创 风险大脑-支付风险识别天池大赛(五)处理模型输出并提交结果、“榜上有名”

Ps:若不参加比赛的同志们可忽略此篇。官方大赛提交要求:模型得到的结果:        随机森林以及其他分类算法模型会输出当前的预测值和结果为此值的概率。如下所示:        假定这里我们规定正样本为0(即无风险的支付行为),负样本为1(即有风险的支付行为)。第一个概率表示预测结果为正样本的概...

2018-07-09 18:44:32 708 0

原创 风险大脑-支付风险识别天池大赛(番外篇)trick思路

  默认无标签的都是黑样本。        因为案例背景中有说道,因为风控系统会基于对交易的风险判断而失败掉很多高危交易,这些交易因为被失败了往往没有了标签,而这部分数据又极其重要。所以这里我们可以相信既然系统都判断你是高危交易了,我就直接认为你是风险交易好了。相信蚂蚁金服线上风险评估系统,没毛病...

2018-07-05 16:46:08 921 0

转载 深入理解Java内存模型

网上有很多关于Java内存模型的文章,在《深入理解Java虚拟机》和《Java并发编程的艺术》等书中也都有关于这个知识点的介绍。但是,很多人读完之后还是搞不清楚,甚至有的人说自己更懵了。本文,就来整体的介绍一下Java内存模型,目的很简单,让你读完本文以后,就知道到底Java内存模型是什么,为什么...

2018-07-04 19:09:18 86 0

转载 JVM内存结构、内存模型、对象模型

看到一篇好文章,收下了:Java作为一种面向对象的,跨平台语言,其对象、内存等一直是比较难的知识点。而且很多概念的名称看起来又那么相似,很多人会傻傻分不清楚。比如本文我们要讨论的JVM内存结构、Java内存模型和Java对象模型,这就是三个截然不同的概念,但是很多人容易弄混。可以这样说,很多高级开...

2018-07-04 19:07:09 165 0

转载 从微信入手 —— 学习产品经理设计思路(实用版)

一、微信的演化历程:2010年11月19日23时58分,张小龙在腾讯微博上写下了这么一句话:我对iPhone5的唯一期待是,像iPad(3G)一样,不支持电话功能。这样,我少了电话费,但你可以用kik跟我短信,用googlevoice跟我通话,用facetime跟我视频。第二天,2010年11月2...

2018-07-04 16:50:36 869 0

原创 风险大脑-支付风险识别天池大赛(四)处理无标签数据、建立完整模型

        上一篇博客讲了利用随机森林模型,在有标签的交易数据基础上建立模型,并简要讲了随机森林一些参数的调优,这篇将会对无标签数据进行处理,并与原训练数据合并送入随机森林模型学习,得到最终模型。并会将测试数据接入,得到最终结果,并写入数据库。        本次大赛,整体思路流程图如下:处理...

2018-07-04 11:13:52 848 0

原创 风险大脑-支付风险识别天池大赛(三)快速建立模型(含调参思路)

         这一节开始建立模型,在建模之前,我们先梳理一下思路:   思路:   1、首先选出只带标签的数据(有风险和无风险的),进行分析,建立一个 recall rate 风险交易召回率较高的二分类模型。 2、接着在无标签的数据上应用此模型,打上标签,并与之前有标签的数据进行合...

2018-07-03 16:04:30 1249 0

原创 关于生死的思考 —— AI人死也能复生了

本文出处:https://blog.csdn.net/whdxjbw/article/details/80870511 原文链接:关于生死的思考 —— AI人死也能复生了   这几天连不上VPN,没办法干活,所以就和大家聊聊前几周印象较深的数字复活这件事吧。   到底怎样才算活着?  ...

2018-06-30 23:21:22 330 0

原创 风险大脑-支付风险识别天池大赛(二)数据存储及检查

         本次想把过程写的详细些,所以本节和上一节讲了如何充分利用大数据平台处理数据,如何利用最有效的工具进行数据存储、处理、分析。另外这次准备用Inceptor(分布式SQL引擎,可以理解为Hive数仓)、Sophon、R语言来完成。        在下一节,我会将建模过程思路和大家分享...

2018-06-28 17:56:29 930 0

原创 风险大脑-支付风险识别天池大赛(一)数据预处理

        大赛提供的所有数据信息是包含在引号里面的(“xxxx”),这样在后续输入模型使用数据前需要做字符串索引。但由于数据量也比较大(将近100万条数据),字符串索引算子会异常慢(被坑回来补上这篇博客),所以这里直接将引号去除,便于后续直接以Double数值类型导入到Inceptor(hi...

2018-06-28 15:47:42 1692 11

原创 最常用的kubectl命令(附带场景和截图) —— kubernetes实用随笔(二)

系列文章: kubernetes和Docker —— kubernetes实用随笔(一) 最常用的kubectl命令(附带场景和截图) —— kubernetes实用随笔(二) kubernetes核心对象 —— kubernetes实用随笔(三) 上几篇博客主要介绍了k8s核心...

2018-06-27 13:09:11 15728 2

提示
确定要删除当前文章?
取消 删除