自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 scala调用接口

scaca post请求调用http接口返回json数据 package xmadx.statistics import java.nio.charset.StandardCharsets import java.util import com.alibaba.fastjson.{JSON, JSONObject} import org.apache.commons.httpclient.me...

2020-04-17 14:06:16 24

原创 spark 1.X中的DataFrame和RDD

DataFrame与RDD 上面的图直观的提现了dataFrame和Rdd的区别,左侧的RDD虽然Person为类型参数,但Spark框架本身不了解Person类的内部结构。而右侧的DataFrame却提供了详细的结构信息,使得Spark SQL可以清楚地知道该数据集中包含哪些列,每列的名称和类型各是什么。DataFrame多了数据的结构信息,即schema。RDD是分布式的Java对象的集合。...

2020-04-11 11:29:38 57

原创 HBase优化策略

HBase优化策略 1. 解决热点效应 预分区 在创建表时,不按照默认的策略,为表只创建一个Region,而是根据需要,为一张表创建多个Region,从而避免热 点效应 预分区的依据 基于Rowkey进行预分区 语法: 3.1 create ‘t1’, ‘f1’, SPLITS => [‘10’, ‘20’, ‘30’, ‘40’] 3.2 create ‘t1’, ‘f1’, SPLI...

2020-04-07 11:43:46 34

原创 redis无格式操作

Redis使用手册 一、NoSql简介 NoSQL(NoSQL = Not Only SQL ),意即“不仅仅是SQL”, 泛指非关系型的数据库 Nosql这个技术门类,早期就有人提出,发展至2009年趋势越发高涨。 二、为什么会出现Nosql这个技术门类 随着互联网web2.0网站的兴起,传统的关系数据库在应付web2.0网站,特别是超大规模和高并发的web2.0纯动态网站已经显得力不从心,暴露...

2019-08-23 09:54:01 150

原创 ELK 栈

ELK 栈:

2019-07-29 17:51:01 83

原创 ElasticSearch 全文检索

ElasticSearch 简称ES,基于Lucene全文检索引擎服务,支持分布式集群(数据横向扩展,分布式计算) 什么是全文检索: 全文检索是计算机程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置。当用户查询时根据建立的索引查找,类似于通过字典的检索字表查字的过程。 全文检索(Full-Text Retrieval(检索))以文本作为检索对象,找出含有指...

2019-07-29 15:00:13 51

原创 Kafka面试总结

Kafka面试 现在,消息中间件种类繁多,而且各种大厂的也逐渐开源了,每个企业都开始二次加工自己的消息中间件以满足自己的内部需求。其实,无论什么系统,框架,最值钱的就是为了保存和应用数据,保存各种数据以应付后期的调优,统计使用等。现在由于都是出于高并发环境下,由于来不及同步处理,请求往往会发生堵塞,比如说,大量的insert,update之类的请求同时到达Mysql,直接导致无数的行锁表锁,甚至最...

2019-07-23 14:06:40 56

原创 Spring Cloud Hystrix:断路器

Hystrix是一个延迟和容错库,旨在隔离对远程系统,服务和第三方库的访问点,停止级联故障,并在复杂的分布式系统中实现弹性,在这些系统中,故障是不可避免的。 引入以下依赖 <dependency> <groupId>org.springframework.cloud</groupId> <artifactId>spring-cloud-star...

2019-07-23 14:02:36 44

原创 Kafka Stream 微服务领域流处理

流计算定义 一般流计算会与批量计算相比较。在流式计算模型中,输入是持续的,可以认为在时间上是无界的,也就意味着,永远拿不到全量数据去计算。同时,计算结果是持续输出的,也即计算结果在时间上也是无界的。流式计算一般对实时性要求较高,同时一般是先定义目标计算,然后数据到来之后将计算逻辑应用于数据。同时为了提高计算效率,往往尽可能采用增量计算代替全量计算。批量处理模型中,一般先有全量数据集,然后定义计算逻...

2019-07-03 20:24:26 1132

转载 Spark Streaming

Spark Streaming Quick Start概念介绍初始化 StreamingContextAdvance Source Kafka Spark Streaming是核心Spark API的扩展,可实现实时数据流的可扩展,高吞吐量,容错流处理。数据可以从许多来源(如Kafka,Flume,Kinesis或TCP套接字)中获取,并且可以使用以高级函数(如map,reduce,join和wi...

2019-07-03 17:25:15 33 1

空空如也

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除