久七年-CSDN博客

原创 scala调用接口

scaca post请求调用http接口返回json数据package xmadx.statisticsimport java.nio.charset.StandardCharsetsimport java.utilimport com.alibaba.fastjson.{JSON, JSONObject}import org.apache.commons.httpclient.me...

2020-04-17 14:06:16 1250

DataFrame与RDD上面的图直观的提现了dataFrame和Rdd的区别，左侧的RDD虽然Person为类型参数，但Spark框架本身不了解Person类的内部结构。而右侧的DataFrame却提供了详细的结构信息，使得Spark SQL可以清楚地知道该数据集中包含哪些列，每列的名称和类型各是什么。DataFrame多了数据的结构信息，即schema。RDD是分布式的Java对象的集合。...

2020-04-11 11:29:38 206

原创 HBase优化策略

HBase优化策略1. 解决热点效应预分区在创建表时，不按照默认的策略，为表只创建一个Region,而是根据需要，为一张表创建多个Region,从而避免热点效应预分区的依据基于Rowkey进行预分区语法：3.1 create ‘t1’, ‘f1’, SPLITS => [‘10’, ‘20’, ‘30’, ‘40’]3.2 create ‘t1’, ‘f1’, SPLI...

2020-04-07 11:43:46 172

原创 redis无格式操作

Redis使用手册一、NoSql简介NoSQL(NoSQL = Not Only SQL )，意即“不仅仅是SQL”, 泛指非关系型的数据库Nosql这个技术门类,早期就有人提出,发展至2009年趋势越发高涨。二、为什么会出现Nosql这个技术门类随着互联网web2.0网站的兴起，传统的关系数据库在应付web2.0网站，特别是超大规模和高并发的web2.0纯动态网站已经显得力不从心，暴露...

2019-08-23 09:54:01 286

原创 ELK 栈

ELK 栈：

2019-07-29 17:51:01 274

原创 ElasticSearch 全文检索

ElasticSearch简称ES，基于Lucene全文检索引擎服务，支持分布式集群（数据横向扩展，分布式计算）什么是全文检索:全文检索是计算机程序通过扫描文章中的每一个词，对每一个词建立一个索引，指明该词在文章中出现的次数和位置。当用户查询时根据建立的索引查找，类似于通过字典的检索字表查字的过程。全文检索（Full-Text Retrieval(检索)）以文本作为检索对象，找出含有指...

2019-07-29 15:00:13 621

原创 Kafka面试总结

Kafka面试现在，消息中间件种类繁多，而且各种大厂的也逐渐开源了，每个企业都开始二次加工自己的消息中间件以满足自己的内部需求。其实，无论什么系统，框架，最值钱的就是为了保存和应用数据，保存各种数据以应付后期的调优，统计使用等。现在由于都是出于高并发环境下，由于来不及同步处理，请求往往会发生堵塞，比如说，大量的insert，update之类的请求同时到达Mysql，直接导致无数的行锁表锁，甚至最...

2019-07-23 14:06:40 165

原创 Spring Cloud Hystrix：断路器

Hystrix是一个延迟和容错库，旨在隔离对远程系统，服务和第三方库的访问点，停止级联故障，并在复杂的分布式系统中实现弹性，在这些系统中，故障是不可避免的。引入以下依赖<dependency> <groupId>org.springframework.cloud</groupId> <artifactId>spring-cloud-star...

2019-07-23 14:02:36 100

原创 Kafka Stream 微服务领域流处理

流计算定义一般流计算会与批量计算相比较。在流式计算模型中，输入是持续的，可以认为在时间上是无界的，也就意味着，永远拿不到全量数据去计算。同时，计算结果是持续输出的，也即计算结果在时间上也是无界的。流式计算一般对实时性要求较高，同时一般是先定义目标计算，然后数据到来之后将计算逻辑应用于数据。同时为了提高计算效率，往往尽可能采用增量计算代替全量计算。批量处理模型中，一般先有全量数据集，然后定义计算逻...

2019-07-03 20:24:26 3224

转载 Spark Streaming

Spark Streaming Quick Start概念介绍初始化 StreamingContextAdvance Source KafkaSpark Streaming是核心Spark API的扩展，可实现实时数据流的可扩展，高吞吐量，容错流处理。数据可以从许多来源（如Kafka，Flume，Kinesis或TCP套接字）中获取，并且可以使用以高级函数（如map，reduce，join和wi...

2019-07-03 17:25:15 182 1

zwzzwz11的博客