发咪-CSDN博客

原创压测工具hive-testbench使用

压测工具准备使用当中遇到130命令太长的问题，修了代码解决问题编译生成数据产生jar包在KaTeX parse error: Expected 'EOF', got '#' at position 314: …户端建库建表。所以有以下修改{SCALE}{SCALE}这个可根据产生数据的规模确定scale，format默认为orc由于我们的xitong账号没有建库的权限，所以先用超级账号work建库3 删除所有的建库sql修改配置。

2024-04-11 10:48:29 633 1

原创 Delta Lake 数据湖简单介绍

Delta Lake 介绍一Delta Lake概念Delta Lake 是一个存储层，为 Apache Spark 和大数据 workloads 提供 ACID 事务能力，其通过写和快照隔离之间的乐观并发控制（optimistic concurrency control），在写入数据期间提供一致性的读取，从而为构建在 HDFS 和云存储上的数据湖（data lakes）带来可靠性。Delta Lake 还提供内置数据版本控制，以便轻松回滚。支持ACID事务Delta Lake 在多并发写入

2020-05-19 14:39:24 1719 1

原创 Redis

Redis 简介Redis 是完全开源免费的，遵守 BSD 协议，是一个高性能的 key - value 数据库Redis 与其他 key - value 缓存产品有以下三个特点：Redis 支持数据持久化，可以将内存中的数据保存在磁盘中，重启的时候可以再次加载进行使用。 Redis 不仅仅支持简单的 key - value 类型的数据，同时还提供 list，set，zset，h...

2019-09-18 21:05:43 250

原创 Hadoop---MapReduce

MapReduce1. 概述 (1)：MapReduce是一种分布式计算模型 (2)：有谷歌提出来的，基于GFS进行设计，主要用于搜索领域中解决海量数据的计算问题 (3)：MapReduce是由两个阶段组成：Map和Reduce，用户只需要实现map以及reduce两个函数，，既可以实现分布式计算，这样做的目的是简化...

2019-08-29 15:43:47 261

原创 Hadoop中MapReduce的细节

一、数据本地化策略当JobTracker访问资源的时候需要向NameNode请求数据 JobTracker获取到数据的描述信息，根据描述信息对数据进行了切片（InputSplit），然后将切片发给不同Mapper来执行 MapTask在TaskTracker上执行，在执行的时候需要获取实际的数据 TaskTracker需要去访问DataNode，为了节省带宽资源，所以往往将DataNod...

2019-08-26 21:22:09 229

原创 Linux

1.ls[选项] [目录名 | 列出相关目录下的所有目录和文件比较常用的就是：ll-a 列出包括.a开头的隐藏文件的所有文件-A 通-a，但不列出"."和".."-l 列出文件的详细信息-c 根据ctime排序显示-t 根据文件修改时间排序---color[=WHEN] 用色彩辨别文件类型 WHEN 可以是'never'、'always'或'auto'其中之...

2019-08-22 21:47:25 180

原创 Spring框架

Spring框架概述前言所谓的框架其实就是程序的架子，在这个程序的架子中，搭建起程序的基本的骨架，针对程序的通用问题给出了便捷的解决方案，可以使开发人员基于框架快速开发具体的应用程序。常见的框架： SSH框架： Struts2、Spring、Hibernate Struts2配置太过于复杂，而且不太...

2019-08-21 21:01:27 123

原创 elasticsearch

elasticsearch(前言)：lucene不便之处： ①：不能直接指出分布式存储 luence创建索引时，只能将索引文件保存在同一个服务器的同一个文件夹中，如果想要实现数据的切片分布式存储需要实现类似分布式文件系统的逻辑（分片切片，分片备份，分片数据信息记录） ②：对非java开发人员不友好 luence原生...

2019-08-21 19:52:04 138

原创 Hadoop--HDFS

Hadoop简介一、概述Hadoop是Apache提供的一套开源的、可靠的、可扩展（可伸缩）的、用于分布式计算的框架 Apache Hadoop对版本的管理的控制是非常混乱的二、发展历程创始人：Doug Cutting和Mike Caferalla 在2002年，Doug和Mike想设计一套搜索引擎Nutch，爬取了全网的10亿个网页的数据在2003年，Google发表了...

2019-08-20 15:07:23 348

原创全文检索

全文检索全文检索的概念索引文件是全文检索系统的主要构成部分(全文检索技术就是围绕着索引文件展开)。索引文件中的数据是有结构的,可以对文本数据做词,字,句,段的解析.索引文件是海量数据.搜索引擎的结构（搜索系统）信息采集:收集数据源的所有源数据进行大数据的存储工作信息整理:源数据海量非结构化(网页),要经过整理的过程输出封装成(索引文件) 搜索服务:应用系统,提供...

2019-08-20 14:29:34 616

原创 NIO（同步、非阻塞IO）

（补充）关键词同步和异步同步是一种可靠的有序运行机制，当我们进行同步操作时，后续的任务是等待当前调用返回，才会进行下一步；而异步则相反，其他任务不需要等待当前调用返回，通常依靠事件、回调等机制来实现任务间次序关系阻塞与非阻塞在进行阻塞操作时，当前线程会处于阻塞状态，无法从事其他任务，只有当条件就绪才能继续，比如ServerSocket...

2019-08-19 22:13:19 369

原创 AVRO

AVROAVRO是Apache提供的一套用于序列化和RPC的机制 AVRO早起为Hadoop设计的一套序列化系统，后来把AVRO独立出来了序列化序列化的目的：数据的存储和传输序列化的衡量标准： a：序列化的时间以及占用的CPU b：序列化之后产生的数据量 c：序列化机制能否跨平台跨语言 3. A...

2019-08-19 16:12:21 135

原创 Zookeeper

Zookeeper概述Zookeeper本身是一个树状结构 - Znode树根节点是/ 每一个子节点称之为是Znode节点在Zookeeper中，每一个子节点都必须存储数据，这个数据往往是对这个节点的描述所有节点的路径都必须从根节点开始计算任意一个持久节点下都可以挂载子节点 Znode树维系在内存以及磁盘中 - 在磁盘中的存储位置由dataDir决定维系在内存中的目...

2019-08-19 14:33:22 150

原创 Concurrent（应对高并发的基础包）

BlockingQueue框架知识梳理概述本质是队列，满足队列的原则(FIFO) 所有的阻塞式队列都是有界的 - 当队列定义好之后，大小就不可变阻塞：当队列已满的时候，再试图放入的线程会被阻塞；当队列为空的时候，再试图拿去的线程会被阻塞要求队列中的元素必须非空方法抛出异常返回值阻塞 ...

2019-08-17 19:52:02 219

wyf_IT的博客