进击的-小胖子-CSDN博客

原创 Spark优化最全解析

Spark 优化资源调优在部署spark集群中指定资源分配的默认参数在spark安装包的conf下spark-env.sh文件SPARK_WORKER_CORESSPARK_WORKER_MEMORYSPARK_WORKER_INSTANCES #每台机器启动worker数在提交Application的时候给当前的Application分配更多的资源提交命令选项：（在提交Application的时候使用选项）--executor-cores--executor-memory--tot

2021-12-14 17:22:20 2280

原创大数据之Hadoop的读写流程与2.X架构

Hadoop读写流程与2.X架构安全模式集群启动时的一个状态，处于安全模式的状态下，只向客户端提供文件的只读视图HDFS的权限HDFS对权限的控制只能防止好人做错事不能防止坏人做坏事你告诉他你是谁，他就认为你是谁！机架感知策略我们需要将副本放在不同的DN节点上，节点也需要一定的考量可靠性、可用性、带宽消耗第一个节点集群内部（优先考虑和客户端相同节点作为第一个节点）集群外部（选择资源丰富且不繁忙的节点为第一个节点）第二个节点选择和第一个节点不同机架的其他节点第三

2021-12-11 14:32:52 3518 16

原创 HBase的读写流程

HBase读写流程公共流程(三层索引)HBase中单表的数据量通常可以达到TB级或PB级，但大多数情况下数据读取可以做到毫秒级。HBase是如何做到的呢？要想实现表中数据的快速访问，通用的做法是数据保持有序并尽可能的将数据保存在内存里。HBase也是这样实现的。对于海量级的数据，首先要解决存储的问题。数据存储上，HBase将表切分成小一点的数据单位region，托管到RegionServer上，和以前关系数据库分区表类似。但比关系数据库分区、分库易用。这一点在数据访问上，HBase对用户是透

2021-12-21 10:20:20 404

原创 Hbase的数据切分

Hbase数据切分通过切分，一个region变为两个近似相同大小的子region，再通过balance机制均衡到不同 regionserver上，使系统资源使用更加均衡。切分原因数据分布不均匀同一 region server 上数据文件越来越大，读请求也会越来越多。一旦所有的请求都落在同一个 region server 上，尤其是很多热点数据，必然会导致很严重的性能问题。compaction性能损耗严重compaction本质上是一个排序合并的操作，合并操作需要占用大量内存，因此文

2021-12-21 09:42:05 1408

原创 Hbase的数据合并

Hbase数据合并合并分类HBase 根据合并规模将 Compaction 分为了两类：MinorCompaction 和 MajorCompactionMinor Compaction是指选取一些小的、相邻的StoreFile将他们合并成一个更大的StoreFile，在这个过程中不会处理已经Deleted或Expired的Cell但是会处理超过TTL的数据一次Minor Compaction的结果是让小的storefile变的更少并且产生更大的StoreFile。Major Co

2021-12-21 09:37:58 2239

原创 Hbase的数据刷写

Hbase数据刷写触发时机Region 中所有 MemStore 占用的内存超过相关阈值hbase.hregion.memstore.flush.size 参数控制，默认为128MB如果我们的数据增加得很快，达到了 hbase.hregion.memstore.flush.size * hbase.hregion.memstore.block.multiplier的大小，hbase.hregion.memstore.block.multiplier 默认值为4，也就是128*4=512M

2021-12-21 09:34:44 1431

原创 HDFS的读写流程

HDFS的读写流程HDFS写数据流程写数据就是将客户端的数据上传到HDFS宏观流程客户端向HDFS发送写数据请求hdfs dfs -put tomcat.tar.gz /yjx/filesystem通过rpc调用namenode的create方法nn首先检查是否有足够的空间权限等条件创建这个文件,或者这个路径是否已经存在，权限有：NN会针对这个文件创建一个空的Entry对象,并返回成功状态给DFS没有：直接抛出对应的异常，给予客户端错误提示信息DFS如果接收到

2021-12-21 08:42:54 226

原创 Hadoop入门

Hadoop入门分布式文件系统架构文件切分思想文件存放在一个磁盘上效率肯定是低的读取效率低如果文件特别大会超出单机的存储范围字节数组文件在磁盘真实存储文件的抽象概念数组可以进行拆分和组装，源文件不会受到影响切分数据对字节数组进行切分拼接数据按照数组的偏移量将数据连接到一起,将字节数组链接到一起偏移量当前数据在数组中的相对位置，你可以理解为下标数组都有对应的索引(下标),可以快速的定位数据数据存储的原理不管文件的的大小，所有的文

2021-12-11 14:31:57 399 1

原创 MapReduce

MapReduce详解MapReduce设计理念map–>映射(key value)reduce–>归纳mapreduce必须构建在hdfs之上一种大数据离线计算框架在线：实时数据处理离线：数据处理时效性没有在线那么强，但是相对也需要很快得到结果mapreduce不会马上得到结果,他会有一定的延时如果数据量小,使用mapreduce反而不合适杀鸡用牛刀原始数据–>map(Key,Value)–>Reduce分布式计算将大的数据切分成多个小数据，交给更

2021-12-11 14:27:40 983 1

原创 Hive数据仓库工具

HiveHive基本概念Hive简介什么是Hive将SQL转换为MapReduce的任务的工具，甚至更近一步可以说hive就是一个MapReduce客户端本质是将SQL转换为MapReduce的任务进行运算，底层由HDFS来提供数据存储为什么要使用Hive直接使用hadoop1）人员学习成本太高2）项目要求周期太短3）MapReduce实现复杂查询逻辑开发难度太大使用Hive1）操作接口采用类SQL语法，提供快速开发能力2）免去了写MapReduce，减少

2021-12-11 14:27:00 873 2

原创数据仓库Data Warehouse总结

数据仓库Data Warehouse数据处理方式OLTP全称是On-line Transaction Processing联机事务处理专注于事务，crud操作OLAP称是 On-line Analytical Processing中文名称是联机分析处理专注查询和分析OLAP基本操作上卷:roll-up drill-up通过一个维的概念分层向上攀升或者通过维归约在数据立方体上进行聚集。比如城市统计数据维度到省级统计数据维度。下钻:drill-down

2021-12-11 14:24:37 1148

原创 HBase大数据分布式数据库

HBaseHBase介绍简介是一个高可靠性、高性能、面向列、可伸缩、实时读写的分布式数据库利用Hadoop HDFS作为其文件存储系统利用Zookeeper作为其分布式协同服务主要用来存储非结构化和半结构化的松散数据（列存 NoSQL 数据库）优点容量大单表可以有百亿行、百万列面向列数据在表中是按照某列存储的，这样在查询只需要少数几个字段的时候，能大大减少读取的数量多版本每一个列的数据存储有多个Version稀疏性为空的列并不占用存储空间，表可以

2021-12-11 14:23:25 1305

原创 Flume大数据日志拉取

FlumeFlume简介Flume概述Flume是一个分布式、可靠、和高可用的海量日志聚合的系统，支持在系统中定制各类数据发送方，用于收集数据同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力Flume使用场景线上数据一般主要是落地（存储到磁盘）或者通过socket传输给另外一个系统Flume的体系架构比较核心的组件Client：Client生产数据，运行在一个独立的线程。Event：一个数据单元，消息头和消息体组成。（Events可以是日志记

2021-12-11 14:22:20 661 1

原创大数据中间件之Ganglia

Ganglia3.7.2简介开源集群监视项目，设计用于测量数以千计的节点主要是用来监控系统性能工作组件Gmond是一个守护进程，他运行在每一个需要监测的节点上，收集监测统计，发送和接受在同一个组播或单播通道上的统计信息Gmetad也是一个守护进程，他定期检查gmonds，从那里拉取数据，并将他们的指标存储在RRD存储引擎中Ganglia-web顾名思义，他应该安装在有gmetad运行的机器上，以便读取RRD文件访问集群http://192.168.88.101/gangl

2021-12-11 14:21:07 426

原创大数据中间件之DataX

DataXdataxDataX3.0概览DataX 是一个异构数据源离线同步工具，致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能DataX 3.0六大核心优势可靠的数据质量监控完美解决数据传输个别类型失真问题提供作业全链路的流量、数据量�运行时监控提供脏数据探测丰富的数据转换功能精准的速度控制强劲的同步性能健壮的容错机制极简的使用体验工具对比

2021-12-11 14:20:14 1412

原创大数据中间件之Azkaban

Azkaban介绍Azkaban是在LinkedIn（领英）上创建的用于运行Hadoop作业的批处理工作流作业调度程序Azkaban特征分布式多执行器MySQL重试友好的用户界面有条件的工作流程数据触发高安全性支持插件扩展，从Web UI到作业执行完整的作者管理系统调度工具对比Oozie重量级的任务调度系统，功能全面，但是部署及配置会比较麻烦，从 crontab 到Oozie 上手会有一定难度AzkabanAzkabanAzkaban 是介于 oozie 和

2021-12-11 14:19:21 614

原创大数据之Kafka看这一篇就够了

Kafka异步通信原理观察者模式观察者模式（Observer），又叫发布-订阅模式（Publish/Subscribe）定义对象间一种一对多的依赖关系，使得每当一个对象改变状态，则所有依赖于它的对象都会得到通知并自动更新。一个对象（目标对象）的状态发生改变，所有的依赖对象（观察者对象）都将得到通知。生产者消费者模式传统模式生产者直接将消息传递给指定的消费者耦合性特别高，当生产者或者消费者发生变化，都需要重写业务逻辑生产者消费者模式生产者消费者模式通过一

2021-12-10 20:10:45 1408 2

原创 Storm大数据实时计算框架

StormDAG有向无环图Directed Acyclic Graph（DAG）它由有限个顶点和有向边组成，每条有向边都从一个顶点指向另一个顶点；从任意一个顶点出发都不能通过这些有向边回到原来的顶点。有向无环图就是从一个图中的任何一点出发，不管走过多少个分叉路口，都没有回到原来这个点的可能性条件每个顶点出现且只出现一次若存在一条从顶点 A 到顶点 B 的路径，那么在序列中顶点 A 出现在顶点 B 的前面。计算一个DAG的拓扑关系1→4表示4的入度+1，4是1的邻接点首先将边与

2021-12-10 20:03:02 811 3

原创 ClickHouse极具战斗性的数据库未来可期

ClickHouse软件介绍简介实时数据分析数据库工作速度比传统方法快100-1000倍，ClickHouse 的性能超过了目前市场上可比的面向列的DBMS每秒钟每台服务器每秒处理数亿至十亿多行和数十千兆字节的数据特点开源的列存储数据库管理系统，支持线性扩展，简单方便，高可靠性容错跑分快：比Vertica快5倍，比Hive快279倍，比MySQL快800倍,其可处理的数据级别已达到10亿级别功能多：支持数据统计分析各种场景，支持类SQL查询，异地复制部署优点真正的面向列的DB

2021-12-10 20:00:46 689

原创大数据之Scala

Scala入门简介scala 是一门以 jvm 为运行环境的静态类型编程语言，具备面向对象及函数式编程的特性六大特征Java 和 scala 可以混编类型推测(自动推测类型)并发和分布式（ Actor ）特质，特征(类似 java 中 interfaces 和 abstract 结合)模式匹配（类似 java 中的 switch…case ）高阶函数Scala应用场景kafka ：分布式消息队列，内部代码经常用来处理并发的问题，用s

2021-12-10 19:57:26 1052

原创大数据之Spark

Spark总结

2021-12-10 19:47:58 1356

原创计算机是如何处理加减法的

所有程序最后都会变成一串0和1的二进制机器数，第一位位作为符号位，0代表正数，1代表负数。计算机并不能识别进位，那它是如何处理加减法的呢。这就涉及到计算机的原码、反码和补码了。一、原码、反码、补码的概念1、原码原码是最容易理解被记住的表示，就是第一位为符号位，其余位为真值例：[+1]原 = 00000001[-1]原 = 100000012、反码正数的反码就是其原码，负数的反码就是在原码的基础上符号位不变，其余位取反例：[+1]反 = 00000001[-1]反 = 111

2021-07-21 15:55:41 1001 3

weixin_46074059的博客