逆水行舟如何-CSDN博客

原创 Yarn的三种资源调度器

主要有三种：FIFO，Capacity Scheduler（容量调度器）和Fair Scheduler（公平调度器）。 Hadoop2.7.2默认的资源调度器是Capacity Scheduler。1、FIFOScheduler将所有的Applications放到队列中，先按照作业的优先级高低、再按照到达时间的先后，为每个app分配资源。如果第一个app需要的...

2019-10-29 15:13:40 1806

原创 MapReduce实现Join操作

1、介绍在各种实际业务场景中，按照某个关键字对两份数据进行连接是非常常见的。如果两份数据都比较小，那么可以直接在内存中完成连接。如果是大数据量的呢？显然，在内存中进行连接会发生 OOM。MapReduce 可以用来解决大数据量的链接。 MapReduce 的Join操作主要分两类： MapJoin ...

2019-10-25 16:08:38 754

原创 Wmware启动centos出现黑屏情况解决方法

1、现象 centos未正常关闭，导致用wmware启动centos后，没有任何反应，一直在黑屏中，关不掉2、解决方法1）将VMware Workstation Server 设置为禁用2）删除centos目录下的.lck文件3）重启计算机4）将VMware Workstation Server 设置为自动，并启动...

2019-10-25 14:09:47 2934 3

原创图解HDFS存储原理

1. HDFS写数据原理2. HDFS读数据原理3. HDFS故障类型和其检测方法第二部分：读写故障的处理第三部分：DataNode 故障处理副本布局策略：...

2019-10-23 17:01:18 687

原创深入理解MySQL的事务隔离

1、什么是事务？数据库事务（简称：事务）是数据库管理系统执行过程中的一个逻辑单位，由一个有限的数据库操作构成。要注意一下几点：首先，事务就是要保证一组数据库操作，要么全部成功，要么全部失败在MySQL中，事务是在引擎层实现的并不是所有引擎都支持事务，如MyISAM就不支持，InnoDB就支持2、事务的属性原子性（Atomicity）、一致性（Consi...

2019-10-17 11:21:16 315

原创 Hive如何解析Json数据

1、需求现有原始 json 数据（rating.json）如下：{"movie":"2355","rate":"5","timeStamp":"978824291","uid":"1"}{"movie":"1197","rate":"3","timeStamp":"978302268","uid":"1"}{"movie":"1287","rate":"5","timeStamp":...

2019-09-27 10:01:15 1200 1

原创 mongoDB常用sql操作

1、创建/删除库, 创建/删除集合、数据use dbnamedb.createCollection('test_col')# 查看当前的的数据库> show dbs;admin 0.000GBlocal 0.000GB# 新建/切换库> use qfeduswitched to db qfedu> show dbs;admin 0.000G...

2019-09-24 09:08:12 631

原创 HBase数据压缩方式的介绍与实战

1、HBase数据压缩方式的介绍为了提高HBase存储的利用率，很多HBase使用者会对 HBase 表中的数据进行压缩。目前 HBase 可以支持的压缩方式有 GZ（GZIP）、LZO、LZ4 以及 Snappy。它们之间的区别如下：GZ：用于冷数据压缩，与 Snappy 和 LZO 相比，GZIP 的压缩率更高，但是更消耗 CPU，解压/压缩速度更慢。 Snappy 和 LZ...

2019-09-20 19:29:24 4620 1

原创 idea中将项目上传到github

1、下载并安装git： IDEA版本（IntelliJ IDEA 2018.3.4） https://git-scm.com/downloads2、在IDEA中设置Git，在File-->Setting->Version Control-->Git-->Path to Git executable选择你的git安装后的git....

2019-09-18 19:28:06 263

原创 Flink配置文件详解

我们先来安装路径下的配置文件吧安装目录下主要有 flink-conf.yaml 配置、日志的配置文件、zk 配置、Flink SQL Client 配置。1、Flink-conf.yarml基础配置# jobManager 的IP地址jobmanager.rpc.address: localhost# JobManager 的端口号jobmanager.rpc.p...

2019-08-30 10:25:16 1772

原创 SecureCRT 修改背景、字体配色

1、设置背景颜色设置背景颜色Options => Sessions options => Terminal => Emulation，在 Terminal下拉列表下选择Linux，勾选 ANSI Color。默认的 ANSI Color 的背景颜色是黑色，感觉看久了很不舒服，可以修改背景颜色。options -> global options ->T...

2019-08-30 09:51:57 2132

原创 MapReduce整合HBase

1、HBase 结合 MapReduce 为什么需要用 mapreduce 去访问 hbase 的数据？ ——加快分析速度和扩展分析能力 Mapreduce 访问 hbase 数据作分析一定是在离线分析的场景下应用1.1、HBaseToHDFS 从 hbase 中读取数据，分析之后然后写入 hdfs，代码实现：package com.qyl.mapreduce;...

2019-08-28 08:48:01 389

原创 Hive性能优化的常用方法

1、性能低的原因 hive性能优化时，把HiveQL当做M/R程序来读，即从M/R的运行角度来考虑优化性能，从更底层思考如何优化运算性能，而不仅仅局限于逻辑代码的替换层面。 RAC（Real Application Cluster）真正应用集群就像一辆机动灵活的小货车，响应快；Hadoop就像吞吐量巨大的轮船，启动开销大，如果每次只做小数量的输入输出，利用率将...

2019-08-21 10:51:39 1503

原创 Spark On YARN中client和cluster的区别

1、首先我们来看一下yarn运行时的架构图yarn的运行流程用户向 YARN 中提交应用程序，其中包括 MRAppMaster 程序，启动 MRAppMaster 的命令，用户程序等。 ResourceManager 为该程序分配第一个 Container，并与对应的 NodeManager 通讯，要求它在这个 Container 中启动应用程序 MRAppMaster。 MRA...

2019-08-16 15:34:14 6086 2

原创 Spark 遇到OOM怎么解决

Spark中的OOM问题不外乎以下两种情况map执行中内存溢出 shuffle后内存溢出Spark 内存模型： Spark在一个Executor中的内存分为三块：一块是execution内存，一块是storage内存， ...

2019-08-07 14:59:45 1156

原创 Flink之window函数详解

1、官网:https://ci.apache.org/projects/flink/flink-docs-release-1.7/concepts/programming-model.html#windows （建议大家多看看官网）2、什么是Window Flink 认为 Batch 是 Streaming 的一个特例，所以 Flink 底层引擎是一个流式引擎，...

2019-07-31 10:54:17 862

原创 Spark SQL读取HBase中数据的优化

在项目过程中中，我们会经常使用Spark SQL去查询/分析HBase中的数据，内置的读取数据源使用的是TableInputFormat ，这个TableInputFormat 有一些缺点：一个Task里面只能启动一个Scan取HBase中读取数据； TableInputFormat 中不支持BulkGet 不能享受到Spark SQL内置的catalyst引擎的优化 ...

2019-07-30 19:58:39 1486

原创 Python连接MySQL进行DML操作

1、安装PyMySQL本地：pip install pymysqlAnaconda:conda install pymysql2、插入数据# coding=gbkimport pymysqlfrom pymysql.cursors import DictCursordef insert_data(): #插入数据 course_id = int(inpu...

2019-07-25 16:08:55 389

原创 MySQL存储程序中触发器和存储过程的使用

--最近在项目中总是用到MySQL的触发器和存储过程，为了加深印象，总结下。1、触发器触发器（trigger）：监视某种情况，并触发某种操作，它是提供给程序员和数据分析员来保证数据完整性的一种方法，它是与表事件相关...

2019-07-23 17:18:17 710

配置优化zookeeper.session.timeout默认值：3分钟（180000ms）说明：RegionServer与Zookeeper间的连接超时时间。当超时时间到后，ReigonServer会被Zookeeper从RS集群清单中移除，HMaster收到移除通知后，会对这台server负责的regions重新balance，让其他存活的RegionServer接管.调优：这个timeou...

2019-07-08 15:45:53 681

原创 Vsql命令行命令详解

基本格式：Vsql [连接选项][常规选项] [输入输出选项]1、常规选项：-d DBNAME指定要连接的数据库名称（默认值：“A”）-c COMMAND只运行单个命令（SQL或内部）并退出-f FILENAME从文件执行命令，然后退出-l列出可用的数据库，然后退出-v NAME = VALUE将vsql变量NAME设置为VALUE-...

2019-06-26 11:23:35 5762

原创 Shell常用操作

1、参数 shell语言，采用$0,$1,$2..等方式获取脚本命令行传入的参数，值得注意的是，$0获取到的是脚本路径以及脚本名，后面按顺序获取参数，当参数超过10个时(包括10个)，需要使用${10},${11}....才能获取到参数，但是一般很少会超过10个参数的情况eg:#!/bin/bashecho "脚本$0"echo "第一个参数$1"echo "第二个参数$2"...

2019-06-26 11:04:11 399

原创 Oracle存储过程的使用

最近在项目中需要写存储过程，于是在自己学习了一段时间，总结下，希望对大家学习有些帮助；先上模板：create or replace procedure 要创建的存储过程名称(入参a in varchar2, 出参b out varchar2) is v_sql varchar(1000) ; c varchar2(20...

2019-06-24 16:32:31 481

原创 Kafka中的分区分配（面试点）

“请你简述一下Kafka中的分区分配” 以前在面试中遇到了这个问题，当时不太清楚balabala说了一大堆，现在总结下，希望对大家有用。在Kafka中，分区分配是一个很重要的概念，却往往会被读者忽视，它会影响Kafka整体的性能均衡。当遇到“分区分配”这个字眼的时候，一定要记住有三处地方，分别是生产者发送消息、消费者消费消息和创建主题。虽然这三处的对应操作都可以被...

2019-06-24 11:49:07 1401

原创 Oracle数据库

一、Oracle数据库介绍1、简介 Oracle Database，又名Oracle RDBMS，或简称Oracle。是甲骨文公司的一款关系数据库管理系统，OLTP。详细资料可以参考《Oracle从入门到精通》链接：https://pan.baidu.com/s/1875LUAWCK51Q8Hh7lgWPfA 提取码：1c4f...

2019-06-10 19:05:43 468

原创 Flink状态（State）管理和恢复原理解析

一、状态（State） 1、介绍我们在前面写的word count的例子（上篇博客中有的）,没有包含状态管理。如果一个task在处理过程中挂掉了，那么它在内存中的状态都会丢失，所有的数据都需要重新计算。从容错和消息处理语义上（at last once,exactly once）,从而Flink引入了state和checkpoint。 St...

2019-05-30 14:40:48 4227 2

原创 Perl常用语法

1、Perl的常用函数1、转换日期格式函数my $year_month_day = strftime("%Y%m%d %H:%M:%S",localtime());print "\t\tstart now : '$year_month_day' "."\n";2、判断输入参数的个数if ($ARGV<0){ print "\n"; print "usage...

2019-05-21 17:30:03 700

原创 Anaconda的安装和使用

1、安装下载地址：https://www.anaconda.com/download/下载完直接安装就好注意：添加环境变量2、使用管理虚拟环境接下来我们就可以用anaconda来创建我们一个个独立的python环境了.接下来的例子都是在命令行操作的,请打开你的命令行吧.1、环境命令# 创建一个名为python34的环境，指定Python版本是...

2019-05-17 16:42:54 390

原创 Flink DataStream API 之 DataSource

Flink API的抽象级别1、概述 source是程序的数据源输入，你可以通过StreamExecutionEnvironment.addSource(sourceFunction)来为你的程序添加一个source。 flink提供了大量的已经实现好的source方法，你也可以自定义source 通过实现sourceFunction接口...

2019-05-07 19:04:09 970

原创 Flink版WordCount（Streaming and Batch）

Flink 程序开发步骤1：获得一个执行环境2：加载/创建初始化数据3：指定操作数据的transaction算子4：指定把计算好的数据放在哪5：调用execute()触发执行程序注意：Flink程序是延迟计算的，只有最后调用execute()方法的时候才会真正触发执行程序。延迟计算好处：你可以开发复杂的程序，但是Flink可以将复杂的程序转成一个Plan，将Plan作...

2019-05-06 18:58:15 692

原创 Vertica常用SQL操作

一、查询与修改1、查询--导出表的结构：select export_objects('','app_z.test')--收集统计信息select analyze_statistics('app_z.test')--重置license_sizeselect audit_license_size()--查看licenseselect get-c...

2019-04-29 12:13:30 5527 1

原创 linux 三大剑客之grep

grep1、简介　 grep 是一种强大的文本搜索工具，它能使用正则表达式搜索文本，并把匹配的行打印出来。通常grep有三种版本grep、egrep（等同于grep -E）和fgrep。egrep为扩展的grep，fgrep则为快速grep（固定的字符串来对文本进行搜索，不支持正则表达式的引用但是查询极为快速）。grep是Linux文本处理三剑客之一。2、grep的使用方式...

2019-04-17 16:44:13 357

原创 Flink数据流编程模型

一、抽象级别 Flink提供了不同级别的抽象，以开放流或批处理作业 1、 Stateful Stream Processing : 有状态流它是通过将过程函数（Processing Function）被嵌入到DataStream API中，它允许用户可以自由地处理来自一个或多个数据流的事件，并使用一致的容错的状态。除此之外，用户可以注册事件时...

2019-04-09 19:29:25 419

原创深入理解Flink的核心技术

Flink简介 Flink的核心是一个流式的数据流执行引擎，其针对数据流的分布计算提供了数据分布，数据通信以及容错机制等功能。基于流执行引擎，Flink提供了诸多更高抽象层的API以便用户编写分布式任务：DataSet API:对静态数据进行批操作，将静态数据抽象成分布式的数据集，用户可以方便的采用Flink提供的各种操作符对分布式数据集进行各种操作，支持Java,Sca...

2019-04-01 19:33:33 645

原创常用正则表达式（查询和替换）

^: 匹配一行的开始（匹配行） \s :匹配空白符 [[:blank:]]不会匹配新一行 --例子：匹配空行 ^\s [\x{4e00}-\x{9fa5}]:匹配中文字符（以中文字符为结尾的） .:匹配任意字符 *:匹配0次或多次 --例子：匹配以中文开头和结尾的字符串：[\x{4e00}...

2019-03-21 11:30:46 1936

原创 Vertica数据库介绍

1、简介 Vertica是一款基于列存储的MPP（massively parallel processing）架构的数据库。它可以支持存放多至PB（Petabyte）级别的结构化数据。2、特性1）列式存储 vertica以列格式存储数据，以便在查询时获得最佳性能。相比基于行的存储，列存储可减少磁盘I/O，非常适合读取密集型工作负载2...

2019-02-19 10:05:19 16657 2

原创 Zookeeper原理及使用场景

Zookeeper是Hadoop生态系统中非常重要的组件，它的主要功能是为分布式系统提供一致性协调服务，与之对应的Goole的类似服务叫Chubby。一、Zookeeper基本原理1、数据模式（zookeeper-tree）如图所示，zookeeper数据模型的结构与unix文件系统很类似，整体上可以看作一树，每个节点称为一个znode。每个znode都可以通过...

2019-01-29 17:18:34 656

原创 Hive常用字符串函数

1、字符串函数计算函数：Length语法：length(string A)返回值：int说明：返回字符串A的长度例子：hive> select length('iteblog') from iteblog;72、字符串反转函数：reverse语法: reverse(string A)返回值: string说明：返回字符串A的反转结果例子:hive&...

2019-01-27 10:40:23 2036

原创 Hive的Shell操作

一、Hive的命令行1、Hive支持的一些命令Command Descriptionquit Use quit or exit to leave the interactive shell.set key=value Use this to set value of particular configuration variable. One thing to note here...

2019-01-26 12:38:38 1579

原创 crontab命令使用说明

基本格式 : *　　*　　*　　*　　*　　command 分　时　日　月　周　命令第1列表示分钟1～59 每分钟用*或者 */1表示第2列表示小时1～23（0表示0点）第3列表示日期1～31 第4列表示月份1～12 第5列标识号星期0～6（0表示星期天）第6列要运行的命令 crontab文件的一些例子： 30 21 * * * /usr/local/etc/rc.d/...

2019-01-24 10:26:45 220