- 博客(122)
- 资源 (4)
- 收藏
- 关注
原创 Yarn的三种资源调度器
主要有三种:FIFO,Capacity Scheduler(容量调度器)和Fair Scheduler(公平调度器)。 Hadoop2.7.2默认的资源调度器是Capacity Scheduler。1、FIFOScheduler将所有的Applications放到队列中,先按照作业的优先级高低、再按照到达时间的先后,为每个app分配资源。如果第一个app需要的...
2019-10-29 15:13:40
1806
原创 MapReduce实现Join操作
1、介绍 在各种实际业务场景中,按照某个关键字对两份数据进行连接是非常常见的。如果两份数据都比较小,那么可以直接在内存中完成连接。如果是大数据量的呢?显然,在内存中进行连接会发生 OOM。MapReduce 可以用来解决大数据量的链接。 MapReduce 的Join操作主要分两类: MapJoin ...
2019-10-25 16:08:38
754
原创 Wmware启动centos出现黑屏情况解决方法
1、现象 centos未正常关闭,导致用wmware启动centos后,没有任何反应,一直在黑屏中,关不掉2、解决方法1)将VMware Workstation Server 设置为禁用2)删除centos目录下的.lck文件3)重启计算机4)将VMware Workstation Server 设置为自动,并启动...
2019-10-25 14:09:47
2934
3
原创 图解HDFS存储原理
1. HDFS写数据原理2. HDFS读数据原理3. HDFS故障类型和其检测方法第二部分:读写故障的处理第三部分:DataNode 故障处理副本布局策略:...
2019-10-23 17:01:18
687
原创 深入理解MySQL的事务隔离
1、什么是事务? 数据库事务(简称:事务)是数据库管理系统执行过程中的一个逻辑单位,由一个有限的数据库操作构成。 要注意一下几点:首先,事务就是要保证一组数据库操作,要么全部成功,要么全部失败 在MySQL中,事务是在引擎层实现的 并不是所有引擎都支持事务,如MyISAM就不支持,InnoDB就支持2、事务的属性原子性(Atomicity)、一致性(Consi...
2019-10-17 11:21:16
315
原创 Hive如何解析Json数据
1、需求现有原始 json 数据(rating.json)如下:{"movie":"2355","rate":"5","timeStamp":"978824291","uid":"1"}{"movie":"1197","rate":"3","timeStamp":"978302268","uid":"1"}{"movie":"1287","rate":"5","timeStamp":...
2019-09-27 10:01:15
1200
1
原创 mongoDB常用sql操作
1、创建/删除库, 创建/删除集合、数据use dbnamedb.createCollection('test_col')# 查看当前的的数据库> show dbs;admin 0.000GBlocal 0.000GB# 新建/切换 库> use qfeduswitched to db qfedu> show dbs;admin 0.000G...
2019-09-24 09:08:12
631
原创 HBase数据压缩方式的介绍与实战
1、HBase数据压缩方式的介绍为了提高HBase存储的利用率,很多HBase使用者会对 HBase 表中的数据进行压缩。目前 HBase 可以支持的压缩方式有 GZ(GZIP)、LZO、LZ4 以及 Snappy。它们之间的区别如下:GZ:用于冷数据压缩,与 Snappy 和 LZO 相比,GZIP 的压缩率更高,但是更消耗 CPU,解压/压缩速度更慢。 Snappy 和 LZ...
2019-09-20 19:29:24
4620
1
原创 idea中将项目上传到github
1、下载并安装git: IDEA版本(IntelliJ IDEA 2018.3.4) https://git-scm.com/downloads2、在IDEA中设置Git,在File-->Setting->Version Control-->Git-->Path to Git executable选择你的git安装后的git....
2019-09-18 19:28:06
263
原创 Flink配置文件详解
我们先来安装路径下的配置文件吧 安装目录下主要有 flink-conf.yaml 配置、日志的配置文件、zk 配置、Flink SQL Client 配置。1、Flink-conf.yarml基础配置# jobManager 的IP地址jobmanager.rpc.address: localhost# JobManager 的端口号jobmanager.rpc.p...
2019-08-30 10:25:16
1772
原创 SecureCRT 修改背景、字体配色
1、设置背景颜色设置背景颜色Options => Sessions options => Terminal => Emulation,在 Terminal下拉列表下选择Linux,勾选 ANSI Color。默认的 ANSI Color 的背景颜色是黑色,感觉看久了很不舒服,可以修改背景颜色。options -> global options ->T...
2019-08-30 09:51:57
2132
原创 MapReduce整合HBase
1、HBase 结合 MapReduce 为什么需要用 mapreduce 去访问 hbase 的数据? ——加快分析速度和扩展分析能力 Mapreduce 访问 hbase 数据作分析一定是在离线分析的场景下应用1.1、HBaseToHDFS 从 hbase 中读取数据,分析之后然后写入 hdfs,代码实现:package com.qyl.mapreduce;...
2019-08-28 08:48:01
389
原创 Hive性能优化的常用方法
1、性能低的原因 hive性能优化时,把HiveQL当做M/R程序来读,即从M/R的运行角度来考虑优化性能,从更底层思考如何优化运算性能,而不仅仅局限于逻辑代码的替换层面。 RAC(Real Application Cluster)真正应用集群就像一辆机动灵活的小货车,响应快;Hadoop就像吞吐量巨大的轮船,启动开销大,如果每次只做小数量的输入输出,利用率将...
2019-08-21 10:51:39
1503
原创 Spark On YARN中client和cluster的区别
1、首先我们来看一下yarn运行时的架构图yarn的运行流程用户向 YARN 中提交应用程序,其中包括 MRAppMaster 程序,启动 MRAppMaster 的命令,用户程序等。 ResourceManager 为该程序分配第一个 Container,并与对应的 NodeManager 通讯,要求它在这个 Container 中启动应用程序 MRAppMaster。 MRA...
2019-08-16 15:34:14
6086
2
原创 Spark 遇到OOM怎么解决
Spark中的OOM问题不外乎以下两种情况map执行中内存溢出 shuffle后内存溢出Spark 内存模型: Spark在一个Executor中的内存分为三块: 一块是execution内存, 一块是storage内存, ...
2019-08-07 14:59:45
1156
原创 Flink之window函数详解
1、官网:https://ci.apache.org/projects/flink/flink-docs-release-1.7/concepts/programming-model.html#windows (建议大家多看看官网)2、什么是Window Flink 认为 Batch 是 Streaming 的一个特例,所以 Flink 底层引擎是一个流式引擎,...
2019-07-31 10:54:17
862
原创 Spark SQL读取HBase中数据的优化
在项目过程中中,我们会经常使用Spark SQL去查询/分析HBase中的数据,内置的读取数据源使用的是TableInputFormat ,这个TableInputFormat 有一些缺点:一个Task里面只能启动一个Scan取HBase中读取数据; TableInputFormat 中不支持BulkGet 不能享受到Spark SQL内置的catalyst引擎的优化 ...
2019-07-30 19:58:39
1486
原创 Python连接MySQL进行DML操作
1、安装PyMySQL本地:pip install pymysqlAnaconda:conda install pymysql2、插入数据# coding=gbkimport pymysqlfrom pymysql.cursors import DictCursordef insert_data(): #插入数据 course_id = int(inpu...
2019-07-25 16:08:55
389
原创 MySQL存储程序中触发器和存储过程的使用
--最近在项目中总是用到MySQL的触发器和存储过程,为了加深印象,总结下。1、触发器触发器(trigger):监视某种情况,并触发某种操作,它是提供给程序员和数据分析员来保证数据完整性的一种方法,它是与表事件相关...
2019-07-23 17:18:17
710
原创 HBase的优化(参数)
配置优化zookeeper.session.timeout默认值:3分钟(180000ms)说明:RegionServer与Zookeeper间的连接超时时间。当超时时间到后,ReigonServer会被Zookeeper从RS集群清单中移除,HMaster收到移除通知后,会对这台server负责的regions重新balance,让其他存活的RegionServer接管.调优:这个timeou...
2019-07-08 15:45:53
681
原创 Vsql命令行命令详解
基本格式:Vsql [连接选项][常规选项] [输入输出选项]1、常规选项:-d DBNAME指定要连接的数据库名称(默认值:“A”)-c COMMAND只运行单个命令(SQL或内部)并退出-f FILENAME从文件执行命令,然后退出-l列出可用的数据库,然后退出-v NAME = VALUE将vsql变量NAME设置为VALUE-...
2019-06-26 11:23:35
5762
原创 Shell常用操作
1、参数 shell语言,采用$0,$1,$2..等方式获取脚本命令行传入的参数,值得注意的是,$0获取到的是脚本路径以及脚本名,后面按顺序获取参数,当参数超过10个时(包括10个),需要使用${10},${11}....才能获取到参数,但是一般很少会超过10个参数的情况eg:#!/bin/bashecho "脚本$0"echo "第一个参数$1"echo "第二个参数$2"...
2019-06-26 11:04:11
399
原创 Oracle存储过程的使用
最近在项目中需要写存储过程,于是在自己学习了一段时间,总结下,希望对大家学习有些帮助;先上模板:create or replace procedure 要创建的存储过程名称(入参a in varchar2, 出参b out varchar2) is v_sql varchar(1000) ; c varchar2(20...
2019-06-24 16:32:31
481
原创 Kafka中的分区分配(面试点)
“请你简述一下Kafka中的分区分配” 以前在面试中遇到了这个问题,当时不太清楚balabala说了一大堆,现在总结下,希望对大家有用。在Kafka中,分区分配是一个很重要的概念,却往往会被读者忽视,它会影响Kafka整体的性能均衡。当遇到“分区分配”这个字眼的时候,一定要记住有三处地方,分别是生产者发送消息、消费者消费消息和创建主题。虽然这三处的对应操作都可以被...
2019-06-24 11:49:07
1401
原创 Oracle数据库
一、Oracle数据库介绍1、简介 Oracle Database,又名Oracle RDBMS,或简称Oracle。是甲骨文公司的一款关系数据库管理系统,OLTP。 详细资料可以参考《Oracle从入门到精通》 链接:https://pan.baidu.com/s/1875LUAWCK51Q8Hh7lgWPfA 提取码:1c4f...
2019-06-10 19:05:43
468
原创 Flink状态(State)管理和恢复原理解析
一、状态(State) 1、介绍 我们在前面写的word count的例子(上篇博客中有的),没有包含状态管理。如果一个task在处理过程中挂掉了,那么它在内存中的状态都会丢失,所有的数据都需要重新计算。从容错和消息处理语义上(at last once,exactly once),从而Flink引入了state和checkpoint。 St...
2019-05-30 14:40:48
4227
2
原创 Perl常用语法
1、Perl的常用函数1、转换日期格式函数my $year_month_day = strftime("%Y%m%d %H:%M:%S",localtime());print "\t\tstart now : '$year_month_day' "."\n";2、判断输入参数的个数if ($ARGV<0){ print "\n"; print "usage...
2019-05-21 17:30:03
700
原创 Anaconda的安装和使用
1、安装 下载地址:https://www.anaconda.com/download/下载完直接安装就好注意:添加环境变量2、使用管理虚拟环境接下来我们就可以用anaconda来创建我们一个个独立的python环境了.接下来的例子都是在命令行操作的,请打开你的命令行吧.1、环境命令# 创建一个名为python34的环境,指定Python版本是...
2019-05-17 16:42:54
390
原创 Flink DataStream API 之 DataSource
Flink API的抽象级别1、概述 source是程序的数据源输入,你可以通过StreamExecutionEnvironment.addSource(sourceFunction)来为你的程序添加一个source。 flink提供了大量的已经实现好的source方法,你也可以自定义source 通过实现sourceFunction接口...
2019-05-07 19:04:09
970
原创 Flink版WordCount(Streaming and Batch)
Flink 程序开发步骤1:获得一个执行环境2:加载/创建 初始化数据3:指定操作数据的transaction算子4:指定把计算好的数据放在哪5:调用execute()触发执行程序注意:Flink程序是延迟计算的,只有最后调用execute()方法的时候才会真正触发执行程序。延迟计算好处:你可以开发复杂的程序,但是Flink可以将复杂的程序转成一个Plan,将Plan作...
2019-05-06 18:58:15
692
原创 Vertica常用SQL操作
一、查询与修改1、查询--导出表的结构:select export_objects('','app_z.test')--收集统计信息select analyze_statistics('app_z.test')--重置license_sizeselect audit_license_size()--查看licenseselect get-c...
2019-04-29 12:13:30
5527
1
原创 linux 三大剑客 之grep
grep1、简介 grep 是一种强大的文本搜索工具,它能使用正则表达式搜索文本,并把匹配的行打印出来。通常grep有三种版本grep、egrep(等同于grep -E)和fgrep。egrep为扩展的grep,fgrep则为快速grep(固定的字符串来对文本进行搜索,不支持正则表达式的引用但是查询极为快速)。grep是Linux文本处理三剑客之一。2、grep的使用方式...
2019-04-17 16:44:13
357
原创 Flink数据流编程模型
一、抽象级别 Flink提供了不同级别的抽象,以开放流或批处理作业 1、 Stateful Stream Processing : 有状态流 它是通过将过程函数(Processing Function)被嵌入到DataStream API中,它允许用户可以自由地处理来自一个或多个数据流的事件,并使用一致的容错的状态。除此之外,用户可以注册事件时...
2019-04-09 19:29:25
419
原创 深入理解Flink的核心技术
Flink简介 Flink的核心是一个流式的数据流执行引擎,其针对数据流的分布计算提供了数据分布,数据通信以及容错机制等功能。基于流执行引擎,Flink提供了诸多更高抽象层的API以便用户编写分布式任务:DataSet API:对静态数据进行批操作,将静态数据抽象成分布式的数据集,用户可以方便的采用Flink提供的各种操作符对分布式数据集进行各种操作,支持Java,Sca...
2019-04-01 19:33:33
645
原创 常用正则表达式(查询和替换)
^: 匹配一行的开始(匹配行) \s :匹配空白符 [[:blank:]]不会匹配新一行 --例子 :匹配空行 ^\s [\x{4e00}-\x{9fa5}]:匹配中文字符(以中文字符为结尾的) .:匹配任意字符 *:匹配0次或多次 --例子: 匹配以中文开头和结尾的字符串:[\x{4e00}...
2019-03-21 11:30:46
1936
原创 Vertica数据库介绍
1、简介 Vertica是一款基于列存储的MPP(massively parallel processing)架构的数据库。它可以支持存放多至PB(Petabyte)级别的结构化数据。2、特性1)列式存储 vertica以列格式存储数据, 以便在查 询时获得最佳性能。相比基于行的存储, 列存储可减少磁盘I/O, 非常适合读取 密集型工作负载2...
2019-02-19 10:05:19
16657
2
原创 Zookeeper原理及使用场景
Zookeeper是Hadoop生态系统中非常重要的组件,它的主要功能是为分布式系统提供一致性协调服务,与之对应的Goole的类似服务叫Chubby。一、Zookeeper基本原理1、数据模式(zookeeper-tree) 如图所示,zookeeper数据模型的结构与unix文件系统很类似,整体上可以看作一树,每个节点称为一个znode。每个znode都可以通过...
2019-01-29 17:18:34
656
原创 Hive常用字符串函数
1、字符串函数计算函数:Length语法:length(string A)返回值:int说明:返回字符串A的长度例子:hive> select length('iteblog') from iteblog;72、字符串反转函数:reverse语法: reverse(string A)返回值: string说明:返回字符串A的反转结果例子:hive&...
2019-01-27 10:40:23
2036
原创 Hive的Shell操作
一、Hive的命令行1、Hive支持的一些命令Command Descriptionquit Use quit or exit to leave the interactive shell.set key=value Use this to set value of particular configuration variable. One thing to note here...
2019-01-26 12:38:38
1579
原创 crontab命令使用说明
基本格式 : * * * * * command 分 时 日 月 周 命令 第1列表示分钟1~59 每分钟用*或者 */1表示 第2列表示小时1~23(0表示0点) 第3列表示日期1~31 第4列表示月份1~12 第5列标识号星期0~6(0表示星期天) 第6列要运行的命令 crontab文件的一些例子: 30 21 * * * /usr/local/etc/rc.d/...
2019-01-24 10:26:45
220
spark实时项目
2019-01-03
mapreduceDemo.zip
2019-09-11
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅