自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(36)
  • 收藏
  • 关注

原创 hbase的master启动后过一会消失提示如下错误

hbase的master启动后过一会消失提示如下错误日志的路径:/usr/apps/hbase-2.0.4/logs/日志中报的这个错误2020-03-30 20:48:23,833 ERROR [main-EventThread] master.HMaster: Master server abort: loaded coprocessors are: []2020-03-30 20:4...

2020-03-30 21:38:18 742

原创 Hbase的概况

Hbase的概况Hbase数据库简介数据库分为两种rdbms(关系型数据库)nosql(非关系型数据库)rdbms类型的数据库,主要是面向行存储的数据库,主要适用于事务性要求严格的场合,或者说面向行存储的存储系统适合OLTPrdbms为了实现强一致性通过严格的ACID事物来同步,牺牲了可用性,伸缩性.nosql为了实现高可用性牺牲一致性.Hbase是一个面向列的分布式存储系统,高可用...

2020-03-30 20:38:46 180

原创 zookeeper的概况

zookeeper是什么Zookeeper是一个底层的分布式协调服务!它是hadoop生态体系中很多分布式系统(HDFS、YARN、HBASE、KAFKA…)的基础组件zookeeper基本功能为客户提供写数据功能为客户提供读取据功能为用户提供数据变化时的监控功能zookeeper的高可用性是一个分布式的系统,多个节点 并且节点中记录的数据是完全一致(一致性) , 当某个zk的节...

2020-03-27 15:13:55 84

原创 linux中常见命令

linux中常见命令修改Ip地址vi /etc/sysconfig/network-scripts/ifcfg-eth0 重启网络服务service network restart 更改主机名vi /etc/sysconfig/entwork 修改系统变量vi /etc/profile 将作用扩散到当前source /etc/profile上传文件rz 下载文...

2020-03-27 13:21:38 83

原创 presto的概况

presto的概况Presto性质分布式的SQL查询引擎,专门告诉实时的分析数据,他的产生解决了,hive的mr程序模型太慢不能通过BI或者Dashboards直接展现HDFS数据等问题.Presto是一个纯粹的内存计算引擎,不储存数据,通过Connector(类比mr中的inputformat组件)获取第三方的储存服务数据.Presto优点1.ad_hoc(即席查询)期望查询时间秒...

2020-03-25 22:24:17 746

原创 atlas的安装和使用

atlas数据治理工具性质面对海量且持续增长的数据atlas能够清晰的知道,那些数据表格以前是什么样,以后要变化成什么样?可以知道数据的前世今生!作用管理共享元数据,数据分类,集中策略引擎,数据血缘,安全和生命周期的管理,用于数据权限控制策略角色CoreType System:atlas允许用户他们想要管理的元数据对象定义一个模型,在atlas中储存新类型的元数据Ingest:将...

2020-03-25 09:14:57 2900

原创 atlas的编译全过程

atlas的编译全过程atlas现在是市场很受欢迎的数据管理工具,但是atlas的下载完是一个源码的项目,无法使用,必须编译(就是由源程序到目标程序的过程内含代码生成,代码集成,语法分析,词法分析,依赖下载),下面就是atlas使用maven在linux的编译过程1.首先在你的linux机器中要有apache-maven-3.6.3-bin.tar.gz先把maven安装在机器中,安装的方法...

2020-03-24 18:00:02 2584 2

原创 查看azkaban的报错日志

查看azkaban的报错日志在这个路径下的azkaban-webserver.log文件/usr/apps/azkaban/azkaban-web-2.5.0/azkaban-webserver.log打开一页日志的命令less azkaban-webserver.log搜索命令/Exception即可查出异常的日志在页面只显示异常是什么类型的 azkaban.project.Pr...

2020-03-23 23:34:12 2710

原创 azkaban调度执行各种任务

azkaban调度执行各种任务脚本可以说是万能的,他可以执行任何命令,只要你能写出来的脚本都会帮你执行例如你写个java程序,你就写个java -jar例如你是个spark程序,你就写个spark -submit例如你是个hdfs程序,你就写hdfs dfs例如你是个hive程序,你就写个hive -e示例调度执行hdfs任务1.编写hdfs.sh脚本编写hdfs.sh脚本,在hd...

2020-03-23 12:29:32 2612

原创 azkaban中写脚本的时候关于\r和\n的一个小坑

ParseException原因azkaban在运行脚本的时候他只是调度脚本,不会执行脚本,真正执行脚本的是linux机器,所以我们的脚本中换行符设置成了\r\n那么恭喜你,你的代码无论多么正确,最后的执行结果永远都是ParseException语法错误,因为在linux中回车是执行的意思,你的代码那么多回车一定是语法错误!解决办法视图=>显示符号=>显示所有字符,来查看隐藏的字...

2020-03-23 00:15:17 175

原创 azkaban的概况

Azkaban的性质azkaban是一个任务调度,管理系统,可以帮用户管理,调度各种运算任务的一个web服务器可以调度任何任务,只要你的任务能用脚本启动azkaban的类似的产品还有很多,例如hadoop生态中原生的:oozie,areflow局限性目前azkaban只支持mysql作为元数据管理系统,必须安装mysql服务器角色executor server 有好几个是真正执行的程...

2020-03-22 21:33:25 293

原创 hive调优

hive中数据倾斜问题的处理(hive调优)数据倾斜的概况hive在处理大数据经常会遇到数据倾斜的问题,表现为在map100%,reduce99%…的界面一直卡着,一般情况下就是遇到了数据倾斜的问题主要原因是大车拉小货,小车拉大货,计算能力强的节点处理数据少,计算能力弱的节点需要计算的数据比较多,有的节点完成任务休息了,有的节点还在边卡顿边干活,拖长执行的时间,导致工作效率的低下.问题实例...

2020-03-21 21:49:22 128

原创 ETL的简单理解

ETL的简单理解ETL(数据仓库技术) E(Extract抽取)T(Transform转换)L(load加载)DW(数据仓库)DSS(决策支持系统)OLAP(在线分析处理)DM(数据挖掘)BI(商业智能)ETL数据仓库技术实时计算指标:我们的实时项目之中需要分许哪些指标流量分析(新增,pv(浏览量),uv(网站独立访客),事件分析(浏览,包括,点赞,评论,分享,关注))活动...

2020-03-21 16:58:24 589

原创 sqoop的数据迁移

sqoop的数据迁移sqoop的实质迁移数据例如:从Mysql,Oracle导入到Hadoop的HDFS,hive,Hbase,redis等数据库.从Hadoop的问价系统中导出数据到关系型数据库Mysql等.迁移方式就是把sqoop的迁移命令转换成mr程序,而且没有reduce task任务在翻译MapReduce中主要是对InputFormat和OutputFormat进行定制...

2020-03-20 23:52:07 220

原创 redis的命令以及简单操作

redisd是一个非关系型数据库优点高并发,高可用,高可扩展,高写入缺点不支持sql语句学习使用成本较大安装好之后连接可视化工具需要修改几个配置文件1.bind 127.0.0.1 改为 bind 192.168.133.1042.protected-mode yes 改为 protected-mode no开启redis命令将文件的权限改为所有人[root@doit04 r...

2020-03-20 21:58:21 83

原创 HashMap的原理解析

进行hashmap原理解析手写一个简单的hashMaphashmap的底层运行是数组加链表链表就是为了解决哈希碰撞的情况public class hashMap { public static void main(String[] args) { HashMap<String, String> hashMap = new HashMap<&gt...

2020-03-20 21:16:42 93

原创 关系型数据库和非关系型数据库的区别

数据库的两大阵营1.关系型数据库—二维表格MariaDB,SQLite,SQL Server,Mysql,PostgreSQL,ORECLE优点1.易于维护,都是使用表结构,格式一致;2.使用方便,SQL语言通用,可用于复杂的查询;3.复杂操作,支持SQL可用于一个表以及多个表之间非常复杂的查询;缺点1.读写性能比较差尤其是海量数据的高效路读写;2.固定的表结构,灵活度稍欠;3...

2020-03-20 12:23:06 136

原创 数仓中应该出现的所有表格

数仓中应该出现的所有表格及其逻辑1.ods_app_log(形成贴源层)+-------------------+----------------------+----------------------------------------------------+------------------+-------------------+-----------------------+--...

2020-03-19 19:24:03 458

原创 flink的(Session)函数间隔函数

flink的(Session)函数间隔函数flink的session函数就是设置一个事件,例如你设置的停止时间为5秒钟,数据一致源源不断的输入,并且间隔很短,均小于5秒,那么数据永远不会执行,一旦数据停止了5秒钟没有输入,程序会把这次憋了好久的数据一次性执行出来.周而复始代码实现:这是没有分区全局索引的Session间隔函数public class Session1 { p...

2020-03-19 19:07:58 395

原创 数据预处理整体代码实现

数据预处理整体代码实现数据预处理的逻辑在集群在idea都能执行,下面是我在idea的执行代码代码执行的前提(参数):app埋点日志原始文件输入路径geohash地理位置字典输入路径当日的idmp映射字典所在路径预处理结果输出路径spark运行模式的master注意如果参数文件在idea直接输入路径,如果在本地路径前加上file://,如果在hdfs就需要加上hdfs://主机...

2020-03-19 18:31:18 1550

原创 hive中case when then else end 函数和dense_rank()over()函数的用法

hive中case when then else end 函数和dense_rank()over()函数的用法数据Employee 表包含所有员工信息,每个员工有其对应的工号 Id,姓名 Name,工资 Salary 和部门编号 DepartmentId 。+----+-------+--------+--------------+| Id | Name | Salary | Depar...

2020-03-19 11:48:55 1144

原创 mysql查询学生稠密排名

需求:将以下分数进行稠密排名+----+-------+| Id | Score |+----+-------+| 1 | 3.50 || 2 | 3.65 || 3 | 4.00 || 4 | 3.85 || 5 | 4.00 || 6 | 3.65 |+----+-------+目标结果为+-------+----+| Score |Ran...

2020-03-17 18:08:35 133

原创 封装一个kafka直联flink进行实时数据处理的工具类

封装一个kafka直联flink进行实时数据处理的工具类就这么几行代码就可以将kafka的数据搞过来,当然是需要搞一个FlinkUtils.createKafkaStream工具类的public class RealtimeETL { public static void main(String[] args) throws Exception { ...

2020-03-16 11:14:28 522

原创 nginx通用日志采集工具将数据落地磁盘的同时传入kafka

nginx通用日志采集工具将数据落地磁盘的同时传入kafka说明nginx从浏览器传参数到本地磁盘上篇博客已经讲的很清楚这次我们将如何在落地本地磁盘的同时传入kafka1.专门搞出一台机器作为日志采集服务器安装flume日志采集工具 两个角色TaildirSource:可以监听一个目录下面的多个文件,并且记录偏移量KafkaChannel: Channel将source采集来的数据写入...

2020-03-15 13:13:17 540

原创 nginx通用的日志采集工具

nginx通用的日志采集工具nginx性质是http反向代理web服务器,能够同时提供imap/pop3/smtp等服务可以将浏览器搜索窗口客户输入的各种参数收集保存到磁盘nginx特点稳定,功能丰富,低系统资源消耗,并发能力强.nginx下载官网:nginx.orgnginx-1.16.1.pgp 下载的就是linux版本的nginx/Windows-1.16.1.pgp ...

2020-03-14 20:20:37 134

原创 flink监听kafka的数据保证程序健壮执行且只执行一次,并将结果保存到mysql中

flink监听kafka的数据保证程序健壮执行且只执行一次,并将结果保存到mysql中注意程序执行的时候只有一个前提就是你的机器的Zookeeper个kafka的程序必须是开启的要不然会执行失败!因为我们设定了程序健壮代码但是也仅仅是没有开启生产窗口可以将历史数据收集齐而已,kafka服务必须开启!flink程序主要就是分为三步:1.数据的来源:Source监听kafka保证 Exac...

2020-03-12 12:01:45 811

原创 IDEA全部快捷键

IDEA全部快捷键常用快捷键:alt +enter 导包ctrl + x 剪切Ctrl + d 快速复制Ctrl + c 复制Ctrl + y 删除alt + F4 关闭IDEActrl + shift + F 全文搜索 类似eclipse中的ctrl+Hctrl +alt +l 格式化 (L的小写)Ctrl + / 或 ctrl+shift +/ ...

2020-03-11 20:56:05 228

原创 flink监听kafka的数据

说明flink是一个快速的实时处理引擎,他可以在收到数据的一瞬间就把数据给处理成我们想要的样子,是目前最高效率的实时数据处理技术,那么我们常用于手机实时数据的kafka中的数据flink可以实时接收并处理吗?答案是肯定的,但是几个步骤步骤1.flink只兼容kafka2.2.X以上的版本,没有的小伙伴及时更新2.在你的idea中导入kafka的连接依赖 <dependency&g...

2020-03-10 18:42:32 1159

原创 flink的RestartStrategy重启策略让你的程序更加健壮

Flink的Restartstrages重启策略让你的程序更加健壮意义env.setRestartStrategy函数的意思是重启策略,当然这个函数并不是真正的让你的程序重启,反而是为了让你的程序避免重启,当我们在程序里设置了只接接受int类型的数据,我们偏偏给他传入一个double类型的数据,孱弱的程序会瞬间以内无法解析而废掉,但是我们在程序当中传入了.setRestartStrategy函...

2020-03-06 17:32:45 868

原创 flink的WaterMark(水位线)函数

flink的WaterMark(水位线)函数简介WaterMark中文翻译过来是水位线,是flink的一种雁延迟触发机制,通常跟EventTime结合使用大意就是等等迟到的数据.使用1.要设置使用EventTime作为时间标准,env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime)2.要提取EventTime作为Tim...

2020-03-05 17:36:26 404

原创 flink的(Sliding)滑动窗口

flink的(Sliding)滑动窗口未分组全局执行的滑动窗口(Sliding)滑动窗口一般用于股票的可视化实现,他不会忽然高了忽然低了,他会有一个过渡缓冲区.public class Sliding1 { public static void main(String[] args)throws Exception { StreamExecutionEnvironme...

2020-03-05 13:14:53 484 2

原创 flink的(Tumbling)滚动窗口

滚动窗口意义如果我们是wordcount的程序,随着数据的涌入累计相加,计算系统的压力会越来越来越大,但是我们让我滚动窗口,每半个小时执行一次,只执行这半个小时之内的数据,而后直接采取上半个小时累计的结果进行累计,这样计算压力会很小!节约资源提高效率例子我们设置公交车10秒钟跑一趟,陆陆续续来的客户端输入的数据,公交车来了,没人空跑一圈 不执行,相当于不显示,公交车来了,站点有5个...

2020-03-05 12:14:37 2802

原创 flink的提交任务

flink的提交任务1.web页面上传程序代码,填入要1.执行的maind的全类名,2.并行度3.接收机器和端口号,2.还有一种就是直接在项目(idea)中就直接执行程序!结果将会打印在控制台,3.再有一种就是在linux中提交任务将jar包上传到lunux,到flink的命令下bin下,-c 指定main方法的全类名-n 指定main的名字-p 指定并行度-m 指定jobmana...

2020-03-05 09:58:55 755

原创 flink中将数据攒一攒再执行countWindow函数

flink中将数据赞一赞再执行数据分好组了(KeyBy),是组内计数,我们直接countWindow(5)即可数据未未分组所以全局计数.countWindowAll(5)例如数据分好组的代码:public class KeyBycountWindows { public static void main(String[] args) throws Exception { ...

2020-03-04 18:00:15 2616

原创 flink中将数据保存到hdfs中

flink中将数据保存到hdfs中说明:在flink的官网已经经flink的各种方法用例已经写的很明确了,我们如果要用直接点进去复制就行了,而且官网的代码永远保持年轻不会过期.限制:但是官网一般都是英文的,要想通透阅读理解阅读可能需要6级以上的英文水平,我们一般人的阅读能力还达不到阅读英文网页的水准,直接翻译过来又有很多单词翻译错,导致我们的找不到对应的代码,这可怎么办呢?办法:我们需要看关...

2020-03-04 15:31:11 4391

原创 flink当中的打标签过滤函数split

flink当中的打标签过滤函数splik当我们在运行flink的时候经常会遇到数据的过滤,在flink当中我们经常遇到过滤出某中数据类型或者将数据打好标签分类,实时运算,今天我们就聊聊flink当中的split select算子函数public class SplitDemo { public static void main(String[] args) throws Excepti...

2020-03-03 21:46:39 1402

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除