自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(123)
  • 资源 (2)
  • 收藏
  • 关注

原创 Hive SQL语句的正确执行顺序

关于 sql 语句的执行顺序网上有很多资料,但是大多都没进行验证,并且很多都有点小错误,尤其是对于 select 和 group by 执行的先后顺序,有说 select 先执行,有说 group by 先执行,到底它俩谁先执行呢?今天我们通过 explain 来验证下 sql 的执行顺序。在验证之前,先说结论,Hive 中 sql 语句的执行顺序如下:from .. where .. join .. on .. select .. group by .. select .. having ..

2021-07-28 09:02:59 3620 9

原创 Hive自定义函数UDF、UDAF、UDTF

0.依赖<dependencies> <!--添加hive依赖--> <dependency> <groupId>org.apache.hive</groupId> <artifactId>hive-exec</artifactId> <version>3.1.2</version> </dependency>

2021-07-15 17:24:15 149

转载 Hive 配置参数大全

hive.ddl.output.format:hive的ddl语句的输出格式,默认是text,纯文本,还有json格式,这个是0.90以后才出的新配置;hive.exec.script.wrapper:hive调用脚本时的包装器,默认是null,如果设置为python的话,那么在做脚本调用操作时语句会变为pythonhive.exec.plan:hive执行计划的文件路径,默认是null,会在运行时自动设置,形如hdfs://xxxx/xxx/xx;hive.exec.scratchdir:hi

2021-07-14 10:28:58 773

转载 伴鱼DQC数据质量平台实践

DQC数据质量平台实践日常工作中,数据开发、数仓开发工程师开发上线完一个任务后并不是就可以高枕无忧了,时常会因为上游链路数据异常或者自身处理逻辑的 BUG 导致产出的数据结果不可信。而这个问题的发现可能会经历一个较长的周期(尤其是离线场景),往往是业务方通过上层数据报表发现数据异常后 push 数据方去定位问题(对于一个较冷的报表,这个周期可能会更长)。同时,由于数据加工链路较长需要借助数据的血缘关系逐个任务排查,也会导致问题的定位难度增大,严重影响开发人员的工作效率。更有甚者,如果数据问题没有被及时发

2021-06-29 09:02:45 770

原创 基于画像推荐系统设计(离线+实时)

目录 一、架构设计 二、内容画像 离线文章画像构建 TFIDF计算 TEXTRANK计算 文章画像结果计算 离线增量文章画像计算 Word2Vec与文章相似度 三、用户画像 3.1 为什么要进行用户画像构建 3.2 用户画像标签建立 用户行为处理 用户画像标签权重计算 ...

2021-06-28 14:24:41 498

原创 数据分析,如何构建指标体系

有人说:掌握了数据分析技能,就掌握了未来。虽然有些夸张,但是不可否认的是:我国的大数据产业经过多年发展,行业应用逐渐加深,市场规模显著增长,预计到2022年产业规模将突破一万亿元并且随着区块链、人工智能、5G的逐渐成熟,企业对于大数据人才的需求也越来越高,并且至今缺口很大。但是数据类人才虽然吃香,企业对其的要求也比较高。其中“构建指标体系”这一重要技能,也成为了很多一线大厂对数据人的硬性要求。指标体系的构建,是为了让业务目标可度量、可描述、可拆解。从而进行业务情况的监控、找到当前

2021-06-28 09:18:14 538

转载 Azkaban 外部接口的使用与开发

问题导读: 1、如何远程创建一个Azkaban任务项目? 2、如何删除一个任务项目? 3、如何从流中获取job? 4、如何操作取消流的执行? Azkaban 外部接口的使用与开发此文档可用于Azkaban 任务的https调用,提供了查看任务的状态信息、执行情况、任务的创建、上传、触发、取消、调度等功能接口。可以使开发者在编程过程中直接通过https api的调用,来对任务进行控制,开发者可参考azkaban官网提供的api文档azkaban官网提供的...

2021-06-23 08:48:33 691

转载 DataX Hdfs HA(高可用)配置支持

官方文档地址DataX HdfsReader 插件文档 DataX HdfsWriter 插件文档Reader插件文档明确说明

2021-06-21 11:00:33 2738

转载 MYSQL的递归查询

众所周知,目前的mysql版本中并不支持直接的递归查询,但是通过递归到迭代转化的思路,还是可以在一句SQL内实现树的递归查询的。这个得益于Mysql允许在SQL语句内使用@变量。以下是示例代码。...

2021-06-18 11:15:38 342

原创 Maxwell与Canal 工具对比

Maxwell与Canal 工具对比1.优缺点对比Maxwell 没有 Canal那种server+client模式,只有一个server把数据发送到消息队列或redis。 Maxwell 有一个亮点功能,就是Canal只能抓取最新数据,对已存在的历史数据没有办法处理。而Maxwell有一个bootstrap功能,可以直接引导出完整的历史数据用于初始化,非常好用。 Maxwell不能直接支持HA,但是它支持断点还原,即错误解决后重启继续上次点儿读取数据。 Maxwell只支持json格式,而C

2021-06-17 10:15:22 1645

转载 Teradata 金融数据模型FS-LDM

Teradata FS-LDM7.0是一个成熟产品,在一个集成的模型内支持保险、银行及证券,包含十大主题:当事人、产品、协议、事件、资产、财务、机构、地域、营销、渠道。BANK-LDM的客户化,包括如下步骤:源系统结构整理源系统数据表级分类源系统数据表字段级分类问题追踪代码表整理模型设计命名规范BANK-LDM主题域模型设计采用分类设计的策略1、重点设计主题(客户、协议、事件、资产、财务)特点:是模型中的重点主题,且在源系统中有丰富的数据来源和参照。目标:尽量保持完整性、丰富性

2021-06-16 17:11:54 1931

转载 Hive中HSQL中left semi join

Hive中HSQL中left semi join证明在Hive 2.1.1版本中,是支持where子句中的子查询,SQL常用的exist in子句在Hive中是不支持的,但可以使用一个更高效的实现方式---- semi join最主要的使用场景就是解决exist in。SQL1:SELECT table1.student_no, table1.student_name FROM table1 LEFT SEMI JOIN table2 on ( table1.student_no =table

2021-06-16 10:57:58 762

转载 维度退化(数据仓库)

维度-退化维度刚接触Mondrian,不熟悉如果只有一个事实表,没有单独的维度表,其中事实表就包含维度信息的怎么做Schema文件。一开始做了很多自关联,导致性能下降明显。基本多维度查询速度就很慢,基本出不来了。其实这种同在事实表的,可以用退化维度来实现即可。退化维度是这样的一种维度:由于它过于简单而不值得为它创建一个维表。考虑下面的事实表:假设我们为支付方式列的值创建一个维表:支付方式CreditCashATM这个维表没什么意义,它只有三个取值,没有额外的信息,并产生

2021-06-16 09:18:58 5213

转载 关于OLAP数仓,这大概是史上最全面的总结!(万字干货)

有哪些类型的OLAP数仓?按数据量划分对一件事物或一个东西基于不同角度,可以进行多种分类方式。对数仓产品也一样。比如我们可以基于数据量来选择不同类型的数量,如下图所示:本系列文章主要关注的是数据量处于百万到百亿级别的偏实时的分析型数仓,Cloudera的Impala、Facebook的Presto和Pivotal的GreenPlum均属于这类系统;如果超过百亿级别数据量,那么一般选择离线数仓,如使用Hive或Spark等(SparkSQL3.0看起来性能提升很明显);对于数据量很小的情况,虽

2021-06-16 09:06:47 355

转载 通透!数据仓库领域常见建模方法及实例演示

1一、为什么需要数据建模?在开始今天的话题之前,我们不妨思考下,到底为什么需要进行数据建模?随着从IT时代到DT时代的跨越,数据开始出现爆发式的增长,这当中产生的价值也是不言而喻。如何将这些数据进行有序、有结构地分类组织存储,是我们所有数据从业者都要面临的一个挑战。如果把数据看作图书馆里的书,我们希望看到它们在书架上分门别类地放置,而不是乱糟糟的堆砌在一起。大数据的数仓建模正是通过建模的方法,更好的组织、存储数据,以便在性能、成本、效率和数据质量之间找到最佳平衡点,一般我们会从以下面四点考虑

2021-06-16 09:01:24 407

原创 每个日期最新收盘价

需求:现需通过sql获取该公司在第a天的收盘价,若第a天无收盘价记录,则取该日期之前,最近的一个收盘价作为第a天的收盘价(例如:,2019-10-05的收盘价取2019-09-30的54.22)数据:目标结果:sql:select price_date, price, first_value(price) over(partition by first_price_date order by price_date) from ( select price_da

2021-06-11 10:46:09 384

转载 Elasticsearch 实战2:ES 项目实战(二):基本操作、批处理、高级查询

导读:上篇博客讲到了Java 集成 Spring Data Elasticsearch 的简介、环境搭建和domain 实体类的编写,本篇博客将接着讲解 如何用 Java 实现 es 基本操作、批处理、高级查询。(本文????上部有完整的实例代码)。若有不懂的请结合之前的博客进行阅读。以下为我编写的关于es 的基础通用功能代码,基本涵盖了es 的所有操作,之后的示例将以此基础进行讲解。IBaseService :提供公共的,基础的 ElasticSearch 功能 BaseServiceImpl:IB

2021-05-28 09:12:18 605

转载 Elasticsearch 实战1:ES 项目实战(一)Java 集成 Spring Data Elasticsearch(一):简介及环境搭建

一:前语1、项目文档 CSDN 专栏:《Elasticsearch 入门和项目实战》博客路径:https://blog.csdn.net/a767815662/category_9190277.html2、项目GitHub 地址:https://github.com/17666555910/SpringBoot-Elasticsearch-Demo3、项目结构介绍​--- com.xinghua.elasticsearchservice | --- common .

2021-05-28 09:11:52 793

原创 Elasticsearch高级查询2:ES 高级查询

一、高级查询1、简介Elasticsearch基于JSON提供完整的查询DSL(Domain Specific Language:领域特定语言)来定义查询。基本语法: GET /索引名/类型名/_search一般都是需要配合查询参数来使用的,配合不同的参数有不同的查询效果.参数配置项可以参考博客:https://www.jianshu.com/p/6333940621ec2、结果排序参数格式:GET /索引/类型/_search{ "sort": [ {fiel

2021-05-27 09:44:23 209 1

原创 Elasticsearch基本操作 1:ES 基本操作、批处理

一:ES的基本操作1、索引操作1.1、建立索引语法:PUT /索引名 在没有特殊设置的情况下,默认有5个分片,1个备份,也可以通过请求参数的方式来指定.。参数格式:PUT /user{ "settings": { "number_of_shards": 5 //设置5个片区 , "number_of_replicas": 1 //设置1个备份 }}1.2、删除索引语法:DELETE /索引名DELETE /user1.3、查询索引语法

2021-05-27 09:34:46 391

转载 sqoop-import 并行抽数及数据倾斜解决

最近在数据中台的数据抽数优化工作,由于单表数据量太大(每天千万级别)导致sqoop抽数使用单实例报内存溢出以及抽数时间过长,决定采用sqoop的多实例并行抽数,参考了一些文档,但同时遇到了一些问题,趁有点时间把遇到问题的解决方法写下来供大家借鉴。并行化sqoop-常用命令及参数:https://www.yuque.com/shanyu-aqvcy/hkqgb7/vngsoxsqoop 抽数的并行化主要涉及到两个参数:num-mappers:启动N个map来并行导入数据,默认4个;split-by.

2021-05-21 10:32:37 550

转载 powerdesigner导出mysql数据库表结构到Excel

前提要做数据源的整理,需要将Mysql数据库表的结构导出到Excel表里面做文档记录;第一个Sheet是所有表格的列表,其他的Sheet是每一个表格的详细字段以及注释说明.打开PowerDesigner的数据库结构导出Excel脚本页面选择好连接的数据库以后,ctrl+shift+x 弹出执行脚本界面,输入如下代码就会生成 ExcelOption Explicit Dim rowsNum Dim splitTabName rowsNum = 0 '----

2021-05-20 17:32:04 358

原创 HBase性能优化方法总结

目录1. 表的设计1.1 Pre-Creating Regions1.2 Row Key1.3 Column Family1.4 In Memory1.5 Max Version1.6 Time To Live1.7 Compact & Split2. 写表操作2.1 多HTable并发写2.2 HTable参数设置2.2.1 Auto Flush2.2.2 Write Buffer2.2.3 WAL Flag2.3 批量写2.4.

2021-05-20 15:01:43 68

原创 Hive与Hbase数据表关联

一、简单介绍hive的元数据保存在metastore里面,真实的数据一般位于hdfs中,可以通过hql来对数据进行分析。hbase中的数据也是存放在hdfs上的,可不可以使用hive来分析hbase中的数据呢?二、hive表到hbase表的映射2.1hbase表t1的结构和其中的数据如下图2.2创建hive表映射到hbase的表首先输入下面的命令进入hive的客户端hive --auxpath /usr/local/hive-0.14.0/lib/hive-hbase-han

2021-05-20 09:58:11 331

转载 申请评分卡(A卡)的开发过程(1)

前言:本篇文章上接《申请评分卡简介》,有需要的童鞋可以参考下:原始文章链接:https://www.it610.com/article/1305285460372787200.htm下面介绍下A卡的开发步骤。开发过程1、评分卡模型开发步骤:1、立项:场景(营销、信贷领域)、对象(个人、账户、公司)、目的(程度决策、流失预警、反欺诈等等)2、数据的准备与预处理(账户,客户,内部外部数据)3、建模的构建(逻辑回归VS机器学习,单一模型VS 集成模型)4、模型评估(区分度,预测性,稳

2021-05-18 17:14:25 951

转载 互联网金融行业申请评分卡(A卡)简介

前言最近会总结下我了解到的互金行业各个评分卡的知识,包括但不限于A,B,C卡以及相关的业务知识和用到的技术。很早之前就有这样的想法,最近刚好有这样的机会,就简单记录下。如果有问题,请大家及时指正。基本概念1、信用违约风险的基本概念什么是信用违约风险:定义:交易对手未能履行约定契约中的义务而造成经济损失的风险 ,即受信人不能履行还本付息的责任而使授信人的预期收益与实际收益发生偏离的可能性,它是金融风险的主要类型。一句话总结:未在规定时间内还钱给借钱人造成的风险。这里面有一个很重要的隐变量时

2021-05-18 17:10:09 940

原创 数据切片和切块 钻取 旋转

数据切片和切块 钻取 旋转1 切片和切块(Slice and Dice)在多维数据结构中,按二维进行切片,按三维进行切块,可得到所需要的数据。如在“贷款银行、贷款质量、时间”三维立方体中进行切块和切片,可得到各贷款银行、各种贷款的统计情况。每次都是沿其中一维进行分割称为分片,每次沿多维进行的分片称为分块。2、钻取(Drill)钻取包含向下钻取(Drill-down)和向上钻取(Drill-up)/上卷(Roll-up)操作, 钻取的深度与维所划分的层次相对应。3 旋转(

2021-05-13 22:47:44 2753

原创 数据粒度的上卷和下钻

数据粒度的上卷和下钻上卷数据的汇总聚合,细粒度到粗粒度的过程,会无视某些维度下钻数据明细,粗粒度到细粒度的过程,会细化某些维度案例select * from table group by A;select * from table group by A,B;select * from table group by A,B,C;自上而下粒度变细,为下钻;自下而上粒度变粗,为上卷...

2021-05-13 22:43:27 1835

原创 Gzip,BZip2,Lzo,Snappy比较

gzip,bzip2,lzo,snappy是hadoop中比较常见的文件压缩格式,可以节省很多硬盘存储,以下是Gzip , BZip2 , Lzo Snappy 四种方式的优缺点 和使用场景1.Gzip优点:  1.压缩解压速度快 , 压缩率高 , hadoop本身支持  2.处理压缩文件时方便 , 和处理文本一样  3.大部分linux 系统自带 Gzip 命令 , 使用方便缺点:  不支持切片使用场景:  1.文件压缩后在130M以内 (一个块大小) , 都可以使用

2021-05-06 22:08:32 2131

原创 idea迁移到其他电脑,省去重新安装破解及配置

idea迁移到其他电脑,省去重新安装破解及配置idea迁移到其他电脑,省去重新安装破解及配置,要求路径与之前的电脑保持相同。1. 将idea的配置目录文件夹整个复制过去,默认路径C:\Users\Administrator\.IntelliJIdea2017.12. 将idea的安装目录文件夹整个复制过去3.根据系统位数,选择运行安装目录下D:\ideaIU-2017.1.4.win\bin 的应用程序...

2021-05-06 10:48:36 2984

原创 每个日期新用户的次日留存率

SQL练习题:网站每天有很多人登录,请你统计一下牛客每个日期新用户的次日留存率。题目:牛客每天有很多人登录,请你统计一下牛客每个日期新用户的次日留存率。有一个登录(login)记录表,简况如下:第1行表示id为2的用户在2020-10-12使用了客户端id为1的设备登录了牛客网,因为是第1次登录,所以是新用户。。。第4行表示id为2的用户在2020-10-13使用了客户端id为2的设备登录了牛客网,因为是第2次登录,所以是老用户。。最后1行表示id为4的用户在202.

2021-04-23 11:39:00 1727

原创 Hive之Grouping Sets函数

Hive之Grouping Sets函数对于经常需要对数据进行多维度的聚合分析的场景,您既需要对a列做聚合,也要对b列做聚合,同时要按照a、b两列同时做聚合,因此需要多次使用UNION ALL。使用GROUPING SETS可以快速解决此类问题。并且能优化stage的个数,提高执行效率。1.建表create table test(id string, os string, device string, city string);2.准备数据insert into test v

2021-03-31 15:51:14 637

原创 计算连续登陆最大天数

计算连续登陆最大天数原始数据:u0001 2019-10-10u0001 2019-10-11u0001 2019-10-12u0001 2019-10-14u0001 2019-10-15u0001 2019-10-17u0001 2019-10-18u0001 2019-10-19u0001 2019-10-20 u0002 2019-10-20说明:数据是简化版,两列分别是user_id,log_in_date。现实情况需要从采集数据经过去重,转换得到以上形式数据

2021-03-30 14:37:31 148

原创 Atlas 2.1.0 实践之编译Atlas-Hive

Atlas 2.1.0 实践之编译Atlas-Hive问题前景: Hive 2.2.0以下的低版本存在bug,字段级的血缘数据不能自动生成,需升级hive版本到2.2.0及以上才能正常生成字段级的血缘数据。所以记录一篇编译Atlas-Hive。问题导读:1、为什么要做数据治理?2、如何安装并使用Altas?3、执行maven编译打包?4、踩过哪些坑?为什么要做数据治理?业务繁多,数据繁多,业务数据不断迭代。人员流动,文档不全,逻辑不清楚,对于数据很难直观理解,后期...

2021-01-27 10:57:49 264

原创 Hbase协处理器实践总结(hbase数据同步)

Hbase协处理器实践总结(hbase数据同步)使用背景使用hbase同步数据到es,每次hbase客户端发送put请求后,触发协处理器将数据同步到es。版本介绍 hbase版本:1.2.0 es版本:6.8.5 hadoop版本:2.6.0 话不多说,直接上代码。有关协处理器了解请参考底部官网连接和相关博客。pom.xml<?xml version="1.0" encoding="UTF-8"?><project xmlns="htt

2021-01-26 10:20:19 215

原创 浏览器插件---Tampermonkey油猴

太强了!这4款「油猴」脚本简直给浏览器开挂!2020年马上过去了,在今年大家可以明显的感受到一些网站为了自身的利益,吃相太难看了,有的甚至不登录就不让阅读等等问题。那么针对这种情况,这里给大家整理了几款油猴脚本插件,帮助净化浏览器,带来浏览新体验!大家熟知的「Tampermonkey」油猴扩展插件管理器,其本身是不带脚本的,但是安装这些脚本是必备工具,所以请先安装好Tampermonkey管理器。01解除网页限制有的网站会禁止你复制他们的内容,或者登录才可以复制。这个插...

2021-01-21 16:41:11 1588 1

原创 浏览器插件----神奇的鼠标

真神奇!鼠标居然还可以这样玩?现在国内的一些主流浏览器都有鼠标手势这个快捷功能,例如360、QQ、搜狗浏览器等,可以快速完成关闭网页、刷新网页、前进以及后退等快捷操作。大家只要记住这些手势,浏览网页会变得很轻松便捷。但是像谷歌、Edge等浏览器就没有鼠标手势功能,需要安装插件才能实现这个功能,难免有些小遗憾。直到最近我发现了一款神器,这个鼠标手势软件虽然只有200多kb,但它不仅可以在浏览器页面上操作,更可以在Windows系统全局使用废话不多说了,下面就为大家详细介绍一下这款体积小而功能强

2021-01-21 16:27:25 842

原创 Zeppelin介绍

推荐一款可视化+NoteBook工具大数据平台搭建好后,我们要做的就是探索数据,探索数据就需要查询,做可视化,那么一款好用自助查询可视化工具,你值得拥有!一、Zeppelin介绍Apache Zeppelin是一个让交互式数据分析变得可行的基于网页的开源框架。Zeppelin提供了数据分析、数据可视化等功能。Zeppelin 是一个提供交互数据分析且基于Web的笔记本。方便你做出可数据驱动的、可交互且可协作的精美文档,并且支持多种语言,包括 Scala(使用 Apache Spark)、

2021-01-21 09:11:28 996

原创 Hive计算绝对值同环比

目录 什么是绝对值同比 什么是绝对值环比 数据集准备 同比计算 环比计算 什么是绝对值同比本期数据-同期数据/|同期数据|例:2021年1月1日的gmv -2020年1月1日的gmv/|2020年1月1日的gmv|什么是绝对值环比本期数据-上期数据/|上期数据|例:2021年2月2日的gmv -2020年2月1日的gmv/|2020年2月1日的gmv|数据集准备建表语句create table new_table(...

2021-01-20 14:46:57 1030 1

原创 ClickHouse留存、路径、漏斗、session实战

什么是留存,比如在20200701这天操作了“点击banner”的用户有100个,这部分用户在20200702这天操作了“点击app签到”的有20个,那么对于分析时间是20200701,且“点击banner”的用户在次日“点击app签到”的留存率是20%。关于用户留存模型是各大商业数据分析平台必不可少的功能,企业一般用该模型衡量用户的活跃情况,也是能直接反应产品功能价值的直接指标;如,boss想要了解商城改版后,对用户加购以及后续下单情况的影响等。如下图,这就是一个典型的留存分析功能:...

2021-01-19 09:30:02 508

数据分析全面解读.xmind

数据分析全面解读 1.定义与分类 2.工作内容 3.能力要求 4.推荐学习资料

2022-03-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除