自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(54)
  • 资源 (1)
  • 收藏
  • 关注

原创 Lambda表达式写代码,开发速度提高了10倍!

Lambda

2022-11-30 11:37:17 332 1

原创 修改origin分支名

修改origin分支名

2022-11-02 16:00:19 907

原创 提交多次commit之后需要压缩commit(包括远端),修改commit内容

git rebase 使用

2022-11-02 13:21:33 233

原创 Hive和Hbase数据互通(用户画像)

背景依旧是用户画像的项目,现在标签化的数据存放在hive中,而查询是要在hbase上进行查询,所以需要将hive的数据导入hbase中。方案:1、hive和hbase的表建立映射关系,读取的是同一份HDFS文件,只是在上层建立hbase到hive表的映射。优点:一份数据存储,两种查询模式,数据存储最低;缺点:底层还是格式化的HDFS文件,查询需要进行映射转换,效率较低;2、将hive的数据通过生成hfile,通过bulkload导入到hbase,这样底层数据的格式会转变成Hfile存储在hbas

2021-08-09 11:46:36 284

原创 使用docker搭建网站

1.安装 dockerLinux 系统上使用 docker 大大降低了我们使用各种软件的门槛,推荐有兴趣的同学一定要去学习一下 docker,docker 安装的官方网站,复制命令一步步执行即可:docker 安装命令如下复制安装即可:(这里有个问题就是是否需要用root用户,后面需要再确定)sudo yum install -y yum-utils device-mapper-persistent-data lvm2sudo yum-config-manager --add-repo ht

2021-07-28 19:43:47 6698 5

原创 maven 终极大招 不可能失败 失败你留言

maven一坏,要么马上好,要么一天就过去了,我在网上看了太多的方式了,如果需要其他方式,大家可以随意搜,应该很多,我这里主要是提供一种我没有看见的方式 就是从源头上解决这个问题 :https://repo1.maven.org/maven2 从这个网址里下载你所需要的的依赖,按照标准格式构建目录!!!!就没有解决不了的!!!!...

2021-07-22 17:47:50 62

原创 TDMQ 常用总结

一.产品简介腾讯云消息队列 TDMQ(Tencent Distributed Message Queue,简称 TDMQ)是一款基于 Apache 顶级开源项目 Pulsar 自研的金融级分布式消息中间件,具备跨城高一致、高可靠、高并发的特性。 TDMQ 目前已应用在腾讯计费绝大部分场景,包括支付主路径、实时对账、实时监控、大数据实时分析等方面1.1 产品概述腾讯云消息队列 TDMQ(Tencent Distributed Message Queue,简称 TDMQ)是一款基于 Apache 顶级开源

2021-07-13 14:42:50 6296 1

原创 Python难点(补充中)

一.高级特性1.生成器generator可以一边循环一边计算,可以节省大量的空间,主要有两种方式进行生成1.列表生成器[]改为()>>>L=[x for x in range(4)]>>>L[0,1,2,3]>>>g=(x for x in range(4))>>>g<generator object <genexpr> at 0x1022ef630>2.使用yield斐波拉契数列的例子

2021-06-09 11:43:20 189 3

转载 hive on spark环境搭建(官方源码编译方式)

此前,我已经搭建了 hive on spark, 不 准确说 是 spark on hive, 我可以在spark 中愉快得玩耍 hive,这也符合我当时得需求:hive on spark集群环境搭建然而,通过hive客户端连接,hive 使用spark 引擎时,却报了 我无法解决得错误:hive on spark异常Failed to create Spark client for Spark session解决过程所以,只得参考官方网站方式来从新搭建:hive on spark:Hive on Sp

2021-03-29 14:25:00 851 1

原创 Spark core中的cache、persist区别,以及缓存级别详解

https://blog.csdn.net/yu0_zhang0/article/details/80424609

2020-12-07 16:02:44 117

转载 BigDecimal

BigDecimal.setScale()方法用于格式化小数点setScale(1)表示保留一位小数,默认用四舍五入方式setScale(1,BigDecimal.ROUND_DOWN)直接删除多余的小数位,如2.35会变成2.3setScale(1,BigDecimal.ROUND_UP)进位处理,2.31变成2.4setScale(1,BigDecimal.ROUND_HALF_UP)四舍五入,2.35变成2.4setScaler(1,BigDecimal.ROUND_HALF_DOWN)四舍

2020-12-07 15:24:59 1306

原创 org.apache.hadoop.hbase.DoNotRetryIOException: hconnection-0x4feb3272 closed

背景:从hbase读取数据写入原因:自己把hbase的表关闭的位置放错了

2020-11-24 15:47:31 2247 1

原创 SQL之判断是否为null

判断SQL是否为空的语句应该是where t2.BVDID is null 而不是where t2.BVDID = null这里要注意了,基本上每一次都会犯错 , 这次之后不应该再犯

2020-11-09 15:00:51 1119

原创 java.lang.NumberFormatException: For input string: ““

当时是这里没有写,要细心

2020-11-09 14:36:52 118

原创 java.sql.SQLException: Parameter index out of range (3 > number of parameters, which is 2).

这里主要的问题还是往MySQL中插入数据的时候,使用占位符的时候出了问题修改为如下代码就可以了,之前需要2个参数,但是实际只有2个val sqlText = s"insert into ${mySQLTableName3}(ename,cityStr,city) values(?,?,?)"...

2020-11-04 15:50:51 491

原创 spark提交任务的模板

./bin/spark-submit –class –master –deploy-mode –conf = … # other options [application-arguments]举几个常用的用法例子:Run application locally on 8 cores./bin/spark-submit –class org.apache.spark.examples.SparkPi –master local[8] /path/to/examples.jar

2020-10-19 14:34:49 134

原创 pom文件报红的问题

一般来讲,不是因为依赖或者其他问题很有可能是:字符问题多加了空格或者什么问题

2020-10-18 13:39:13 989

原创 com.microsoft.sqlserver:sqljdbc4:jar:4.0下载不了

直接原因:制定路径下确实没有sqljdbc4.jar文件。根本原因:微软不允许以maven的方式直接下载该文件解决方法:1.下载 sqljdbc4.jar 下载地址可以百度搜索sqljdbc4.jar 去微软官网下载,也可以从这个地址下载:链接: http://pan.baidu.com/s/1nu6cgdz 密码: ikqn2.改名为sqljdbc4-4.0.jar,放到maven库里。我本地的maven仓库地址:C:\Users\sss.m2\repository\com\mic

2020-10-18 12:46:27 4162 1

原创 Flink demo练手

import org.apache.flink.api.common.state.{ValueState, ValueStateDescriptor}import org.apache.flink.streaming.api.TimeCharacteristicimport org.apache.flink.streaming.api.functions.KeyedProcessFunctionimport org.apache.flink.streaming.api.scala._import o

2020-09-09 20:09:52 189

原创 Flink 中对超时订单做验证和警告 遇到的小问题

import java.net.URLimport java.utilimport org.apache.flink.cep.{PatternSelectFunction, PatternTimeoutFunction}import org.apache.flink.cep.scala.CEPimport org.apache.flink.cep.scala.pattern.Patternimport org.apache.flink.streaming.api.TimeCharacterist

2020-09-09 19:43:06 388

转载 正则表达式的写法

https://juejin.im/post/6844903677119954958

2020-09-09 11:15:39 58

原创 数据治理

数据治理:数据质量 (0.8天)元数据管理Atlas : 定位数据质量的问题 (0.5天)数据安全 (0.5天)1.0 数据质量1.1 数据质量数据治理:标准量化 : 将数据的健康程度具体化量化,目标(期望值)具体量化数据质量监控(校验) : 及时的提醒数据质量有问题数据质量保障(维护) : 发现问题,及时解决数据质量标准分类:数据完整性 : null值(空值,空记录) ; 数据增长(数据丢不丢失)(长期数据异常和短期数据异常)数据一致性 : 前后两层数据

2020-09-08 21:10:52 212

原创 实时项目5(灵活分析)

1.0 需求分析为了方便数据分析人员查看需要用户表 (1) 订单表 (2) 订单明细表 (3)(1) 与 (2) (3) 基本不在一个批次 ; (2) 与 (3) 是 1 对 n 的关系 , 且可能不在一个批次2.0 架构分析有 T+1 和 T+0 模式双流join : 因为有数据延迟 , 所以要用full outer join 把没有 join 上的 order_detail 也保留下来 , 把order_indo 查看前面的 order_detail , 再无条件的保留下 or

2020-09-08 21:10:09 182

原创 实时项目4(预警需求)

1.0 需求分析1.1 简介**实时预警,**是一种经常出现在实时计算中的业务类型。根据日志数据中系统报错异常,或者用户行为异常的检测,产生对应预警日志。预警日志通过图形化界面的展示,可以提醒监控方,需要及时核查问题,并采取应对措施。1.2 需求说明**需求:**同一设备,5分钟内三次及以上用不同账号登录并领取优惠劵,并且过程中没有浏览商品。达到以上要求则产生一条预警日志。并且同一设备,每分钟只记录一次预警。1.3 预警日志格式mid设备****iduids领取优惠券登录过

2020-09-08 21:09:30 244

原创 实时项目3(交易额需求)

1.0 采集数据1.1 框架流程1.2 Canal 入门1.2.1 什么是 Canal阿里巴巴B2B公司,因为业务的特性,卖家主要集中在国内,买家主要集中在国外,所以衍生出了杭州和美国异地机房的需求,从2010年开始,阿里系公司开始逐步的尝试基于数据库的日志解析,获取增量变更进行同步,由此衍生出了增量订阅&消费的业务。Canal是用Java开发的基于数据库增量日志解析,提供增量数据订阅&消费的中间件。目前,Canal主要支持了MySQL的Binlog解析,解析完成后才利用Cana

2020-09-08 21:08:53 116

原创 实时项目2(日活需求)

2.0 日活数据查询接口2.1 访问路径总数http://localhost:8070/realtime-total?date=2020-07-18分时统计http://localhost:8070/realtime-hours?id=dau&date=2020-07-182.2 要求数据格式总数[{“id”:“dau”,“name”:“新增日活”,“value”:1200}, {“id”:“new_mid”,“name”:“新增设备”,“value”:

2020-09-08 21:08:02 124

原创 实时项目1(数据采集模板)

1.0 需求概述1.1 实时需求与离线需求的比较**离线需求(T+1):**一般是根据前一日的数据生成报表等数据,虽然统计指标、报表繁多,但是对时效性不敏感。实时需求(T+0):主要侧重于对当日数据的实时监控,通常业务逻辑相对离线需求简单一下,统计指标也少一些,但是更注重数据的时效性(从查询到出结果的时间比较短),以及用户的交互性。即席查询:主要侧重于临时性 不需要每天都去跑的任务1.2 需求说明1.2.1 日用户首次登录(日活)分时趋势图,昨日对比数据流:用户行为数据 --

2020-09-08 21:07:12 1030

原创 Flink的学习

1.0 Flink的简介Flink是什么Apache Flink is a framework and distributed processing engine for stateful computations over unbounded and bounded data streams. 快速灵巧为什么选择Flink流数据更真实地反映了我们的生活方式传统的数据架构是基于有限数据集的(因为批处理数据更简单)我们的目标是低延迟 高吞吐 结果的准确性和良好的容错性lamb

2020-09-08 20:46:31 607 1

原创 flink添加黑名单需求时报错

报错:SLF4J: Failed to load class "org.slf4j.impl.StaticLoggerBinder".SLF4J: Defaulting to no-operation (NOP) logger implementationSLF4J: See http://www.slf4j.org/codes.html#StaticLoggerBinder for further details.Exception in thread "main" java.util.concu

2020-09-08 19:43:17 454

原创 Typora 设置上传图片功能

其实主要还是端口号的问题 在picgo上修改设置为36677其他的基本没有问题,下面链接的讲的很详细: 可以参考一下https://blog.csdn.net/haikupeng/article/details/104974939

2020-09-08 13:38:06 383

原创 新建的springboot的报错:Exception in thread “main“ java.lang.IllegalArgumentException

背景: springboot 启动不起来Exception in thread "main" java.lang.IllegalArgumentException: Cannot instantiate interface org.springframework.context.ApplicationListener : org.springframework.boot.logging.ClasspathLoggingApplicationListener at org.springframework.

2020-09-05 16:58:03 1594

原创 写Flink table 和SQL遇到的问题(一)

import org.apache.flink.streaming.api.environment.StreamExecutionEnvironmentimport org.apache.flink.table.api.{DataTypes, EnvironmentSettings, Table, TableEnvironment}import org.apache.flink.table.api.java.StreamTableEnvironmentimport org.apache.flink.t

2020-09-04 20:21:52 918

原创 02.Redis

1.0 NoSQL 简介nosql是not only SQL的缩写memcache Redis MongoDB被称为nosql三剑客所以NoSQL数据库的最大优势体现为:高性能、高可用性和可伸缩性。LRU:最近最少使用 (缓存数据的算法)2.0 Redis简介2.1 概念支持 strings, hashes ,lists ,sets ,sorted sets2.2 官方地址官网地址 https://redis.io/下载地址 https://redis.io/do

2020-08-12 18:19:10 170

原创 01.ElasticSearch

1.0 ElasticSearch海量数据的传输: flume kafka储存:MySQL hdfs hbase ElasticSearch计算:mr hive spark工具:Azkaban1.1 什么是搜索?log百度!=搜索搜索,就是在任何场景下,找寻你想要的信息.1.2 如果用数据库做搜索会怎么样?没有办法实现输错的时候搜索–> %生化机%1.3 什么是全文检索和Lucene?全文检索:直接拿搜索的内容去比对Lucene:切词–>倒排索引(

2020-08-12 18:18:53 78

原创 04.Kylin

1.0 Kylin1.1 Kylin简介1.1.1 Kylin术语Data Warehouse(数据仓库)Business Intelligence(商业智能BI) -->数据转为知识OLAPPresto是ROLAP Kylin是MOLAPOLAP Cube:MOLAP基于多维数据集,一个多维数据集成为一个OLAP Cube上述的7个Cuboid组成1个Cube计算顺序:先计算角度7,在角度7的基础上计算其他角度D

2020-08-12 18:18:21 129

原创 05.集群监控

1.0 Zabbix入门1.1 Zabbix概述监控各种网络参数,服务器健康性和完整性的软件基于已存储的数据,Zabbix提供了出色的报告和数据可视化功能1.2 Zabbix基础架构触发器:相当于一个表达式(例如,使用率>90%)database:两类数据–>配置信息和收集的数据在Zabbix-web上配置信息2.0 Zabbix部署把文件放在httpd的路径下就可以通过页面访问3.0 Zabbix使用3.1 Zabbix术语Host(主机):一台你想监控

2020-08-12 18:18:05 92

原创 03.Git和GitHub的学习和使用上手

1.0 为什么需要版本控制从个人到团体工作2.0 版本控制工具​ SVN(集中式版本控制工具) 和 Git(分布式版本控制工具)3.0 Git简史略4.0 Git工作机制工作区(写代码)–git add–>暂存区(临时存储)–git commit–>本地库(历史版本)5.0 Git和代码托管中心局域网:GitLab外网:GitHub,码云6.0 本地库和远程库交互机制团队协作和跨团队协作7.0 Git安装略8.0 Git常用命令命令名称作用

2020-08-12 18:17:46 77

原创 03.Presto

1. 0 Presto1.1 Presto简介coordinator 和 workercatalog相当于是presto的元数据优缺点:优点:基础内存计算,减少磁盘IO能够连接多个数据源,跨数据源连表查询缺点:边读数据边计算,再清数据,但是连表查询,就可能产生临时数据,因此速度会变慢(可以提前join好,得到大宽表)Impala性能稍领先presto ,但是presto数据源支持上分厂丰富(技术选型的时候有用)1.2 Presto安装三个包都需要

2020-08-11 18:57:07 89

原创 02.Azkaban

1.0 Azkaban概论Ooize 是CDH集群 Azkaban 是Apache集群Ooize功能很全 但是在hadoop平台上有点麻烦 相比较下来 Azkaban为轻量级,已经可以满足一般的需求2.0 Azkaban入门单节点和集群模式(容灾 和 …)YAML语法 简单了解一下就可以了3.0 Azkaban进阶3.1 定时执行案例3.2 邮件报警案例类似于邮箱的SMTP服务4.0 参考资料4.1 Azkaban完整配置从hdfs导出到MySQL:如何

2020-08-11 18:55:15 70

原创 01.电商数据仓库系统

0.0 内容回顾kafka channel: 3种 可以在官网上看hdfs sink底层是event的header的时间戳 但是现在是kafka source自己加–>hadoop104的系统时间–>flume拦截器–>精确控制时间把拦截器安装在104上 因为102的配置里有设置不保留event结构的设置拦截器写在source上(能不能batch处理)1.0 数仓分层重点是数据结构 SQL是要慢慢练得1.1 为什么要分层ODS(Operation Data S

2020-08-11 18:53:02 216

08_Hive.pdf

08_Hive.pdf

2021-03-29

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除