潭中镜月-CSDN博客

原创提交多次commit之后需要压缩commit（包括远端），修改commit内容

git rebase 使用

2022-11-02 13:21:33 233

背景依旧是用户画像的项目，现在标签化的数据存放在hive中，而查询是要在hbase上进行查询，所以需要将hive的数据导入hbase中。方案：1、hive和hbase的表建立映射关系，读取的是同一份HDFS文件，只是在上层建立hbase到hive表的映射。优点：一份数据存储，两种查询模式，数据存储最低；缺点：底层还是格式化的HDFS文件，查询需要进行映射转换，效率较低；2、将hive的数据通过生成hfile，通过bulkload导入到hbase，这样底层数据的格式会转变成Hfile存储在hbas

2021-08-09 11:46:36 284

原创使用docker搭建网站

1.安装 dockerLinux 系统上使用 docker 大大降低了我们使用各种软件的门槛，推荐有兴趣的同学一定要去学习一下 docker,docker 安装的官方网站，复制命令一步步执行即可:docker 安装命令如下复制安装即可：(这里有个问题就是是否需要用root用户,后面需要再确定)sudo yum install -y yum-utils device-mapper-persistent-data lvm2sudo yum-config-manager --add-repo ht

2021-07-28 19:43:47 6698 5

原创 maven 终极大招不可能失败失败你留言

maven一坏,要么马上好,要么一天就过去了,我在网上看了太多的方式了,如果需要其他方式,大家可以随意搜,应该很多,我这里主要是提供一种我没有看见的方式就是从源头上解决这个问题 :https://repo1.maven.org/maven2 从这个网址里下载你所需要的的依赖,按照标准格式构建目录!!!!就没有解决不了的!!!!...

2021-07-22 17:47:50 62

原创 TDMQ 常用总结

一.产品简介腾讯云消息队列 TDMQ（Tencent Distributed Message Queue，简称 TDMQ）是一款基于 Apache 顶级开源项目 Pulsar 自研的金融级分布式消息中间件，具备跨城高一致、高可靠、高并发的特性。 TDMQ 目前已应用在腾讯计费绝大部分场景，包括支付主路径、实时对账、实时监控、大数据实时分析等方面1.1 产品概述腾讯云消息队列 TDMQ（Tencent Distributed Message Queue，简称 TDMQ）是一款基于 Apache 顶级开源

2021-07-13 14:42:50 6296 1

原创 Python难点(补充中)

一.高级特性1.生成器generator可以一边循环一边计算,可以节省大量的空间,主要有两种方式进行生成1.列表生成器[]改为()>>>L=[x for x in range(4)]>>>L[0,1,2,3]>>>g=(x for x in range(4))>>>g<generator object <genexpr> at 0x1022ef630>2.使用yield斐波拉契数列的例子

2021-06-09 11:43:20 189 3

转载 hive on spark环境搭建(官方源码编译方式)

此前，我已经搭建了 hive on spark, 不准确说是 spark on hive, 我可以在spark 中愉快得玩耍 hive,这也符合我当时得需求：hive on spark集群环境搭建然而，通过hive客户端连接，hive 使用spark 引擎时，却报了我无法解决得错误：hive on spark异常Failed to create Spark client for Spark session解决过程所以，只得参考官方网站方式来从新搭建：hive on spark:Hive on Sp

2021-03-29 14:25:00 851 1

原创 Spark core中的cache、persist区别，以及缓存级别详解

https://blog.csdn.net/yu0_zhang0/article/details/80424609

2020-12-07 16:02:44 117

转载 BigDecimal

BigDecimal.setScale()方法用于格式化小数点setScale(1)表示保留一位小数，默认用四舍五入方式setScale(1,BigDecimal.ROUND_DOWN)直接删除多余的小数位，如2.35会变成2.3setScale(1,BigDecimal.ROUND_UP)进位处理，2.31变成2.4setScale(1,BigDecimal.ROUND_HALF_UP)四舍五入，2.35变成2.4setScaler(1,BigDecimal.ROUND_HALF_DOWN)四舍

2020-12-07 15:24:59 1306

原创 org.apache.hadoop.hbase.DoNotRetryIOException: hconnection-0x4feb3272 closed

背景:从hbase读取数据写入原因:自己把hbase的表关闭的位置放错了

2020-11-24 15:47:31 2247 1

原创 SQL之判断是否为null

判断SQL是否为空的语句应该是where t2.BVDID is null 而不是where t2.BVDID = null这里要注意了,基本上每一次都会犯错 , 这次之后不应该再犯

2020-11-09 15:00:51 1119

原创 java.lang.NumberFormatException: For input string: ““

当时是这里没有写,要细心

2020-11-09 14:36:52 118

原创 java.sql.SQLException: Parameter index out of range (3 ＞ number of parameters, which is 2).

这里主要的问题还是往MySQL中插入数据的时候,使用占位符的时候出了问题修改为如下代码就可以了,之前需要2个参数,但是实际只有2个val sqlText = s"insert into ${mySQLTableName3}(ename,cityStr,city) values(?,?,?)"...

2020-11-04 15:50:51 491

原创 spark提交任务的模板

./bin/spark-submit –class –master –deploy-mode –conf = … # other options [application-arguments]举几个常用的用法例子：Run application locally on 8 cores./bin/spark-submit –class org.apache.spark.examples.SparkPi –master local[8] /path/to/examples.jar

2020-10-19 14:34:49 134

原创 pom文件报红的问题

一般来讲,不是因为依赖或者其他问题很有可能是:字符问题多加了空格或者什么问题

2020-10-18 13:39:13 989

原创 com.microsoft.sqlserver:sqljdbc4:jar:4.0下载不了

直接原因：制定路径下确实没有sqljdbc4.jar文件。根本原因：微软不允许以maven的方式直接下载该文件解决方法：1.下载 sqljdbc4.jar 下载地址可以百度搜索sqljdbc4.jar 去微软官网下载，也可以从这个地址下载：链接: http://pan.baidu.com/s/1nu6cgdz 密码: ikqn2.改名为sqljdbc4-4.0.jar，放到maven库里。我本地的maven仓库地址：C:\Users\sss.m2\repository\com\mic

2020-10-18 12:46:27 4162 1

原创 Flink demo练手

import org.apache.flink.api.common.state.{ValueState, ValueStateDescriptor}import org.apache.flink.streaming.api.TimeCharacteristicimport org.apache.flink.streaming.api.functions.KeyedProcessFunctionimport org.apache.flink.streaming.api.scala._import o

2020-09-09 20:09:52 189

原创 Flink 中对超时订单做验证和警告遇到的小问题

import java.net.URLimport java.utilimport org.apache.flink.cep.{PatternSelectFunction, PatternTimeoutFunction}import org.apache.flink.cep.scala.CEPimport org.apache.flink.cep.scala.pattern.Patternimport org.apache.flink.streaming.api.TimeCharacterist

2020-09-09 19:43:06 388

转载正则表达式的写法

https://juejin.im/post/6844903677119954958

2020-09-09 11:15:39 58

原创数据治理

数据治理:数据质量 (0.8天)元数据管理Atlas : 定位数据质量的问题 (0.5天)数据安全 (0.5天)1.0 数据质量1.1 数据质量数据治理:标准量化 : 将数据的健康程度具体化量化,目标(期望值)具体量化数据质量监控(校验) : 及时的提醒数据质量有问题数据质量保障(维护) : 发现问题,及时解决数据质量标准分类:数据完整性 : null值(空值,空记录) ; 数据增长(数据丢不丢失)(长期数据异常和短期数据异常)数据一致性 : 前后两层数据

2020-09-08 21:10:52 212

原创实时项目5(灵活分析)

1.0 需求分析为了方便数据分析人员查看需要用户表 (1) 订单表 (2) 订单明细表 (3)(1) 与 (2) (3) 基本不在一个批次 ; (2) 与 (3) 是 1 对 n 的关系 , 且可能不在一个批次2.0 架构分析有 T+1 和 T+0 模式双流join : 因为有数据延迟 , 所以要用full outer join 把没有 join 上的 order_detail 也保留下来 , 把order_indo 查看前面的 order_detail , 再无条件的保留下 or

2020-09-08 21:10:09 182

原创实时项目4(预警需求)

1.0 需求分析1.1 简介**实时预警，**是一种经常出现在实时计算中的业务类型。根据日志数据中系统报错异常，或者用户行为异常的检测，产生对应预警日志。预警日志通过图形化界面的展示，可以提醒监控方，需要及时核查问题，并采取应对措施。1.2 需求说明**需求：**同一设备，5分钟内三次及以上用不同账号登录并领取优惠劵，并且过程中没有浏览商品。达到以上要求则产生一条预警日志。并且同一设备，每分钟只记录一次预警。1.3 预警日志格式mid设备****iduids领取优惠券登录过

2020-09-08 21:09:30 244

原创实时项目3(交易额需求)

1.0 采集数据1.1 框架流程1.2 Canal 入门1.2.1 什么是 Canal阿里巴巴B2B公司，因为业务的特性，卖家主要集中在国内，买家主要集中在国外，所以衍生出了杭州和美国异地机房的需求，从2010年开始，阿里系公司开始逐步的尝试基于数据库的日志解析，获取增量变更进行同步，由此衍生出了增量订阅&消费的业务。Canal是用Java开发的基于数据库增量日志解析，提供增量数据订阅&消费的中间件。目前，Canal主要支持了MySQL的Binlog解析，解析完成后才利用Cana

2020-09-08 21:08:53 116

原创实时项目2(日活需求)

2.0 日活数据查询接口2.1 访问路径总数http://localhost:8070/realtime-total?date=2020-07-18分时统计http://localhost:8070/realtime-hours?id=dau&date=2020-07-182.2 要求数据格式总数[{“id”:“dau”,“name”:“新增日活”,“value”:1200}, {“id”:“new_mid”,“name”:“新增设备”,“value”:

2020-09-08 21:08:02 124

原创实时项目1(数据采集模板)

1.0 需求概述1.1 实时需求与离线需求的比较**离线需求（T+1）：**一般是根据前一日的数据生成报表等数据，虽然统计指标、报表繁多，但是对时效性不敏感。实时需求（T+0）：主要侧重于对当日数据的实时监控，通常业务逻辑相对离线需求简单一下，统计指标也少一些，但是更注重数据的时效性(从查询到出结果的时间比较短)，以及用户的交互性。即席查询:主要侧重于临时性不需要每天都去跑的任务1.2 需求说明1.2.1 日用户首次登录（日活）分时趋势图，昨日对比数据流:用户行为数据 --

2020-09-08 21:07:12 1030

原创 Flink的学习

1.0 Flink的简介Flink是什么Apache Flink is a framework and distributed processing engine for stateful computations over unbounded and bounded data streams. 快速灵巧为什么选择Flink流数据更真实地反映了我们的生活方式传统的数据架构是基于有限数据集的(因为批处理数据更简单)我们的目标是低延迟高吞吐结果的准确性和良好的容错性lamb

2020-09-08 20:46:31 607 1

原创 flink添加黑名单需求时报错

报错:SLF4J: Failed to load class "org.slf4j.impl.StaticLoggerBinder".SLF4J: Defaulting to no-operation (NOP) logger implementationSLF4J: See http://www.slf4j.org/codes.html#StaticLoggerBinder for further details.Exception in thread "main" java.util.concu

2020-09-08 19:43:17 454

原创 Typora 设置上传图片功能

其实主要还是端口号的问题在picgo上修改设置为36677其他的基本没有问题,下面链接的讲的很详细: 可以参考一下https://blog.csdn.net/haikupeng/article/details/104974939

2020-09-08 13:38:06 383

原创新建的springboot的报错:Exception in thread “main“ java.lang.IllegalArgumentException

背景: springboot 启动不起来Exception in thread "main" java.lang.IllegalArgumentException: Cannot instantiate interface org.springframework.context.ApplicationListener : org.springframework.boot.logging.ClasspathLoggingApplicationListener at org.springframework.

2020-09-05 16:58:03 1594

原创写Flink table 和SQL遇到的问题(一)

import org.apache.flink.streaming.api.environment.StreamExecutionEnvironmentimport org.apache.flink.table.api.{DataTypes, EnvironmentSettings, Table, TableEnvironment}import org.apache.flink.table.api.java.StreamTableEnvironmentimport org.apache.flink.t

2020-09-04 20:21:52 918

08_Hive.pdf

空空如也