- 博客(445)
- 资源 (18)
- 收藏
- 关注

原创 图解HIVE时间和日期and类型转换
时间戳现在今天昨天字符串秒数现在SELECT CURRENT_TIMESTAMP();current_dateunix_timestampFROM_UTC_TIMESTAMPGMT+8
2021-06-25 20:08:31
219

原创 大数据(0b)离线数据仓库
离线数仓数据库Database按照数据结构来组织、存储和管理数据的仓库数据仓库Data Warehouse是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合范式:构造关系数据库遵循的规则范式理论关系建模维度建模维度表事实表数仓分层ODS Operation Data StoreDWD Data Warehouse DetailDWS Data Warehouse ServiceDWT DataData Warehouse TopicADS
2020-12-25 23:34:29
1213
1

原创 图解Python时间和日期time和datetime数据类型转换
4大数据类型time.struct_time ⇌ floattime.struct_time ⇌ strdatetime.datetime ⇌ strPython主要内容:时间相关的数据类型转换floattime.struct_timestrdatetime.datetime4大数据类型import time, datetime时间运算日期转换
2020-02-27 08:47:34
2360
4

原创 文本清洗正则表达式(持续更新)
文章目录替换标点:中->英转小写查找时间数量词文本切分替换标点:中->英def replace_punctuation(text): """替换标点(英→中)""" text = text.replace(',', ',') # 逗号 text = text.replace(';', ';') # 分号 text = text.replace(...
2019-09-16 15:57:03
3918
7

原创 Python【print】常用颜色(复制用)
字体颜色# redprint('\033[031m')print('\033[0m')# yellowprint('\033[033m')# blueprint('\033[034m')# purpleprint('\033[035m')蓝绿色计时器背景色
2018-06-18 11:43:57
3185
1
原创 Python工程师Java之路(t)SpringBoot配置文件
SpringBoot配置文件@Component@ConfigurationProperties@Autowired
2022-12-28 14:38:12
220
原创 记一些女装数据分析
服装维度尺码:XS、S、M、L、XL一级分类:上半身、下半身、全身季节:春、夏、秋、冬价格类型:正价、特价、折扣价、降价、优惠券…价格段:廉、贵年龄段:婴儿、儿童、少年、青年、中年面料:棉布、麻布、丝绸、、呢绒、皮革、化纤、混纺、莫代尔厚度:厚、薄长度:长、中、短、超短是否展陈(通常,贵价连衣裙 会 用衣架挂起展示,甚至穿假人身上,而 便宜T恤 则 折叠堆放)季节状态:季前、当季、过季服装的重要特性:试穿因此,先上渠道 和 线下渠道 各有优势
2022-12-13 18:11:30
390
原创 实时数仓Flink生产环境部署+提交作业【步骤】
fastjsonjsonCheckpointorg.apache.hadoopFlinkSQLflink-connector-kafkaflink-table-planner-blinkorg.apache.maven.pluginsmaven-shade-plugin
2022-12-08 18:47:28
722
原创 Python工程师Java之路(w)数据库连接池Druid
DruidDataSourceDruidPooledConnectionjava.sql.ResultSetjava.sql.ResultSetMetaDatajava.sql.Statement缓冲池数据库连接池com.alibabaconnection pool
2022-12-06 12:36:50
562
1
原创 大数据(9f)Flink窗口函数练习:计算PV和UV
PVPage View,页面浏览量UVUnique Visitor,独立访客数(本文按设备ID去重)
2022-12-05 14:30:42
69
原创 一段时间后,stop-dfs.sh关不掉Hadoop3.1.3集群,stop-hbase.sh关不掉HBase集群
stop-dfs.sh关不掉Hadoop3.1.3集群stop-hbase.sh关不掉HBase集群
2022-12-04 10:12:53
282
原创 大数据(9j)FlinkCDC
CDC概述Flink-CDCflink-connector-mysql-cdcFlink-CDC代码测试开启MySQL8 BinlogFlinkSQL
2022-12-02 23:45:25
345
原创 大数据(9e)Flink侧输出流
sideOutputLateDataside output窗口允许迟到的数据,但仍有数据在关窗后到达Flink提供了侧输出流(sideOutput)来处理关窗之后到达的数据sideOutputLateDataOutputTagsideOutput
2022-11-30 17:33:28
1364
原创 大数据(9h)FlinkSQL双流JOIN
Lookup JoinTemporal Joins基于处理时间JOIN设置状态保留时间基于事件时间JOINInterval Joins(基于间隔JOIN)Temporal Join
2022-11-29 16:32:03
773
原创 大数据(9h)FlinkSQL之Lookup Join
ttlFOR SYSTEM_TIME AS OFProcessing Time Temporal Joinlookup joinlookup cacheFlink查询缓存lookup.cache.max-rowslookup.cache.ttl
2022-11-29 16:29:12
2362
1
原创 自写Java时间处理工具(处理数据用)
获取当前时间获取今天日期获取昨天日期获取当前时间戳时间戳(毫秒级)转字符串时间戳(秒级)转字符串字符串转时间戳(毫秒级)字符串转时间戳(秒级)SimpleDateFormattime.Instant;java.time.LocalDateTimeZoneIdDateTimeFormatter
2022-11-29 10:19:24
95
原创 大数据(9e)Flink定时器
registerProcessingTimeTimerregisterEventTimeTimer基于处理时间的定时器基于事件时间的定时器
2022-11-28 14:05:10
88
原创 Flink打印当前Watermark
WatermarkStrategyforMonotonousTimestampstimerServicecurrentWatermarkforBoundedOutOfOrderness水位线水位线策略MonotonousWatermark
2022-11-28 12:49:36
182
原创 大数据(9f)Flink双流JOIN
使用状态列表实现 INNER JOIN(双流connect后CoProcessFunction)基于间隔的JOIN(Interval Join)基于窗口的JOIN(Window Join)
2022-11-27 09:20:20
333
原创 Python工程师Java之路(h)Java字符串拼接+null拼接处理
Java版本:1.8String的concatStringBuilder和StringBuffer的appendString的joinStringJoinerStringUtils.join场景:拼接SQLPhoenixMySQL
2022-11-24 22:25:19
377
原创 大数据(9f)Flink状态编程
Managed StateOperator StateListStateBroadcastStateKeyed StateValueStateListStateMapStateReducingStateAggregatingState状态后端
2022-11-24 00:07:00
351
原创 Python工程师Java之路(v)Socket极简代码
TCP服务端Client/Server结构:客户端和服务器结构TCP传输控制协议(Transmission Control Protocol)可靠的连接UDP用户数据报协议(User Datagram Protocol)发送端发出数据时,不会确认接收端是否存在;接收端接收数据时,不会向发送端反馈是否收到网络传输的基本单位 :数据报(Datagram)客户端UDP接收端发送端socket
2022-11-23 14:01:49
252
原创 大数据(9d)Flink转换算子Transform
TransformmapflatMapfilterunionconnectprocesskeyByreducesum、max、minKeyedProcessFunctionProcessFunctionKeyedStream
2022-11-23 12:57:31
279
原创 大数据(9f)Flink富函数RichFunction
生命周期运行时上下文RichFunctionRuntimeContextFlink1.14.6
2022-11-22 16:30:54
906
原创 大数据(9e)图解Flink窗口
Non-Keyed的窗口的流的并行度=1本地开发环境:WIN10+IDEA代码模板pom.xmllog4j.propertiesJava模板按键分区(Keyed)、非按键分区(Non-Keyed)KeyedNon-Keyed窗口的分类基于时间的窗口基于事件个数的窗口窗口函数示例代码ReduceFunctionAggregateFunctionProcessWindowFunct
2022-11-21 00:35:50
255
原创 大数据(9d)Flink流处理核心编程练习:计算PV和UV
本地开发环境(WIN10+IDEA)Flink之Transform练习模板计算PV:每个页面的浏览量UV:每个页面的访客数(按设备ID去重)Page ViewUnique Visitor
2022-11-19 19:32:06
177
2
原创 CentOS7自有服务和软件包
什么是程序全称计算机程序或电脑程式,简称程序,是一组计算机能识别和执行的指令什么是进程(Process)?计算机程序关于某数据集合上的一次运行活动什么是服务?特定的进程什么是自有服务?Linux系统开机后 自动运行的 服务例如:SSH服务rpmyum
2022-11-17 18:51:15
332
1
原创 图解CentOS7集群时钟同步chronyd
对于物理机集群,需要使用统一的时间,本文使用时钟同步技术来实现默认的 外部网络的 时钟服务器 在国外,速度较慢换成 国内的 时钟服务,速度较快步骤1、修改时区每台机执行2、安装chrony每台机执行,查看有无安装chrony每台机执行,安装chrony每台机执行,设置chrony开机自启3、选1台机作为时钟服务器以作为内网集群的时钟服务器,其它机与本机时间进行同步而本机与阿里云时间进行同步,配置chrony做如下修改改完后,重启chrony服务4、其他机器同步时间
2022-11-17 10:44:09
356
1
原创 SQL计算均值遇到NULL
当数值列中含有NULL,将不被计算如果业务需求要把NULL行计算入内方案1:把NULL转0方案2:先求和,再除以 权数
2022-11-13 15:15:58
145
原创 Python工程师Java之路(t)SpringBoot极速极简入门代码
SpringBoot实现数据服务接口pom.xmlapplication.propertiesApplicationbeancontrollerservicemapper
2022-11-13 10:47:54
506
原创 大数据(5r)ClickHouse客户端
命令行客户端ClickHouse服务的版本号查询clickhouse-client下载方法Python连ClickHouseJava连接ClickHouse
2022-11-04 20:32:32
1129
原创 内网搭建git服务器
步骤1、安装git2、创建用户3、创建仓库地址的目录4、切换用户5、生成密钥6、发送密钥给自己7、创建代码仓库8、下载代码Windows11生成密钥对,并把公钥放到git服务器,用于免密1、打开git终端2、配置用户名3、生成密钥并查看公钥4、将公钥复制到git服务器
2022-10-28 22:04:06
1117
原创 CentOS7修改MySQL8数据存储路径
MySQL数据文件默认在/var下,本文要将其修改到自定义目录/data下,以下操作的用户是root。1、查看数据存储路径2、停止MySQL3、修改配置文件4、迁移数据文件5、启动MySQL
2022-10-28 10:53:10
226
编译好的Atlas服务和HIVE-hook
2022-02-03
AI古诗生成2021版.rar
2021-06-20
hadoop-3.1.0.rar
2021-04-14
离线数仓安装包.rar
2021-01-06
大数据入门安装包Hadoop、JDK等
2020-12-25
自然语言处理文本分类实验
2020-09-27
NLP文本10分类EXCEL
2020-09-19
region2019.xlsx
2020-05-28
中国行政区划【更新至2018-10-31】
2019-03-27
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人