自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

ArYe

人工智能

  • 博客(445)
  • 资源 (18)
  • 收藏
  • 关注

原创 图解HIVE时间和日期and类型转换

时间戳现在今天昨天字符串秒数现在SELECT CURRENT_TIMESTAMP();current_dateunix_timestampFROM_UTC_TIMESTAMPGMT+8

2021-06-25 20:08:31 219

原创 大数据(0b)离线数据仓库

离线数仓数据库Database按照数据结构来组织、存储和管理数据的仓库数据仓库Data Warehouse是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合范式:构造关系数据库遵循的规则范式理论关系建模维度建模维度表事实表数仓分层ODS Operation Data StoreDWD Data Warehouse DetailDWS Data Warehouse ServiceDWT DataData Warehouse TopicADS

2020-12-25 23:34:29 1213 1

原创 图解Python时间和日期time和datetime数据类型转换

4大数据类型time.struct_time ⇌ floattime.struct_time ⇌ strdatetime.datetime ⇌ strPython主要内容:时间相关的数据类型转换floattime.struct_timestrdatetime.datetime4大数据类型import time, datetime时间运算日期转换

2020-02-27 08:47:34 2360 4

原创 文本清洗正则表达式(持续更新)

文章目录替换标点:中->英转小写查找时间数量词文本切分替换标点:中->英def replace_punctuation(text): """替换标点(英→中)""" text = text.replace(',', ',') # 逗号 text = text.replace(';', ';') # 分号 text = text.replace(...

2019-09-16 15:57:03 3918 7

原创 Python【print】常用颜色(复制用)

字体颜色# redprint('\033[031m')print('\033[0m')# yellowprint('\033[033m')# blueprint('\033[034m')# purpleprint('\033[035m')蓝绿色计时器背景色

2018-06-18 11:43:57 3185 1

原创 Python工程师Java之路(t)使用Shell脚本部署SpringBoot

mavenGit仓库服务器进程编译、打包、重启

2023-03-18 11:11:38 585

原创 海南三亚游记2022-2023跨年

海南三亚海口亚龙湾西岛鹿回头天涯海角机票椰子吉阳区天涯区

2023-01-06 18:28:27 643

原创 Python工程师Java之路(t)SpringBoot配置文件

SpringBoot配置文件@Component@ConfigurationProperties@Autowired

2022-12-28 14:38:12 220

原创 Python工程师Java之路(t)SpringBoot部署步骤 java -jar

java -jar

2022-12-17 18:10:43 279

原创 记一些女装数据分析

服装维度尺码:XS、S、M、L、XL一级分类:上半身、下半身、全身季节:春、夏、秋、冬价格类型:正价、特价、折扣价、降价、优惠券…价格段:廉、贵年龄段:婴儿、儿童、少年、青年、中年面料:棉布、麻布、丝绸、、呢绒、皮革、化纤、混纺、莫代尔厚度:厚、薄长度:长、中、短、超短是否展陈(通常,贵价连衣裙 会 用衣架挂起展示,甚至穿假人身上,而 便宜T恤 则 折叠堆放)季节状态:季前、当季、过季服装的重要特性:试穿因此,先上渠道 和 线下渠道 各有优势

2022-12-13 18:11:30 390

原创 FlinkCDC部署

FLINK-CDCFlinkCDC

2022-12-10 12:48:30 1209

原创 实时数仓Flink生产环境部署+提交作业【步骤】

fastjsonjsonCheckpointorg.apache.hadoopFlinkSQLflink-connector-kafkaflink-table-planner-blinkorg.apache.maven.pluginsmaven-shade-plugin

2022-12-08 18:47:28 722

原创 大数据(9h)FlinkSQL连MySQL、Kafka

flink-connector-jdbcflink-connector-kafka

2022-12-06 15:35:22 144

原创 Python工程师Java之路(w)数据库连接池Druid

DruidDataSourceDruidPooledConnectionjava.sql.ResultSetjava.sql.ResultSetMetaDatajava.sql.Statement缓冲池数据库连接池com.alibabaconnection pool

2022-12-06 12:36:50 562 1

原创 大数据(9f)Flink窗口函数练习:计算PV和UV

PVPage View,页面浏览量UVUnique Visitor,独立访客数(本文按设备ID去重)

2022-12-05 14:30:42 69

原创 一段时间后,stop-dfs.sh关不掉Hadoop3.1.3集群,stop-hbase.sh关不掉HBase集群

stop-dfs.sh关不掉Hadoop3.1.3集群stop-hbase.sh关不掉HBase集群

2022-12-04 10:12:53 282

原创 大数据(9g)FlinkCEP

CEPComplex Event Processing:复杂事件处理flink-cepflink

2022-12-03 23:23:02 460

原创 大数据(9j)FlinkCDC

CDC概述Flink-CDCflink-connector-mysql-cdcFlink-CDC代码测试开启MySQL8 BinlogFlinkSQL

2022-12-02 23:45:25 345

原创 大数据(9e)Flink侧输出流

sideOutputLateDataside output窗口允许迟到的数据,但仍有数据在关窗后到达Flink提供了侧输出流(sideOutput)来处理关窗之后到达的数据sideOutputLateDataOutputTagsideOutput

2022-11-30 17:33:28 1364

原创 大数据(9h)FlinkSQL双流JOIN

Lookup JoinTemporal Joins基于处理时间JOIN设置状态保留时间基于事件时间JOINInterval Joins(基于间隔JOIN)Temporal Join

2022-11-29 16:32:03 773

原创 大数据(9h)FlinkSQL之Lookup Join

ttlFOR SYSTEM_TIME AS OFProcessing Time Temporal Joinlookup joinlookup cacheFlink查询缓存lookup.cache.max-rowslookup.cache.ttl

2022-11-29 16:29:12 2362 1

原创 自写Java时间处理工具(处理数据用)

获取当前时间获取今天日期获取昨天日期获取当前时间戳时间戳(毫秒级)转字符串时间戳(秒级)转字符串字符串转时间戳(毫秒级)字符串转时间戳(秒级)SimpleDateFormattime.Instant;java.time.LocalDateTimeZoneIdDateTimeFormatter

2022-11-29 10:19:24 95

原创 大数据(9e)Flink定时器

registerProcessingTimeTimerregisterEventTimeTimer基于处理时间的定时器基于事件时间的定时器

2022-11-28 14:05:10 88

原创 Flink打印当前Watermark

WatermarkStrategyforMonotonousTimestampstimerServicecurrentWatermarkforBoundedOutOfOrderness水位线水位线策略MonotonousWatermark

2022-11-28 12:49:36 182

原创 大数据(9f)Flink双流JOIN

使用状态列表实现 INNER JOIN(双流connect后CoProcessFunction)基于间隔的JOIN(Interval Join)基于窗口的JOIN(Window Join)

2022-11-27 09:20:20 333

原创 Python工程师Java之路(h)Java字符串拼接+null拼接处理

Java版本:1.8String的concatStringBuilder和StringBuffer的appendString的joinStringJoinerStringUtils.join场景:拼接SQLPhoenixMySQL

2022-11-24 22:25:19 377

原创 大数据(9f)Flink状态编程

Managed StateOperator StateListStateBroadcastStateKeyed StateValueStateListStateMapStateReducingStateAggregatingState状态后端

2022-11-24 00:07:00 351

原创 Python工程师Java之路(v)Socket极简代码

TCP服务端Client/Server结构:客户端和服务器结构TCP传输控制协议(Transmission Control Protocol)可靠的连接UDP用户数据报协议(User Datagram Protocol)发送端发出数据时,不会确认接收端是否存在;接收端接收数据时,不会向发送端反馈是否收到网络传输的基本单位 :数据报(Datagram)客户端UDP接收端发送端socket

2022-11-23 14:01:49 252

原创 大数据(9d)Flink转换算子Transform

TransformmapflatMapfilterunionconnectprocesskeyByreducesum、max、minKeyedProcessFunctionProcessFunctionKeyedStream

2022-11-23 12:57:31 279

原创 大数据(9f)Flink富函数RichFunction

生命周期运行时上下文RichFunctionRuntimeContextFlink1.14.6

2022-11-22 16:30:54 906

原创 大数据(9e)图解Flink窗口

Non-Keyed的窗口的流的并行度=1本地开发环境:WIN10+IDEA代码模板pom.xmllog4j.propertiesJava模板按键分区(Keyed)、非按键分区(Non-Keyed)KeyedNon-Keyed窗口的分类基于时间的窗口基于事件个数的窗口窗口函数示例代码ReduceFunctionAggregateFunctionProcessWindowFunct

2022-11-21 00:35:50 255

原创 大数据(9d)Flink流处理核心编程练习:计算PV和UV

本地开发环境(WIN10+IDEA)Flink之Transform练习模板计算PV:每个页面的浏览量UV:每个页面的访客数(按设备ID去重)Page ViewUnique Visitor

2022-11-19 19:32:06 177 2

原创 Python工程师Java之路(u)Java循环输入

使用Java语言实现循环输入输出Scanner(System.in)

2022-11-18 11:19:48 145

原创 CentOS7自有服务和软件包

什么是程序全称计算机程序或电脑程式,简称程序,是一组计算机能识别和执行的指令什么是进程(Process)?计算机程序关于某数据集合上的一次运行活动什么是服务?特定的进程什么是自有服务?Linux系统开机后 自动运行的 服务例如:SSH服务rpmyum

2022-11-17 18:51:15 332 1

原创 图解CentOS7集群时钟同步chronyd

对于物理机集群,需要使用统一的时间,本文使用时钟同步技术来实现默认的 外部网络的 时钟服务器 在国外,速度较慢换成 国内的 时钟服务,速度较快步骤1、修改时区每台机执行2、安装chrony每台机执行,查看有无安装chrony每台机执行,安装chrony每台机执行,设置chrony开机自启3、选1台机作为时钟服务器以作为内网集群的时钟服务器,其它机与本机时间进行同步而本机与阿里云时间进行同步,配置chrony做如下修改改完后,重启chrony服务4、其他机器同步时间

2022-11-17 10:44:09 356 1

原创 SQL计算均值遇到NULL

当数值列中含有NULL,将不被计算如果业务需求要把NULL行计算入内方案1:把NULL转0方案2:先求和,再除以 权数

2022-11-13 15:15:58 145

原创 Python工程师Java之路(t)SpringBoot极速极简入门代码

SpringBoot实现数据服务接口pom.xmlapplication.propertiesApplicationbeancontrollerservicemapper

2022-11-13 10:47:54 506

原创 大数据(5r)ClickHouse客户端

命令行客户端ClickHouse服务的版本号查询clickhouse-client下载方法Python连ClickHouseJava连接ClickHouse

2022-11-04 20:32:32 1129

原创 内网搭建git服务器

步骤1、安装git2、创建用户3、创建仓库地址的目录4、切换用户5、生成密钥6、发送密钥给自己7、创建代码仓库8、下载代码Windows11生成密钥对,并把公钥放到git服务器,用于免密1、打开git终端2、配置用户名3、生成密钥并查看公钥4、将公钥复制到git服务器

2022-10-28 22:04:06 1117

原创 CentOS7修改MySQL8数据存储路径

MySQL数据文件默认在/var下,本文要将其修改到自定义目录/data下,以下操作的用户是root。1、查看数据存储路径2、停止MySQL3、修改配置文件4、迁移数据文件5、启动MySQL

2022-10-28 10:53:10 226

编译好的Atlas服务和HIVE-hook

版本2.1.0 apache-atlas-2.1.0-server.tar.gz和apache-atlas-2.1.0-hive-hook.tar.gz

2022-02-03

ClickHouse2021年的安装包

解压后有4个ClickHouse的安装包

2021-09-01

ElasticSearch6.6压缩Linux压缩包

ElasticSearch6.6+kibana-6.6.0+elasticsearch-analysis-ik-6.6

2021-08-25

AI古诗生成2021版.rar

Python程序写诗【训练1分钟】古诗生成,原创链接: https://yellow520.blog.csdn.net/article/details/86726619

2021-06-20

hadoop-3.1.0.rar

适用于Windows10+IDEA上开发hadoop3.13的安装包(或者叫:压缩包;依赖) https://yellow520.blog.csdn.net/article/details/115712233

2021-04-14

segment.rar

Java+Maven实现中文分词:https://yellow520.blog.csdn.net/article/details/115035978

2021-04-06

Spark中文分词+文本分类.rar

Scala中文分词+SparkML逻辑回归 实现 中文文本分类

2021-03-25

离线数仓安装包.rar

亲测可用的JDK、Hadoop、HIVE安装包,配套博文: https://yellow520.blog.csdn.net/article/details/112253651

2021-01-06

大数据入门HIVE和MySQL安装包

配套专栏:https://blog.csdn.net/yellow_python/category_10582173.html

2020-12-25

大数据入门安装包Hadoop、JDK等

配套本专栏(https://blog.csdn.net/yellow_python/category_10582173.html)的大数据入门安装包

2020-12-25

自然语言处理文本分类实验

Python文本分类总结:贝叶斯,逻辑回归,决策树,随机森林,SVM,词向量,TFIDF,神经网络,CNN,LSTM,GRU,双向RNN,LDA:含文本10分类语料、机器学习算法、深度学习算法、专家系统,文本分类结果及结论

2020-09-27

NLP文本10分类EXCEL

用于自然语言处理的文本10分类语料,xlsx格式,数据量19467,分别为: [('science', 2093), ('car', 2066), ('finance', 2052), ('sports', 2017), ('military', 2007), ('medicine', 2000), ('entertainment', 1906), ('politics', 1865), ('education', 1749), ('fashion', 1712)]

2020-09-19

2020中国省市拼音.xlsx

2020年中国一级和二级行政区划的【驼峰拼音】,一共三百多条数据,另附行政区划全称和简称,说得够清楚了,下了就不要给差评。

2020-07-21

region2019.xlsx

中国行政区划2019(2020年采集),采集自国家统计局http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/

2020-05-28

中国行政区划【更新至2018-10-31】

中国行政区划(更新至2018-10-31),数据采集于2019年采集。 采集网址:http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2018/index.html

2019-03-27

Keras英译中seq2seq简洁示例

Keras【极简】seq2seq英译中示例,附带语料以及训练500次后的模型

2019-02-21

Python程序写诗【1分钟】古诗词生成

Python词向量gensim文本生成,训练【一分钟】,诗词歌赋【一秒生成】

2019-02-11

Python一分钟生成古诗词

Python文本生成程序,从零训练词向量,一分钟生成古诗对联~

2019-01-31

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除