自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(54)
  • 收藏
  • 关注

原创 SQL 的窗口函数 sum() over(partition by 字段 )

工单号ticket_id 分区,按照自增字段id 升序排序,对fiflte值求和,当重启1次,累计总和就会加+1,故第一轮重启后流转的工单明细,fiflte值全部为1。工作流表为,工单在每个角色处处理完成并流转进入下一个角色就会生成一条记录,当工单重启时,flow_type = 9,其他状态非9。故首先将flow_type = 9 的明细值自定义为1,其他为0,并重新生成一个字段fiflte。客户处理的工单可能会一次完成,也有可能客户还有其他疑问,会多次重启。

2025-01-14 16:50:58 435

原创 MySQL中的合并函数

按照工单号分组,group_concat()函数将工作流表中的创建时间合并,并按照创建时间升序排序,确定将合并后的字符串拆解后,按照一定规则可以准确取到创建时间和工单的最终完成时间,并进一步计算完成工单的耗时。只取工单完成一轮次,从工单创建,到最终工单完成,在工作流表中,第一条数据和最后一条数据,第一条数据的创建时间即为工单初始创建时间,最后一条数据的创建时间即为工单的完成时间;在合并之时对合并的数据排序,可以确定在拆解合并后的字段后,最终取到的数据的准确性。一、group_concat。

2025-01-14 16:26:51 245

原创 SQL查询全表,仅排除其中的几列不展示

num 和 class_id 两列不查询,其他列全部查询。num 列不查询,其他列全部查询。

2024-07-24 09:44:58 493

原创 lambda,Python中一个强大的函数

如前文所述,lambda函数可以用于定义简单、临时的函数。这些函数通常只是一行代码,并只执行一个任务。例如,您可以定义一个lambda函数来对列表中的元素进行排序或过滤。

2024-07-18 16:41:24 920

原创 Numpy

数据分析: NumPy提供了大量的数值和统计函数,可用于数据清洗和预处理。比如,你可以使用NumPy进行数据的筛选、排序、聚合等操作。(Numerical Python)是Python的一个开源的数值计算扩展库,主要用于对大量数据进行高效存储和计算。图像处理: 利用NumPy的多维数组,可以方便地对图像进行处理,例如图像的缩放、转换、滤波等。信号处理: 在信号处理领域,NumPy可以作为数据分析和预处理工具,处理如音频信号数据等。总的来说,只要涉及到大量数据的数值计算和处理,很可能都会需要用到NumPy。

2024-07-15 14:56:04 352

原创 Pandas

Pandas 提供了丰富的功能,包括:

2024-07-15 14:52:33 142

原创 Numpy 和 pandas的区别

Pandas 则支持更多种类的数据结构,如 Series、DataFrame 和 Panel,其中最常用的是 DataFrame,它是由多个 Series 组成的表格型数据结构,适用于处理二维表格类型的数据。2、数据类型:NumPy 数组中只能包含一种数据类型,如整数或浮点数,而 Pandas 中的 DataFrame 可以包含多种数据类型,如数字、字符串、布尔值等,这使得 Pandas 更加灵活。1、pandas操作的数据集是Series,本质上是列表与字典的混合,常用的数据形式为DataFrame;

2024-07-15 14:49:57 245

原创 matplotlib 做饼图

matplotlib pie 饼图

2024-06-20 10:20:00 208

原创 matplotlib做分组柱状图

分组 柱状图 matplotlib

2024-06-19 16:41:42 224

原创 Matplotlib 和 Seaborn的区别

Seaborn matplotlib

2024-06-19 14:25:35 369

原创 pyecharts画水球图

水球图

2024-06-12 16:20:02 289

原创 pyechart 创建柱形图

Pyecharts 是一个基于 Python 的开源数据可视化库,用于创建各种交互式的图表和可视化效果。它是在 Echarts 的基础上进行封装和优化,Echarts 是一个流行的 JavaScript 数据可视化库。pyecharts 模块 还支持动态数据更新、交互操作、动画效果等功能 , 可以让用户更加直观地理解和分析数据。

2024-06-12 10:58:59 351

原创 matplotlib ---词云图

词云图是一种直观的方式来展示文本数据,可以体现出一个文本中词频的使用情况,有利于文本分析,通过词频可以抓住一篇文章的重点。本文通过处理一篇关于分析影响洋流流向的文章,分析影响洋流流向的主要因素都有哪些。4、设置停用词&在已处理的文本中过滤停用词。5、设置png掩膜(设置图像显示的形状)

2024-05-28 17:53:37 644

原创 解决bug :OSError: cannot open resource

在创建词云,运行程序的时候报错OSError: cannot open resource。在Windows操作系统上,字体文件通常存储在 ​。方法2>在网上下载自己想要的字体,然后放在这个文件夹下。但是在windows系统现有的字体中并没有这种字体。遇到这种报错,通常是由于无法加载字体导致的。方法1> 更改字体样式,选择一种现有的字体。3、分析出现问题的原因。

2024-05-28 11:39:14 1373

原创 matplotlib---气泡图

气泡图(Bubble Chart)是一种数据可视化图形,主要用于展示多个数据点之间的关系。气泡图通过气泡的大小,位置和颜色可以展示数据之间的关系。在气泡图中,横轴和纵轴通常表示数据的两个维度,而气泡的半径和位置则表示数据的值。气泡图可在二维平面上展示多元数据间的关系。下面以python中的鸢尾花数据集来展示,气泡图的绘制和对数据的展现iris = load_iris() # 这里,从sklearn库中加载鸢尾花数据集 获得的数据集是一个列表,其中有两列,一列是鸢尾花的特征,一列是鸢尾花的种类。

2024-05-27 17:43:05 401

原创 matplotlib做折现&柱状复合图

【代码】matplotlib做折现&柱状复合图。

2024-05-27 13:58:27 216

原创 解决bug: A value is trying to be set on a copy of a slice from a DataFrame

python DataFrame 赋值报错

2024-04-29 16:21:38 256

原创 python计算两个日期间的工作日天数

计算两个日期间的工作日天数

2024-04-23 19:04:01 953 2

原创 运营分析模型----人货场

用户运营

2023-11-16 09:18:59 359

原创 运营分析模型----AARRR模型

用户运营,AARRR

2023-11-15 12:48:40 208

原创 运营分析模型----RFM模型

产品运营,RFM

2023-11-14 13:01:51 119

原创 运营分析----用户行为理论

用户生命周期,用户运营

2023-11-09 21:51:51 106

原创 运营分析模型-----5W2H分析法

运营,用户运营

2023-11-09 21:40:57 90

原创 常用运营分析模型-----QQ模型

运营分析模型

2023-11-09 21:11:18 79

原创 财务报表分析

财务,财务报表

2023-11-09 20:57:17 76

原创 SQL查询中的模糊匹配

SQL 模糊查询

2022-11-21 17:14:28 3718

原创 XGboost和GBDT的异同

xgb

2022-11-04 11:16:00 331

原创 XGboost原理

XGboost

2022-11-04 11:10:55 250

原创 union 和 union all的区别

union 和 union all的区别

2022-11-04 11:04:37 344

原创 SQL调优

SQL调优

2022-11-04 10:57:39 83

原创 hive中日期和字符串的转换

hive中日期和字符串之间的转换

2022-08-23 10:46:32 5101

原创 hive中的空值处理函数 nvl、 nvl2、if、 coalesce

hive中的空值处理函数

2022-06-27 10:20:34 3745

原创 hive中行转列

hive数据统计

2022-06-21 18:13:59 3805

原创 用户连续登录天数hive

用户连续登录天数hive统计

2022-06-13 18:24:45 572

原创 ClickHouse中的数据字典

数据字典数据字典是ClickHouse中提供的一种非常简单实用的存储媒介。数据字典中的数据会主动或被动加载到内存,并支持动态更新,由于数据字典常驻内存的特性,所以它非常适合保存常量或经常使用的维度表数据,以避免不必要的join查询。ClickHouse中扩展字典类型及特点...

2022-02-08 18:29:43 557

原创 ClickHouse的数据定义

ClickHouse的数据类型1、基础类型基础类型中没有布尔类型,但可以使用整型中的0或1代替目前时间类型中没有时间戳类型,时间类型最高的精度是秒,如果需要处理毫秒,微秒等大于秒分辨率的时间,只能借助UInt类型实现。2、复合类型3、特殊类型...

2022-02-08 15:59:39 719

原创 ClickHouse的架构设计

ClickHouse的架构设计ClickHouse架构设计中的核心模块1、Column 与FiledColumn和Filed是ClickHouse数据最基础的映射单元,作为一款百分之百的列式存储数据库,ClickHouse按列存储数据2、DataTypeDataType负责数据的序列化和反序列化DataType虽然负责数据的序列化工作,但是不负责数据的直接读取,而是从Column和Filed对象获取3、Bolck与Block流ClickHouse内部的数据操作是面向Block对象进行的,并

2022-02-08 15:12:35 415

原创 ClickHouse

ClickHouseClickHouse最初设计的目标是服务公司的一款web流量分析工具。基于前方探针采集到的行为数据,进行一系列的数据分析。在采集数据的过程中,一次页面click(点击),就会产生一个event(事件),整个系统的逻辑就是基于页面的点击事件流,所以ClickHouse的全称是Click Stream,Data WareHouse。ClickHouse适用场景基本能够胜任各种数据分析类的场景,非常适用于商业智能领域(BI领域),能够被广泛应用于广告流量,web,app流量,电信,金融,

2022-01-29 11:59:00 2416

原创 数据架构简析

简单了解大数据Hadoop最初指代的是分布式文件系统HDFS和Mapreduce计算框架,但是它一路高歌猛进,在此基础之上像搭积木一般快速发展成为一个庞大的生态(包括Yarn,Hive,HBase,Spark等十种之多)为解决海量数据下分析查询性能问题,数据仓库的基础上衍生出的概念1、对数据仓库进行分层,通过层层递进形成数据集市,减少最终查询的数据体量2、提出数据立方体的概念,通过对数据预先处理,以时间换空间,提升查询性能。BI系统在Hadoop技术的加持下,在海量数据下要实现多维分析的实时应答,

2022-01-29 11:30:45 3251

原创 SQL查询条件巧用

sql查询条件中直接写boole类型的字段,而不标注要查询的是哪部分数据,默认查询的为true的数据consent_status 为布尔类型,true代表用户已授权,false代表为访客select * from mid_user_channel where consent_status;查询出来的数据全部为已授权用户...

2021-12-28 10:37:06 596

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除