- 博客(67)
- 收藏
- 关注
原创 pandas.DataFrame.pivot
月份(month)可以取下列值 ["Jan","Feb","Mar","Apr","May","Jun","Jul","Aug","Sep","Oct","Nov","Dec"]。index:指定一列做为生成DataFrame对象的索引,如果为空则默认为原来的索引。pivot函数用于从给定的表中创建出新的派生表,pivot有三个参数:索引、列和值。请注意,结果表共有 13 列(1 列用于部门 ID,其余 12 列用于各个月份)。values:指定一列作为生成DataFrame对象的值。
2025-09-28 15:14:41
687
原创 pandas中的groupby 和 agg组合运用,新生成的列重命名
product_id 是 Product 表的外键(reference 列)。product_id 是该表的主键(具有唯一值的列)。该表的每一行包含关于一个销售的一些信息。该表的每一行显示每个产品的名称和价格。这个表可能有重复的行。(含)之间出售的商品。
2025-09-28 12:06:22
546
原创 在Python中.str().format()的用法
在 Python 中,是一种强大的字符串格式化方法,通过在字符串中使用占位符{}来插入变量或表达式,让字符串拼接更灵活、可读性更强。
2025-08-12 08:39:02
196
原创 SQL 窗口函数之lead() over(partition by ) 和 lag() over(partition by )
lag() over() 与 lead() over() 函数是跟偏移量相关的两个分析函数,通过这两个函数可以在一次查询中取出同一字段的前 N 行的数据 (lag) 和后 N 行的数据 (lead) 作为独立的列, 从而更方便地进行进行数据过滤。这种操作可以代替表的自联接,并且 LAG 和 LEAD 有更高的效率。over() 表示 lag() 与 lead() 操作的数据都在 over() 的范围内,他里面可以使用 partition by 语句(用于分组) order by 语句(用于排序)。
2025-03-06 18:20:24
2320
原创 SQL 的窗口函数 sum() over(partition by 字段 )
工单号ticket_id 分区,按照自增字段id 升序排序,对fiflte值求和,当重启1次,累计总和就会加+1,故第一轮重启后流转的工单明细,fiflte值全部为1。工作流表为,工单在每个角色处处理完成并流转进入下一个角色就会生成一条记录,当工单重启时,flow_type = 9,其他状态非9。故首先将flow_type = 9 的明细值自定义为1,其他为0,并重新生成一个字段fiflte。客户处理的工单可能会一次完成,也有可能客户还有其他疑问,会多次重启。
2025-01-14 16:50:58
1978
原创 MySQL中的合并函数
按照工单号分组,group_concat()函数将工作流表中的创建时间合并,并按照创建时间升序排序,确定将合并后的字符串拆解后,按照一定规则可以准确取到创建时间和工单的最终完成时间,并进一步计算完成工单的耗时。只取工单完成一轮次,从工单创建,到最终工单完成,在工作流表中,第一条数据和最后一条数据,第一条数据的创建时间即为工单初始创建时间,最后一条数据的创建时间即为工单的完成时间;在合并之时对合并的数据排序,可以确定在拆解合并后的字段后,最终取到的数据的准确性。一、group_concat。
2025-01-14 16:26:51
442
原创 lambda,Python中一个强大的函数
如前文所述,lambda函数可以用于定义简单、临时的函数。这些函数通常只是一行代码,并只执行一个任务。例如,您可以定义一个lambda函数来对列表中的元素进行排序或过滤。
2024-07-18 16:41:24
1000
原创 Numpy
数据分析: NumPy提供了大量的数值和统计函数,可用于数据清洗和预处理。比如,你可以使用NumPy进行数据的筛选、排序、聚合等操作。(Numerical Python)是Python的一个开源的数值计算扩展库,主要用于对大量数据进行高效存储和计算。图像处理: 利用NumPy的多维数组,可以方便地对图像进行处理,例如图像的缩放、转换、滤波等。信号处理: 在信号处理领域,NumPy可以作为数据分析和预处理工具,处理如音频信号数据等。总的来说,只要涉及到大量数据的数值计算和处理,很可能都会需要用到NumPy。
2024-07-15 14:56:04
389
原创 Numpy 和 pandas的区别
Pandas 则支持更多种类的数据结构,如 Series、DataFrame 和 Panel,其中最常用的是 DataFrame,它是由多个 Series 组成的表格型数据结构,适用于处理二维表格类型的数据。2、数据类型:NumPy 数组中只能包含一种数据类型,如整数或浮点数,而 Pandas 中的 DataFrame 可以包含多种数据类型,如数字、字符串、布尔值等,这使得 Pandas 更加灵活。1、pandas操作的数据集是Series,本质上是列表与字典的混合,常用的数据形式为DataFrame;
2024-07-15 14:49:57
312
原创 pyechart 创建柱形图
Pyecharts 是一个基于 Python 的开源数据可视化库,用于创建各种交互式的图表和可视化效果。它是在 Echarts 的基础上进行封装和优化,Echarts 是一个流行的 JavaScript 数据可视化库。pyecharts 模块 还支持动态数据更新、交互操作、动画效果等功能 , 可以让用户更加直观地理解和分析数据。
2024-06-12 10:58:59
383
原创 matplotlib ---词云图
词云图是一种直观的方式来展示文本数据,可以体现出一个文本中词频的使用情况,有利于文本分析,通过词频可以抓住一篇文章的重点。本文通过处理一篇关于分析影响洋流流向的文章,分析影响洋流流向的主要因素都有哪些。4、设置停用词&在已处理的文本中过滤停用词。5、设置png掩膜(设置图像显示的形状)
2024-05-28 17:53:37
899
原创 解决bug :OSError: cannot open resource
在创建词云,运行程序的时候报错OSError: cannot open resource。在Windows操作系统上,字体文件通常存储在 。方法2>在网上下载自己想要的字体,然后放在这个文件夹下。但是在windows系统现有的字体中并没有这种字体。遇到这种报错,通常是由于无法加载字体导致的。方法1> 更改字体样式,选择一种现有的字体。3、分析出现问题的原因。
2024-05-28 11:39:14
2028
原创 matplotlib---气泡图
气泡图(Bubble Chart)是一种数据可视化图形,主要用于展示多个数据点之间的关系。气泡图通过气泡的大小,位置和颜色可以展示数据之间的关系。在气泡图中,横轴和纵轴通常表示数据的两个维度,而气泡的半径和位置则表示数据的值。气泡图可在二维平面上展示多元数据间的关系。下面以python中的鸢尾花数据集来展示,气泡图的绘制和对数据的展现iris = load_iris() # 这里,从sklearn库中加载鸢尾花数据集 获得的数据集是一个列表,其中有两列,一列是鸢尾花的特征,一列是鸢尾花的种类。
2024-05-27 17:43:05
691
原创 解决bug: A value is trying to be set on a copy of a slice from a DataFrame
python DataFrame 赋值报错
2024-04-29 16:21:38
334
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅
2