- 博客(299)
- 收藏
- 关注
原创 sql模糊关联匹配
注意事项:性能影响:使用 REGEXP 通常会比 LIKE 产生更大的性能开销,特别是在处理大数据集时。因为 REGEXP 需要更复杂的模式匹配,而 MySQL 对 REGEXP 的优化能力相对较弱,可能无法像 LIKE 那样利用索引进行优化。
2025-01-13 17:28:27
305
原创 时间段切块算法
根据给定的开始时间、结束时间和时间间隔,生成一系列时间周期,每个时间周期由开始时间和结束时间组成,这些时间周期可以用于在特定时间段内进行按一定间隔的任务划分或数据处。时间区间的切分,可以用于循环获取数据;
2024-09-03 14:41:14
240
原创 Python变量未赋值错误之程序优化示例
将可能出现异常的部分单独封装成一个函数,在这个函数中处理异常并返回合适的值,然后在main函数中调用这个函数来获取结果,这样可以使代码结构更清晰,也更容易处理错误情况。在except块中,可以给respon1赋一个默认值,比如None,这样在出现异常时,函数也能有一个明确的返回值,而不会因为找不到respon1的赋值而报错。
2024-09-02 15:36:46
314
原创 np.where 结合pandas使用
需求:test数据框中的广告来源和媒介两列的值来生成新的列来源媒介。如果广告来源为NaN,则新列也为NaN;如果媒介为NaN,新列的值为广告来源加上/;如果两列都有值,新列的值为广告来源加上/再加上媒介。结合pandas使用:np.where可以方便地在pandas数据框中进行条件判断和值的赋值操作,根据不同的条件生成新的列值或修改现有列的值。np.where函数在数据分析和处理中非常有用,可以快速地根据条件进行数据的筛选和转换。
2024-08-23 15:39:49
295
原创 解决DatabaseError 错误
报错:DatabaseError: Execution failed on sql ‘SELECT name FROM sqlite_master WHERE type=‘table’ AND name=?使用to_sql方法,需要用create_engine, 而不是pymysql.connect,否则就会报如下错误DatabaseError,
2024-08-23 15:21:23
480
原创 ProgrammingError: nan can not be used with MySQL,怎么处理?
NSERT INTO 解决一切格式数据库入库问题, 但是np.NAN 不行,所以考虑可以将 np.NAN,替换成别的值,比如999,‘’, ‘nan’, ‘none’ 都可以,如果想输入到mysql仍然为 (NULL)显示,则需要先将df 转成列表,将值替换成 none。
2024-08-23 15:15:53
579
原创 json.dumps: dict ——> str
STEP2 : 参数提取,给我全部整成斜杠了,我去。STEP3 : 构建时间变量参数。STEP4 : 正确示范。
2024-04-24 19:28:13
294
原创 红包参与领取、活跃用户等相关9题
(为什么会出现“已领取红包,但未登录的情况”,因为在现实的数据中,数据上报无法做到十分准确,这种其实是BUG数据。备注:日志流水表,每一行为领取1次红包。无特殊说明,一般不考虑领取红包但当日未登录的情况。备注:一个用户1天只出现1次,出现即表示当日登陆。
2024-02-19 17:33:22
484
1
原创 格式化日期表头
原理:函数内部使用datetime.strptime()将日期表头字符串转换为日期对象,然后使用date_obj.strftime()将日期对象格式化为指定格式的字符串。
2024-01-24 14:21:16
392
原创 metabase filter
除“字段过滤器”之外的所有变量类型都会自动导致在此问题上放置过滤器小部件;然后,您可以选择在您的问题上显示过滤器小部件,但即使不这样做,您现在也可以在将此问题添加到仪表板时将字段过滤器变量映射到仪表板过滤器。为变量提供“字段过滤器”类型允许您将问题链接到仪表板过滤器小部件或在 SQL 问题上使用更多类型的过滤器小部件。字段过滤器变量插入的 SQL 类似于在现有列上添加过滤器时由 GUI 查询生成器生成的 SQL。本机查询中的变量允许您使用过滤器小部件或通过 URL 动态替换查询中的值。
2023-12-19 12:29:41
265
原创 对于技术人员实力的判断
俗话说“文无第一,武无第二”,技术就是一种“文”的能力,很多时候我们很难直观看出一个技术人员的实力,但不管是公司招聘的面试,还是公司内部的晋升面评,都需要在较短时间内快速判断一个技术人员的实力。得益于工作岗位的关系,我在考核技术人员的实力时积累了较丰富的经验(包括踩坑的经验)。首先是招聘,前后面试了几百个人吧,技术范围包括服务器、android、iOS、前端,既包括初出茅庐的应届生,也包括腾讯的 T4 大牛;
2023-12-07 17:44:18
188
原创 pymysql.err.InternalError: (1054, “Unknown column ‘nan‘ in ‘field list‘“
记录在本地环境通过,然后在云环境,解决问题的过程;
2023-12-06 19:14:23
636
原创 ProgrammingError: nan can not be used with MySQL
【代码】ProgrammingError: nan can not be used with MySQL。
2023-11-30 16:25:04
1223
原创 DataFrame.empty 与 DataFrame is None 的区别是?
总结来说,DataFrame.empty用于检查DataFrame对象是否为空,而DataFrame is None用于检查DataFrame对象是否为None对象。在上述示例中,由于DataFrame对象df被显式设置为None,因此df is None为True,输出结果为"DataFrame为None"。在上述示例中,由于DataFrame对象df不包含任何数据,因此df.empty为True,输出结果为"DataFrame为空"。请注意,empty 与 None 是不同的概念,这个要注意。
2023-11-17 11:05:40
888
原创 傻傻分不清 “json.dump()、 json.dumps()、 json.loads() 、 json.load()“的区别?
json.dump():将Python对象序列化为JSON格式的数据并将其写入文件。它接受两个参数:要序列化的Python对象和要写入的文件对象。示例用法:json.dump(obj, file)。json.dumps():将Python对象序列化为JSON格式的字符串。它接受一个参数:要序列化的Python对象。示例用法:json.dumps(obj)。json.load():从文件中读取JSON格式的数据并将其反序列化为Python对象。它接受一个参数:要读取的文件对象。
2023-11-09 15:19:23
806
原创 【实用】得到三个动态时间点作为分界点
因为周报需要对比上周,所以现在有一个需求,动态生成上周周一的时间点,类似 ‘2023-10-23 00:00:00’ 并将值赋予给time2变量,将time2 减去7天,得到的时间点赋值给time1,将time2 减去7天,得到的时间点赋值给time3,得到三个动态时间点作为分界点;
2023-11-03 15:53:13
114
原创 ConnectionError: HTTPSConnectionPool
连接不上url ,chatcpt 第一步就告诉我了,折腾了大半个下午,惭愧!
2023-11-02 18:24:25
1603
原创 手机型号抓取
方式②:原始数据中,每个页面的数据存储在一个列表中,然后页面中的每条数据以字典单元形式盛放在列表中,因此,策略是可以先通过aList.extend(bList)方法,把所有的需要的n个页面中的列表中的字典(每条记录)总体组装在一个总列表中 --》 然后再转成一个总的df。方式①:每个页面的数据处理成df, 然后再合并df , pd.concat()/ df.append() 循环合并。Code处理结果:DataFrame 及 流程。个人感觉方式②的效果会更高效一些!
2023-10-31 09:56:41
121
原创 使用Python计算数据集中不同维度下的方差和 JS 散度
本文介绍了如何使用 Python 和 Pandas 库计算数据集中不同维度下的方差和 JS 散度。这些指标可以用于评估各维度变化的波动大小,从而实现异常维度挖掘和数据分析等目的。在数据挖掘领域中,我们经常需要衡量不同维度之间的差异或相似度。为了实现这一目标,通常需要使用各种方法来计算两个样本之间的差异。本文将介绍如何使用 Python 和 Pandas 库来计算数据集中不同维度下的方差和 JS 散度,以评估各维度变化的波动大小。最后,我们得到了各维度下的方差和 JS 散度指标。
2023-05-30 19:01:15
934
原创 Python 连接 MySQL 数据库
首先,在使用 pandas.read_sql() 时,需要在 SQL 查询语句中包含所有必要的过滤条件、排序方式等信息,以确保返回的结果集合是正确的,而不是整个表或视图中的所有数据。除了使用 pymysql 库连接 MySQL 数据库之外,我们还可以使用 SQLAlchemy 的 create_engine 函数创建 MySQL 数据库连接引擎,并使用 Pandas 库中的 read_sql 函数直接将查询结果转化为 Pandas dataframe 对象。希望本文对您有所帮助!
2023-05-17 20:09:30
21152
6
原创 Python数据离散化指南:手写if-elif语句与pandas中cut()方法的实现
第二种方法是使用 pandas 库的 cut() 方法将输入值 x 映射到不同的标签中,并返回标签。两种方法各有优缺点。第一种方法是使用条件语句来显式地检查输入值 x 是否在每个区间内,并返回相应的标签。这种方法适用于自定义的分段方式,要求手动设置每个阈值和对应的标签。当我们进行数据分析时,有时候需要对数值型数据进行离散化,将其划分为不同的标签或类别。其中 tran_amount_label 是新添加的一列,它显示了每个交易额所属的标签和类别。在本文中,我们将介绍两种常见的离散化方法,并提供实现代码。
2023-05-16 18:36:10
575
原创 metabase的地图展示方式及切换地图源
瓦片数据也是可以修改,如使用https://blog.csdn.net/banhusao3974/article/details/102053671。1、pin map,就是按经纬度在地图上打点,要求数据必须有经纬度:Latitude field及Longitude field。2、region map ,这个比较简单,按区域显示数据,有对应区域编号,比如city就可以,注意是编号要在地域数据中有。3、grid map,这个只按区域(瓦片,tile)显示汇总只,必须配置对应的汇总函数。
2023-03-22 15:22:32
623
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人