- 博客(22)
- 收藏
- 关注
原创 映像问题之联想
摘要:文章探讨了驿站大模型应用中(person,position,time)参数映射的实践问题。作者通过诗歌"映"的灵感解决部分映射问题,但遇到新挑战:当映射对象分散在不同字段(如wx号与wxid)或需要动态组合(如IP与端口)时,如何通过position字段实现灵活映射。作者认为问题虽复杂但必有解决方案,邀请网友分享思路,强调提出问题本身就是解决问题的第一步。全文体现了从生活灵感出发的技术思考过程。(149字)
2025-12-06 11:12:27
111
原创 表格之同类型数据合并
本文提出一个日志文件分析方案:1)识别文件夹中多种标准日志文件类型;2)建立标准库,记录每种标准的字段规范及对应文件/工作表,生成可查询的JSON文件;3)合并同类标准数据。该方案旨在实现数据标准化汇总,通过驿站模型分析数据关联性,为后续数据碰撞挖掘建立基础。工作重点包括文件分类统计、标准规范定义和同类数据整合三个关键环节。
2025-11-26 14:53:21
93
2
原创 针对表格标准数据的筛查( 五)之调试
我问了一下 ai,在对某个文件夹下面的文件内容进行检查的时候,每次到了到某个子文件夹的时候就会跳出,但是单独对子文件夹进行调试的时候,却能完成全部子文件夹文件进行检查,不会中断。if...elif语句,而是把每个功能在独立功能代码实现,而不是把所有的检查都放在一个代码里面,这样在检查的时候不便于去发现问题。1、针对遍历文件夹采用了递归方法os.work(),涉及子文件夹下面的文件问题。(2)打开 '表A.xlsx'的时候生成 '~$表A.xlsx',关闭的时候'~$表A.xlsx'没有消失仍然存在。
2025-10-20 11:22:35
316
原创 监控视频转换问题
这段文字描述了一个技术问题:同事遇到无法查看监控视频的情况。解决方案是使用ffmpeg命令将.264格式的视频文件转换为.mp4格式。具体命令为:ffmpeg -i 22-00-00(00317f39).264 -c:v libx264 -preset fast -crf 22 22-00-00(00317f39).mp4。通过这个转换操作,视频文件就能正常播放了。
2025-08-22 10:26:10
210
原创 驿站大模型之二集合关系追踪
摘要:驿站大模型生成的时间序列集合{p1,p2,...,pn}需要先进行去重处理。要发现从集合S1到Sm的联系,可构建交集图:以集合为节点,若两集合交集非空则连边。通过BFS或DFS遍历该图,若能找到S1到Sm的路径,则说明它们通过一系列交集存在关联关系。这种方法实现了集合间的联系追踪。(149字)
2025-08-19 17:03:45
270
原创 针对 xlsx文件的筛查( 四)之调试
摘要:程序拆分workbook时频繁出现indexlistoutofrange异常,虽然已处理异常但总发现遗漏文件。作者怀疑程序存在执行漏洞,经澳洲同学建议采用分段调试法。解决方案包括:1)通过计数统计标记执行进度;2)比较多次运行结果一致性;3)监控执行过程,需耐心等待程序完成。该方法旨在定位程序遗漏数据的根本原因。
2025-08-06 11:20:11
263
1
原创 针对 xlsx文件的筛查( 三)之workbook拆分 worksheet
在使用pandas拆分多sheet的xlsx文件时需注意三种异常情况:1)临时备份文件可能干扰处理,应先排除;2)加密文件需先解密才能读取;3)首行为标题而非列名时,需用header参数调整读取方式。建议预处理时检查文件属性,并使用pd.read_excel()的适当参数配置确保正确解析数据。
2025-08-01 15:49:15
105
原创 针对 xlsx文件的筛查(二)
本文总结了某宝数据处理流程的优化方案。通过拆分独立功能模块,重构代码逻辑:1)文件类型过滤;2)基于关键字的文件名去重;3)处理多工作表文件并修复临时文件bug;4)执行列数校验(保留13列)和列名匹配;5)最终合并去重输出CSV。重点解决了加密文件异常、临时文件残留等问题,采用模块化设计显著提升了处理效率。
2025-08-01 15:10:32
139
原创 某宝数据清洗
经历千山万水,终于到了数据处理的环节,将10G的某宝数据合并到一起开始做同轨迹分析,才开始了常规意义上的数据清洗环节。检查每列的缺失值数量print(pd.isnull().sum())发现这么多的缺失值等待处理。姓名缺失1830,证件号码缺失2。通过对所有列的缺失值进行检查,# 查看某列缺失值所在的行,# 删除包含该列缺失值的行/或者进行转换为空字符。总之,常规意义上的数据清洗要比在复杂数据中进行筛查汇总简单的多。
2025-08-01 14:48:39
109
1
原创 数据清洗的几点总结
校验的标准,是通过一个字典,用来存储正常数据表格的列名,共计13个列名。只有标准的xlsx文件才是真正需要保存的数据,其他类型的数据均需删除,通过文件类型即可处理一部分数据。小结:调试的时候针对各种不同的问题,要把出现bug的数据单独拿出来调试,发现问题并解决各种不同的问题。(3)列名大于13列,删除从第14列开始的列,这里不能使用循环一列一列的操作,这样的效率太低。有的文件在创建的时候,无意之中有上万个列。(1)针对只有列名一行数据的表格,openpyxl在操作时会出现异常,需要考虑异常。
2025-07-21 19:44:31
229
2
原创 驿站大模型设计理念
5、按照时间顺序查看station-x经过的person。轨迹碰撞模型适用于很多场合,比较形象的解释就像驿站。3、person-1按照时间顺序通过有交集的驿站;4、由person-1到station-x;1、不同的人,在平行的时空经过不同的驿站;2、碰撞出所有有交集的驿站;
2024-12-13 17:15:42
163
1
原创 Python处理按行分隔的多段数据(数据分析处理)
最近在做数据分析的时候,遇到一个Excel表格中,包含多段数据。通过Pandas读取的时候,整存整取,没有最佳的方案。原始数据:Excel表格数据,按行分段;每段的数据都是一类数据,而且每段数据的第一行第一列是数据标识。需求:要做数据分析,需要把上述的数据读取为独立的pd。具体的实施方案:按行读取每段,原始文件名(去后缀)+ 数据标识(补充后缀)作为新的文件名,去掉第一行,写入指定的文件夹。
2024-10-11 16:44:12
666
原创 pandas处理超过11位数字的字符串问题(后面多了.0)
想要转换位整型astype(int),新问题是string不能直接转换为浮点型,先通过astype(float)对该类型进行强制转换为float,然后在通过astype(int)为整型。新问题,python3没有long int,只有int,在32位机器上int的范围是: -2**31~2**31-1,即-2147483648~2147483647。str.slice方法,df['phone'].str.slice(0,11)就把浮点型的数据又还原为字符串,并读取前11位。不管怎样,反正问题解决啦。
2023-10-21 09:52:55
809
1
原创 解决python安装包需要Microsoft C++ Build Tools问题
报错原因是pip所安装的包需要使用C++编译后才能够正常安装,但是当前安装环境中缺少完整的C++编译环境。
2023-10-11 11:14:32
3663
1
原创 vscode c++ 环境配置问题解决
反复卸载安装,后来安装了一个docker,好像也没有成功。解压mingw64文件夹到目标D:\mingw64\,将D:\mingw64\bin添加到系统环境变量Path。VSCodeUserSetup-x64-1.83.0.exe,安装之后一定要重启,确保选中环境变量。4、下载MicrosoftEdgeWebview2Setup.exe安装才能使用vscch.exe。很久没用C++,因需要,也没有直接在Linux环境下去写,试试vscode。5、在VS中创建一个项目文件夹作为“工作文件夹路径”,完成配置。
2023-10-11 01:20:33
442
1
原创 python3完美解决在包含中文、中文符号的字符串中匹配手机号码和身份证号码的方案
在英文文本中去正则表达式同时去匹配手机号码和身份证号码很简单。但是,如果文本中包含中文及中文符号,问题会变得十分复杂。由于身份证号码和手机号码同时存在,那么对于手机号码的匹配就需要向后不能为数字,否则就有可能匹配到身份证号码。但是,如果手机号码正则表达式的向后不能为数字,新的问题来了。如果一个手机号码位于中文或者中文符号后面,就不能匹配到手机号码。这是因为,中文都是unicode编码,在python3里面,每一个中文字符占3个字节,中文的编码本身就是数字。那么,是不是和前面的规则矛盾了。
2022-11-20 13:34:19
1212
1
原创 XMLHttpRequest 对象异步async=true 时错误Uncaught TypeError
XMLHttpRequest 对象异步async=true 时错误Uncaught TypeError的处理方法
2022-11-09 13:04:54
716
1
空空如也
python正则表达式匹配中文字符后面手机号码问题
2022-11-15
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅