Reuben.T-CSDN博客

原创映像问题之联想

摘要：文章探讨了驿站大模型应用中(person,position,time)参数映射的实践问题。作者通过诗歌"映"的灵感解决部分映射问题，但遇到新挑战：当映射对象分散在不同字段（如wx号与wxid）或需要动态组合（如IP与端口）时，如何通过position字段实现灵活映射。作者认为问题虽复杂但必有解决方案，邀请网友分享思路，强调提出问题本身就是解决问题的第一步。全文体现了从生活灵感出发的技术思考过程。（149字）

2025-12-06 11:12:27 124

原创表格之同类型数据合并

本文提出一个日志文件分析方案：1)识别文件夹中多种标准日志文件类型；2)建立标准库，记录每种标准的字段规范及对应文件/工作表，生成可查询的JSON文件；3)合并同类标准数据。该方案旨在实现数据标准化汇总，通过驿站模型分析数据关联性，为后续数据碰撞挖掘建立基础。工作重点包括文件分类统计、标准规范定义和同类数据整合三个关键环节。

2025-11-26 14:53:21 106 2

原创 excel表格文件合并之问题

excel表格合并之问题

2025-10-28 09:40:10 114

原创相同文件去重

相同文件去重 hash值计算

2025-10-22 16:48:30 120

原创针对表格标准数据的筛查（五）之调试

我问了一下 ai,在对某个文件夹下面的文件内容进行检查的时候，每次到了到某个子文件夹的时候就会跳出，但是单独对子文件夹进行调试的时候，却能完成全部子文件夹文件进行检查，不会中断。if...elif语句，而是把每个功能在独立功能代码实现，而不是把所有的检查都放在一个代码里面，这样在检查的时候不便于去发现问题。1、针对遍历文件夹采用了递归方法os.work()，涉及子文件夹下面的文件问题。（2）打开 '表A.xlsx'的时候生成 '~$表A.xlsx'，关闭的时候'~$表A.xlsx'没有消失仍然存在。

2025-10-20 11:22:35 325

原创监控视频转换问题

这段文字描述了一个技术问题：同事遇到无法查看监控视频的情况。解决方案是使用ffmpeg命令将.264格式的视频文件转换为.mp4格式。具体命令为：ffmpeg -i 22-00-00(00317f39).264 -c:v libx264 -preset fast -crf 22 22-00-00(00317f39).mp4。通过这个转换操作，视频文件就能正常播放了。

2025-08-22 10:26:10 239

原创驿站大模型之二集合关系追踪

摘要：驿站大模型生成的时间序列集合{p1,p2,...,pn}需要先进行去重处理。要发现从集合S1到Sm的联系，可构建交集图：以集合为节点，若两集合交集非空则连边。通过BFS或DFS遍历该图，若能找到S1到Sm的路径，则说明它们通过一系列交集存在关联关系。这种方法实现了集合间的联系追踪。（149字）

2025-08-19 17:03:45 278

原创针对 xlsx文件的筛查（四）之调试

摘要：程序拆分workbook时频繁出现indexlistoutofrange异常，虽然已处理异常但总发现遗漏文件。作者怀疑程序存在执行漏洞，经澳洲同学建议采用分段调试法。解决方案包括：1）通过计数统计标记执行进度；2）比较多次运行结果一致性；3）监控执行过程，需耐心等待程序完成。该方法旨在定位程序遗漏数据的根本原因。

2025-08-06 11:20:11 274 1

原创针对 xlsx文件的筛查（三）之workbook拆分 worksheet

在使用pandas拆分多sheet的xlsx文件时需注意三种异常情况：1）临时备份文件可能干扰处理，应先排除；2）加密文件需先解密才能读取；3）首行为标题而非列名时，需用header参数调整读取方式。建议预处理时检查文件属性，并使用pd.read_excel()的适当参数配置确保正确解析数据。

2025-08-01 15:49:15 114

原创针对 xlsx文件的筛查（二）

本文总结了某宝数据处理流程的优化方案。通过拆分独立功能模块，重构代码逻辑：1)文件类型过滤；2)基于关键字的文件名去重；3)处理多工作表文件并修复临时文件bug；4)执行列数校验（保留13列）和列名匹配；5)最终合并去重输出CSV。重点解决了加密文件异常、临时文件残留等问题，采用模块化设计显著提升了处理效率。

2025-08-01 15:10:32 151

原创某宝数据清洗

经历千山万水，终于到了数据处理的环节，将10G的某宝数据合并到一起开始做同轨迹分析，才开始了常规意义上的数据清洗环节。检查每列的缺失值数量print(pd.isnull().sum())发现这么多的缺失值等待处理。姓名缺失1830，证件号码缺失2。通过对所有列的缺失值进行检查，# 查看某列缺失值所在的行，# 删除包含该列缺失值的行/或者进行转换为空字符。总之，常规意义上的数据清洗要比在复杂数据中进行筛查汇总简单的多。

2025-08-01 14:48:39 118 1

原创针对 xlsx文件的筛查（一）

针对某宝数据的数据筛查

2025-07-28 11:26:47 208 1

原创数据清洗的几点总结

校验的标准，是通过一个字典，用来存储正常数据表格的列名，共计13个列名。只有标准的xlsx文件才是真正需要保存的数据，其他类型的数据均需删除，通过文件类型即可处理一部分数据。小结：调试的时候针对各种不同的问题，要把出现bug的数据单独拿出来调试，发现问题并解决各种不同的问题。（3）列名大于13列，删除从第14列开始的列，这里不能使用循环一列一列的操作，这样的效率太低。有的文件在创建的时候，无意之中有上万个列。（1）针对只有列名一行数据的表格，openpyxl在操作时会出现异常，需要考虑异常。

2025-07-21 19:44:31 241 2

原创驿站大模型设计理念

5、按照时间顺序查看station-x经过的person。轨迹碰撞模型适用于很多场合，比较形象的解释就像驿站。3、person-1按照时间顺序通过有交集的驿站；4、由person-1到station-x；1、不同的人，在平行的时空经过不同的驿站；2、碰撞出所有有交集的驿站；

2024-12-13 17:15:42 173 1

原创 mac虚拟机备份仿真问题

mac 虚拟机仿真

2024-11-06 08:47:19 603

原创 Python处理按行分隔的多段数据（数据分析处理）

最近在做数据分析的时候，遇到一个Excel表格中，包含多段数据。通过Pandas读取的时候，整存整取，没有最佳的方案。原始数据：Excel表格数据，按行分段；每段的数据都是一类数据，而且每段数据的第一行第一列是数据标识。需求：要做数据分析，需要把上述的数据读取为独立的pd。具体的实施方案：按行读取每段，原始文件名（去后缀）+ 数据标识（补充后缀）作为新的文件名，去掉第一行，写入指定的文件夹。

2024-10-11 16:44:12 677

原创 pandas处理超过11位数字的字符串问题（后面多了.0）

想要转换位整型astype(int)，新问题是string不能直接转换为浮点型，先通过astype(float)对该类型进行强制转换为float，然后在通过astype(int)为整型。新问题，python3没有long int，只有int，在32位机器上int的范围是: -2**31～2**31-1，即-2147483648～2147483647。str.slice方法，df['phone'].str.slice(0,11)就把浮点型的数据又还原为字符串，并读取前11位。不管怎样，反正问题解决啦。

2023-10-21 09:52:55 833 1

原创解决python安装包需要Microsoft C++ Build Tools问题

报错原因是pip所安装的包需要使用C++编译后才能够正常安装，但是当前安装环境中缺少完整的C++编译环境。

2023-10-11 11:14:32 3709 1

原创 vscode c++ 环境配置问题解决

反复卸载安装，后来安装了一个docker，好像也没有成功。解压mingw64文件夹到目标D:\mingw64\，将D:\mingw64\bin添加到系统环境变量Path。VSCodeUserSetup-x64-1.83.0.exe，安装之后一定要重启，确保选中环境变量。4、下载MicrosoftEdgeWebview2Setup.exe安装才能使用vscch.exe。很久没用C++，因需要，也没有直接在Linux环境下去写，试试vscode。5、在VS中创建一个项目文件夹作为“工作文件夹路径”，完成配置。

2023-10-11 01:20:33 449 1

weixin_49856607的博客