大数据处理产品(tk界面)

独自的渣渣.dog

于 2023-10-26 16:14:11 发布

阅读量94

点赞数

分类专栏：大数据文章标签： python pandas 大数据架构模板方法模式 excel

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_70570456/article/details/134056726

版权

大数据专栏收录该内容

1 篇文章 0 订阅

订阅专栏

数据分析-提取地址中行政区划

产品简介：

基于Python语言pandas库的大数据处理GUI程序开发。GUI界面使用tkinter库进行制作；数据处理使用pandas库；匹配行政区划使用自定义的行政区划匹配字典。程序目的是从一个地址中解析出该地址所属的[省级-市级-区级(可扩展至乡镇街道村县等)]。

实现逻辑：

首先制作用以提取行政区划的城市字典，其次确定匹配模式(精确匹配or模糊匹配)，然后制作匹配规则(匹配的先后顺序与有效性)，编写匹配逻辑(清洗数据与分类匹配)，编写保存处理后数据的逻辑，最后设计GUI界面并封装功能模块。

产品功能介绍：

产品界面整体使用主流常用的tkinter库进行设计，使用包括但不限于：框架、文本标签、进度条、输入框、文本浏览器、按钮、滚动条、画布等部件。

处理文件的样式必须要有一行是标准的地址格式样式的数据，否则无法得出准确的处理结果。标准地址格式例如：省+市(+区)(+村镇)+(XXX路)+门牌地址。

处理导入/文件读取；在添加完处理表格后，建议进行表格读取测试，因为如若表格因为各种原因损坏而无法读取到表格数据时常发生；另一方面也是检查导入表格所读取的数据量是否正确已判断整体读取进度。

处理结果保存设置：需要用户自定义保存的文件名称、文件格式、文件路径和处理数量，程序也会显示对应输出模式的文件路径，以方便用户检查保存位置是否有误。

解析用户所输入的地址。此功能限制使用次数为1000次；输出结果在运行日志文本浏览器中显示；输出结果中包含所有匹配可能的结果和唯一正确匹配的结果。

启动主功能对导入文件进行处理：启动主功能开始处理后会单独为程序创建一条处理线程。该线程允许暂停60秒和取消暂停和提前终止线程，并且在线程允许时，还会将任务进度动态实时显示，包括进度条展示和处理结果展示等。

处理结果分为所有匹配可能与唯一匹配可能两种：但province代表省级、city代表市级、district代表区级和No代表匹配模式是共同的。对于所有匹配可能的结果来说，在处理一个地址提取出省-市-区时，会同时的去尝试所有的匹配模式，最后返回都匹配成功的匹配结果；而唯一匹配可能则是使用精确对比的方式进行匹配的，程序会根据匹配规则按顺序的逐个匹配所有的筛选模式，直到匹配成功返回结果或者匹配失败返回空匹配。

产品使用限制：产品限制了可用次数，目前只是在程序中进行限制，未将使用次数记录进行存储；如若将使用次数进行存储，可使程序每次在启动前都检查是否还有可用次数来决定能否打开并使用程序。

总结：

该程序主要是针对地址提取出省市区信息的一个大数据处理模型程序。如需处理的数据量过大时，还可单独的使用脚本单独进行提速处理。

独自的渣渣.dog

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
大数据处理产品(tk界面)

pandas数据处理
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。