大数据处理产品(tk界面)

数据分析-提取地址中行政区划

产品简介:

        基于Python语言pandas库的大数据处理GUI程序开发。GUI界面使用tkinter库进行制作;数据处理使用pandas库;匹配行政区划使用自定义的行政区划匹配字典。程序目的是从一个地址中解析出该地址所属的[省级-市级-区级(可扩展至乡镇街道村县等)]。

实现逻辑:

        首先制作用以提取行政区划的城市字典,其次确定匹配模式(精确匹配or模糊匹配),然后制作匹配规则(匹配的先后顺序与有效性),编写匹配逻辑(清洗数据与分类匹配),编写保存处理后数据的逻辑,最后设计GUI界面并封装功能模块。

产品功能介绍:

        产品界面整体使用主流常用的tkinter库进行设计,使用包括但不限于:框架、文本标签、进度条、输入框、文本浏览器、按钮、滚动条、画布等部件。

        处理文件的样式必须要有一行是标准的地址格式样式的数据,否则无法得出准确的处理结果。标准地址格式例如:省+市(+区)(+村镇)+(XXX路)+门牌地址。

        处理导入/文件读取;在添加完处理表格后,建议进行表格读取测试,因为如若表格因为各种原因损坏而无法读取到表格数据时常发生;另一方面也是检查导入表格所读取的数据量是否正确已判断整体读取进度。

        处理结果保存设置:需要用户自定义保存的文件名称、文件格式、文件路径和处理数量,程序也会显示对应输出模式的文件路径,以方便用户检查保存位置是否有误。

        解析用户所输入的地址。此功能限制使用次数为1000次;输出结果在运行日志文本浏览器中显示;输出结果中包含所有匹配可能的结果和唯一正确匹配的结果。

        启动主功能对导入文件进行处理:启动主功能开始处理后会单独为程序创建一条处理线程。该线程允许暂停60秒和取消暂停和提前终止线程,并且在线程允许时,还会将任务进度动态实时显示,包括进度条展示和处理结果展示等。

        处理结果分为所有匹配可能与唯一匹配可能两种:但province代表省级、city代表市级、district代表区级和No代表匹配模式是共同的。对于所有匹配可能的结果来说,在处理一个地址提取出省-市-区时,会同时的去尝试所有的匹配模式,最后返回都匹配成功的匹配结果;而唯一匹配可能则是使用精确对比的方式进行匹配的,程序会根据匹配规则按顺序的逐个匹配所有的筛选模式,直到匹配成功返回结果或者匹配失败返回空匹配。

        产品使用限制:产品限制了可用次数,目前只是在程序中进行限制,未将使用次数记录进行存储;如若将使用次数进行存储,可使程序每次在启动前都检查是否还有可用次数来决定能否打开并使用程序。

总结:

        该程序主要是针对地址提取出省市区信息的一个大数据处理模型程序。如需处理的数据量过大时,还可单独的使用脚本单独进行提速处理。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值