菜鸟驿站是如何实现详细地址的省市区街道区分的？教你使用Python完成地址的模糊匹配

最新推荐文章于 2024-08-07 14:36:00 发布

文宇肃然

最新推荐文章于 2024-08-07 14:36:00 发布

阅读量5.5k

点赞数 4

分类专栏： python快速学习实战应用系列课程

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wenyusuran/article/details/84983698

版权

本文介绍了如何使用Python进行地址的模糊匹配，适用于反欺诈知识图谱构建和评分卡提取字段。通过建立行政区划词库，结合jieba分词，提取省市区和公司关键字，实现公司地址的标准化处理。步骤包括连接数据库、建立词典、分词、匹配和关键词提取。

摘要由CSDN通过智能技术生成

摘要：正如题目中说的一样,这个程序的目的是地址的模糊匹配,也可以迁移到房产信息、电话号码之类的字段上。本来的应用场景是反团伙欺诈以及失联客户的修复,大概的意思就是说多个相同公司的同事都在我公司借贷的欺诈可能性要高于其他客户,以及造假的房产信息和电话号码可能不完全相同,但有一定的相似性,我们需要把这些客户找出来,但是又不能用精确匹配。因为存在问题的房产信息和电话可能只是相似,而不是完全相同;对于公司名和地址来说,就更糟糕一些,即使是真实的信息,但同一个公司的叫法可能会多种多样,如果麻烦一些,还要建一个同义词库。而我们做的工作还没有那么全面,只是提取出了公司名中的关键词。
而做评分卡模型也需要用到这个思想。因为评分卡的其中一个字段就是所在城市等级,这就需要从原始数据的地址中提取出城市信息,但地址的格式又不够标准,因为信息是客户人工填写的,举个例子,“山东省济南市”也有可能被写成“山东济南”,所以一个正则表达式就不足以解决这个字段提取的问题了。

总结一下,模糊匹配的两个应用场景:
1)构建反欺诈知识图谱
2)评分卡提取所需字段

地址处理的基本思路就是建立一个标准库,对地址逐个进行对比,再返回结果和置信度,所以词库的建立是地址处理的关键。

下面是解决问题的过程:

第一步,提取公司名中的关键字
首先,要分析一下数据库中公司名的形式:“浙江杭州立多林贸易有限公司”,“汇川区万全兄弟购物中心”,“温州雪龙集团有限公司北京销售分公司”……
经过分析,可以看出,公司名大致分为3个部分:1、省市区名称;2

了解本专栏

超级会员免费看

关注

4
点赞
踩
14

收藏

觉得还不错? 一键收藏
打赏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

文宇肃然 精神和物质鼓励你选一个吧

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。