- 摘要:正如题目中说的一样,这个程序的目的是地址的模糊匹配,也可以迁移到房产信息、电话号码之类的字段上。本来的应用场景是反团伙欺诈以及失联客户的修复,大概的意思就是说多个相同公司的同事都在我公司借贷的欺诈可能性要高于其他客户,以及造假的房产信息和电话号码可能不完全相同,但有一定的相似性,我们需要把这些客户找出来,但是又不能用精确匹配。因为存在问题的房产信息和电话可能只是相似,而不是完全相同;对于公司名和地址来说,就更糟糕一些,即使是真实的信息,但同一个公司的叫法可能会多种多样,如果麻烦一些,还要建一个同义词库。而我们做的工作还没有那么全面,只是提取出了公司名中的关键词。
-
而做评分卡模型也需要用到这个思想。因为评分卡的其中一个字段就是所在城市等级,这就需要从原始数据的地址中提取出城市信息,但地址的格式又不够标准,因为信息是客户人工填写的,举个例子,“山东省济南市”也有可能被写成“山东济南”,所以一个正则表达式就不足以解决这个字段提取的问题了。
总结一下,模糊匹配的两个应用场景:
1)构建反欺诈知识图谱
2)评分卡提取所需字段地址处理的基本思路就是建立一个标准库,对地址逐个进行对比,再返回结果和置信度,所以词库的建立是地址处理的关键。
下面是解决问题的过程:
第一步,提取公司名中的关键字
-
首先,要分析一下数据库中公司名的形式:“浙江杭州立多林贸易有限公司”,“汇川区万全兄弟购物中心”,“温州雪龙集团有限公司北京销售分公司”……
经过分析,可以看出,公司名大致分为3个部分:1、省市区名称;2
菜鸟驿站是如何实现详细地址的省市区街道区分的?教你使用Python完成地址的模糊匹配
最新推荐文章于 2024-08-07 14:36:00 发布
本文介绍了如何使用Python进行地址的模糊匹配,适用于反欺诈知识图谱构建和评分卡提取字段。通过建立行政区划词库,结合jieba分词,提取省市区和公司关键字,实现公司地址的标准化处理。步骤包括连接数据库、建立词典、分词、匹配和关键词提取。
摘要由CSDN通过智能技术生成