python借助jieba、addressparser第三库准确提取省市区地址

参考网址:

addressparser · PyPIhttps://pypi.org/project/addressparser/问题导向:处理一个csv文件时,内容包含“地址”一列,我想提取省市区三个部分的内容

总体思路:

---------->(1)安装jiaba

pip install -i https://pypi.mirrors.ustc.edu.cn/simple/ jieba

---------->(2)安装addressparser

pip install addressparser

--------->(3)提取..\Anaconda3\installation location\Lib\site-packages\addressparser中的pca.csv的前四列存为pca_test.csv

import pandas as pd
pca_test=pd.read_table(r'D:\Program Files\Anaconda3\installation location\Lib\site-packages\addressparser\pca.csv',sep=',')
pd.set_option("display.max_columns",None)
pca_test=pca_test.iloc[:,0:4]
pca_test.to_csv(r'E:\Users\User\jupyter-notebook\all ipynb files\result\pca_test.csv',encoding='utf_8_sig',index=False)

----------->(4)用notepad++打开pca_test.csv,复制全部内容,粘贴在...Anaconda3\installation location\Lib\site-packages\jieba\dict.txt内容的后面,并【ctrl+S】保存

----------->(5)通过addressparser实现分词

import addressparser
location_str=datas['地址']
datas['省份']=addressparser.transform(location_str)['省']

----------->(6)随机取样15行查看结果

datas.sample(15)

最后一点补充:

打开addressparser库的__init__.py,发现作者源码实现是通过jieba分词,因此正确提取出中国的省市区地址,必须修改jieba库的字典dict.txt

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值