因为知识工程课有学习dedupe使用的需要,但在网上很难找到有关dedupe在windows下的使用方法的小白教程,所以写这篇博客希望帮到有需要的人。本文使用的编译软件时pycharm,环境为python3.6,主要参考了以下博文的内容。博客链接
本文主要分为以下两部分
- 环境的安装及相关文件的下载
- 示例程序的调试使用
一.环境的安装及相关文件的下载
1.dedupe使用实例下载。 下载链接
2.下面以第一个示例csv_example为例,进行相关环境配置和操作。
首先观察csv_example.py,如下图:
需要安装的包为future,dedupe,unidecode.
(1)相关包的安装–pip的安装
首先是pip的安装。
推荐在清华镜像进行下载,因为在官网下载速度会比较慢,其他包也可以直接在https://pypi.tuna.tsinghua.edu.cn/simple/xxx/下载后以如下方法安装。
- win+R打开命令行后进入到pip所在文件夹内。
- 输入如下代码进行安装
python setup.py install
- 安装成功
(2)相关包的安装
输入win+R进入命令行后,输入pip install xxx
即可安装需要的三个包,当在官网安装较慢时可以考虑在国内镜像进行下载,代码如下:
pip install xxx -i https://pypi.tuna.tsinghua.edu.cn/simple
(3)常见问题及解决方法
-
找不到文件或超时
解决方案:换国内源 -
Miscrosoft visual C++
解决方案:安装Miscrosoft visual C++,点击如下链接下载后直接默认安装即可。
二.示例程序的使用
相关包安装完成后即可进行第一个示例程序的使用。
依次运行聚类学习程序和评价程序即可。
其中运行csv_example.py时,有一个Active learning过程,完成后按f即可。之后即可运行csv_evaluation.py进行评估。
常见问题及解决方案 -
编码问题
解决方案:在打开文件时将编码改为‘utf-8’即可。
with open(xxx,encoding='UTF-8')
-
ImportError: numpy.core.multiarray failed to import
解决方案:引用包的错误,可以通过卸载重新安装numpy解决。
pip uninstall numpy
pip install numpy -i https://pypi.tuna.tsinghua.edu.cn/simple
可以通过pip show xxx
查看包的安装状态。