- 博客(2)
- 收藏
- 关注
原创 大数据级新闻去重实现 - 1.在线实时方案
最近针对爬虫爬下来的新闻进行去重。这个去重要考虑很多方面:不同网站发布的要点新闻,基本上是有通稿的,内容大同小异,基本一致,有些细节不同,需要去掉重复的,保留质量最好的。去重对比的时间跨度是多大呢?可能刚开始我们会考虑搜索整个库,每篇文章都对比,但是这样会效率太差了,没有必要。新闻有发布时间,以新闻发布时间前后一周为时间段, 对比这个时间段内的新闻即可。发布的新闻可能有很类似的,例如一个新...
2019-02-25 16:58:59 3941 1
原创 Python 环境问题收集
windows环境下重装anaconda容易漏掉安装sqlite的dll,因为注册表中还有这个遗留信息,导致sqlite需要的的dll并没有被安装。会出现类似于下面的报错:File "D:\ProgramData\Anaconda3\lib\sqlite3\__init__.py", line 23, in <module> from sqlite3.dbapi2 impo...
2019-02-19 14:40:00 2230 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人