BIG_DATA
文章平均质量分 94
ystar9
这个作者很懒,什么都没留下…
展开
-
海量数据相似度计算之simhash和海明距离
海量数据相似度计算之simhash和海明距离 2013-08-28 13:44 严澜(@观澜而索源) jobbole.com 我要评论(0) 字号:T | T 通过 采集系统 我们采 集了大量文本数据,但是文本中有很多重复数据影响我们对于结果的分析。分析前我们需要对这些数据去除重复,如何选择和设计文本的去重算法?常见的有余弦夹 角算法、欧式距离、Jaccard相似度、...原创 2014-06-01 16:39:10 · 264 阅读 · 0 评论 -
社会化海量数据采集爬虫框架搭建
社会化海量数据采集爬虫框架搭建 随着BIG DATA大数据概念逐渐升温,如何搭建一个能够采集海量数据的架构体系摆在大家眼前。如何能够做到所见即所得的无阻拦式采集、如何快速把不规则页面结构化并存储、如何满足越来越多的数据采集还要在有限时间内采集。这篇文章结合我们自身项目经验谈一下。 我们来看一下作为人是怎么获取网页数据的呢? 打开浏览器,输入网址url访...原创 2014-06-01 16:40:48 · 163 阅读 · 0 评论