数据挖掘
文章平均质量分 75
wh_springer
推荐系统、数据挖掘、hadoop
展开
-
文本指纹算法和内容指纹系统介绍
1. 文本指纹介绍Web大量上的网页集合里存在大量的重复内容网页,无论对于搜索引擎的网页去重和过滤、新闻小说等内容网站的内容反盗版和追踪、还是社交媒体等文本去重和聚类,都需要对网页或者文本进行去重和过滤。最简单的文本相似性计算方法可以利用空间向量模型,计算分词后的文本的特征向量的相似性,这种方法存在效率的严重弊端,无法针对海量的文本进行两两的相似性判断。模仿生物学指纹的特点,对原创 2016-08-10 23:22:10 · 18339 阅读 · 2 评论 -
布隆滤波器基本原理和pybloomfilter使用
1. 布隆滤波器原理在日常开发过程中,会经常遇到元素是否存在集合判断和去重问题,例如我们会判断一个email地址是否在黑名单中,网络爬虫会判断一个url是否已经存在于待抓取列表或者已抓取,视频库的去重等等。不幸的是通常情况下这类问题面临的数据规模都较大,比如网络爬虫系统的抓取url通常达到数亿级别,如果采用哈希表存储这些url将会耗费大量的内存以至于在实际生产使用过程中几乎不可用,而布隆滤波器原创 2016-08-12 16:41:17 · 7099 阅读 · 3 评论 -
如何解决sklearn加载libsvm格式数据数组越界?
在使用sklearn加载大数据量的libsvm文件函数load_svmlight_file发生了内存越界错误,样本数超过1千万。具体报错:OverflowError: signed integer is greater than maximum.这个问题比较奇怪,之前一直没有问题,只是每个样本都add了固定的128维特征后才出现上述报错。通过对sklearn源码分析,sklear...原创 2018-12-14 18:32:05 · 2225 阅读 · 0 评论 -
sklearn中逻辑回归(logistic regression)的损失函数推导
最近无意阅读sklearn中关于logistic regression的文档时,发现其损失函数和意识中长的不一样,有必要简单梳理下。绝大部分的文章或者资料都习惯于将label y的空间定义为0和1,因此我们使用极大似然估计(maximum likelihood estimate)可以很轻松写出其似然函数:加上L2正则项后,整理可得我们需要最小化的损失函数如下:sklearn中...原创 2019-04-12 15:33:57 · 3585 阅读 · 0 评论