背景
以图搜图是很有颠覆力的应用,俗话说一图胜千言
不同于文本搜索的匹配模式,以图搜图要对搜索的信息源进行处理,抽取特征信息。在网易存证系统的开发过程中调研了用于以图搜图的simhash
算法,并设想在内容系统建设完善后可以用于诸多的场景,比如:
-
商业图片侵权自动取证
-
肖像内容的识别
-
家庭照片按场景自动分类
图片指纹比较 simhash算法
-
压缩大小
-
压缩颜色
-
计算平均灰度值
-
每个像素和平均值比较,大的为1;小的为0,
进一步向量化
-
得出向量,就是图片指纹,
-
计算汉明距离 hamming distance
通过如上粗粒度的算法分析,可知simhash和普通hash算法有较大不同;普通hash算法是对字节流无差别的处理,但是simhash首先会对信息抽取特征值,然后计算汉明距离,最后这步是关键,度量了两个特征量的相似性&#