1. dhash
参考1中,给出了一种相似图片搜索中,能用于计算图像hash值的算法,叫做dhash。
用dhash计算图片hash,既能兼顾计算效率,又能兼顾准确率。
那么好的东西,也已经有开源版本实现了,见参考2。
2. dhash lib的用法
参考2给的lib,根据其readme,得到在python中用法如下:
import dhash
from PIL import Image
def get_dhash(img_path):
image = Image.open(img_path)
row, col = dhash.dhash_row_col(image, size=16)
hh = dhash.format_hex(row, col)
return hh
h1 = get_dhash('xxx.png')
print(h1) # hash value
print(len(h1)*4) # binary bits count, 512
print(len(h1)) # hex bits count, 128
设置不同的size,得到的dhash值的位数也不同。这里取size=16,得到的dhash值为512位(二进制0/1组成)。
3. 存在的问题
上面的代码,输入不同图片时,输出的dhash值位数不一定都是512位的。
有些图片的结果是496位,有的是508位,有的是512位。
这就麻烦了,如果位数不固定,那后面做相似性搜索,也是无法实现的。
该如何解决这个问题呢?
直观的想法是zero-padding,在每个hash值前面补零,固定为512位。但这样可以吗?
4. 源码分析
为了弄明白这个问题,需要看下dhash lib的设计初衷,才能知道直接补零是否可行。
- 获取行列哈希值
- 源码的dhash_row_col()函数
- 源码位置:https://github.com/benhoyt/dhash/blob/master/dhash.py#L73
下面对源码中关键逻辑做了注释
def dhash_row_col(image, size=8):
width = size + 1
# 彩色图变为灰度图
# 把图像size调整到 (size+1)x(size+1)
grays = get_grays(image, width, width)
# 分别计算行哈希值,列哈希值
row_hash = 0
col_hash = 0
for y in range(size):
for x in range(size):
offset = y * width + x
# grays[offset]是迭代过程中的当前像素值(灰度值)
# 若当前点比下一个点像素值小,则当前bit=1,否则bit=0
row_bit = grays[offset] < grays[offset + 1]
# row_hash左移1位后,加上当前计算得到的bit位
row_hash = row_hash << 1 | row_bit
# 若当前点比offset + width点像素值小,则当前bit=1,否则bit=0
col_bit = grays[offset] < grays[offset + width]
# col_hash左移1位后,加上当前计算得到的bit位
col_hash = col_hash << 1 | col_bit
return (row_hash, col_hash)
从dhash源码可见,我们输入的size=16,会导致图片被转换为17x17的灰度图。
hash值的计算,并不是直接得到一个hash,而是得到行哈希和列哈希两个哈希值。
每个哈希值,都有size x size个bit,这里得到的行哈希和列哈希,都是256位的二进制数。
这两个哈希值,还要经过下面的转换,才能得到最终的dhash值。
- 将行哈希、列哈希转换为dhash值
- 源码的format_matrix()函数
- 源码位置:https://github.com/benhoyt/dhash/blob/master/dhash.py#L157
下面是源码中关键逻辑
def format_hex(row_hash, col_hash, size=8):
hex_length = size * size // 4
# 把行哈希,转换为hex_length个16进制数,列哈希值也做相同处理后,拼接到一起
return '{0:0{2}x}{1:0{2}x}'.format(row_hash, col_hash, hex_length)
转换为本题的size=16的情况后
def format_hex(row_hash, col_hash):
hex_length = 16 * 16 // 4 # 64
return '{0:0{2}x}{1:0{2}x}'.format(row_hash, col_hash, 64)
可见,最终结果是把行哈希值,列哈希值,分别转换为64位的十六进制数据,并拼接到一起。
所以,最终dhash的值,是64+64=128位十六进制数,正好也就是512位二进制数。
5. 如何解决位数不固定问题
通过源码分析,我们可以知道,为了得到固定位数的dhash值,必须在上面提到的两个关键函数中指定size参数。
将2中给定的代码,改为如下,即可解决这个问题。
import dhash
from PIL import Image
def get_dhash(img_path):
image = Image.open(img_path)
row, col = dhash.dhash_row_col(image, size=16)
hh = dhash.format_hex(row, col, size=16)#加上这个size参数即可
return hh
h1 = get_dhash('xxx.png')
print(h1) # hash value
print(len(h1)*4) # binary bits count, 512
print(len(h1)) # hex bits count, 128
6. 总结
本文介绍了参考2中的dhash计算开源项目的关键代码逻辑,并给出了使用该项目获取dhash值时得到固定位数哈希值的方案。
7. 参考
-
http://www.hackerfactor.com/blog/?/archives/529-Kind-of-Like-That.html
-
https://github.com/benhoyt/dhash