涉及到的属性包括:title、url、source和content,计算逻辑如下:
public String calcMD5ID(Article item) {
String dedupStr = item.url + item.title + item.source;
String md5id = "";
if (item.content != null)
md5id = MD5Util.getMD5String(dedupStr + item.content);
else
md5id = MD5Util.getMD5String(dedupStr);
return md5id;
}
其中MD5Util是core包中的类
import apollo.crawler.core.utils.MD5Util;