上面使用的Index和Search两个类都做了什么呢?下面我们来分别解释。
众所周知,图像本身的信息是非常大的,因此直接检索计算量太大,基于内容的图像检索本质上是用一些特征来代表图像,这些特征往往是大小有限的字符数组,因此可以使用文本检索技术来检索。Index的过程就是先提取图像的特征,将其视为文本,然后使用lucene来检索的。
创建索引的过程:
File f = new File(fileDesDir);//文件目录
// 打开文件目录,读取所有图像
ArrayList<String> images =FileUtils.getAllImages(new File(fileDesDir), true);
//创建一个 CEDD 文档 builder ,然后对所有的文件创建CEDD索引.
DocumentBuilder builder =DocumentBuilderFactory.getCEDDDocumentBuilder();
// 创建一个 Lucene IndexWriter
IndexWriterConfig conf = newIndexWriterConfig(Version.LUCENE_40,
new WhitespaceAnalyzer(Version.LUCENE_40));
IndexWriter iw = new IndexWriter(FSDirectory.open(new File("index")), conf);
// 迭代处理图像,创建低层特征
for (Iterator<String> it =images.iterator(); it.hasNext(); ) {
String imageFilePath = it.next();
System.out.println("Indexing " + imageFilePath);
try {
BufferedImage img = ImageIO.read(newFileInputStream(imageFilePath));
Document document = builder.createDocument(img,imageFilePath);
iw.addDocument(document);
} catch (Exception e) {
System.err.println("Error reading image or indexing it.");
e.printStackTrace();
}
}
搜索的时候:
//index是在本地创建的索引文件夹
IndexReader ir = DirectoryReader.open(FSDirectory.open(new File("index")));
//创建CEDD图像实例
ImageSearcher searcher =ImageSearcherFactory.createCEDDImageSearcher(10);
//创建搜索匹配度列表
ImageSearchHits hits =searcher.search(img, ir);
for (int i = 0; i < hits.length(); i++) {
String fileName =hits.doc(i).getValues(DocumentBuilder.FIELD_NAME_IDENTIFIER)[0];
System.out.println(hits.score(i) + ": \t" +fileName);
}