搜索引擎开发笔记三

        生命就像一盒巧克力,你永远不知道下一颗是什么滋味。——《阿甘正传》 

        消失了一周,我又回来了。。。

        上回书说了Lucene的两个最重要的两个类Document和Field。Document的意义为文档,在Lucene,它代表一种逻辑文件。Lucene无法直接为物理文件建立索引。有时利用Document来与物理文件建立对应关系。但是,更多时候,Document和物理文件没有关系,它作为一种数据源的集合,向Lucene提供原始的要索引的文本内容。在Lucene中,数据源是有一个被称为Field的类来表示的。Field可以理解为关系型数据库的字段。而Document就是一条记录。每个字段有各种属性,Field同样也有很多属性。

       数据源的属性有三种:是否存 是否索引 是否分词

       Document的内部实现,它主要对Field的信息进行记录和管理的作用,以遍Lucene遍历所有Field信息。在Document内部,Field保存在一个Vector类型的对象数组中。

代码如下

//为Document加入一个Field,这个也是最常用的方法
public final void add(Field field)

//删除一个Field
public final void removeField(String name)

//删除多个Field,这些Field的名字都相同
public final void removeFields(String name)

//根据一个Field的名称来获取它的实例,如果有多个Field的名称一样就返回第一个Field的信息
public final Field getField(String name)

//取出Field的值,也就是数据源的值
public final String get(String name)

//得到一个所有的Field的枚举
public final Enumration fields()

//根据名称得到一个Field的数组
public final Field[] getFields(String name)

//根据名称得到一个Field的值的数组
public final String[] getValue(String name)

当需要在Document中添加一个Field时

加如下代码

//构建一个Document对象
Document doc = new Document();

//构建四个Field
Field f1 = new Field("name1","value1",Field.Store.YES,Field.Index.TOKENIZED);
Field f1 = new Field("name2","value2",Field.Store.YES,Field.Index.TOKENIZED);
Field f1 = new Field("namE3","value3",Field.Store.YES,Field.Index.TOKENIZED);
Field f1 = new Field("name4","value4",Field.Store.YES,Field.Index.TOKENIZED);

//依次将Field加入Document中
doc.add(f1);
doc.add(f2);
doc.add(f3);
doc.add(f4);


Field的内部实现在Lucene2.0之前,只有三个布尔型变量以此标明Field的3种属性

//是否储存
private boolean isStored = false;
//是否索引
private boolean isIndexed = true;
//是否分词
private boolean isTokenized = true;

 

而在Lucene2.0版本中

实现代码如下


 

/**
 * 表示Field的存储属性
 */
public static final class Store extends Parameter implements Serializable
{
	private Store(String name){
		super(name);		
	}
	//Field被压缩储存
	public static final Store COMPRESS = new Store("COMPRESS");
	//Field被存储
	public static final Store YES = new Store("YES");
	//Field不被存储
	public static final Store NO = new Store("NO");
}
/**
*表示Field的索引属性
*/
public static final class Index extends Parameter implements Serializable
{
	private Index(String name){
		super(name);
	}	
	//Field不索引
	public static final NO = new Index("NO");
	//Field被分词后索引
	public static final Index TOKENIZED = new Index("TOKENIZED");
	//Field不分词索引
	public static final Index UN_TOKENIZED = new Index("UN_TOKENIZED");
	//不使用Analyzer来索引Field
	public static final Index NO_NORMS = new Index("NO_NORMS");
}

上述两个静态内部类Store和Index描述了Field的所有属性,它们分别表示Field的存储方式和索引方式。

Store类有3个公有的静态属性

1.Store.NO:表示该Field不需要存储

2.Store.YES:表示该Field需要存储

3.Store.COMPRESS:表示使用压缩方式来保存这个Field的值

Index类有4个公有的静态属性

1.Index.NO:表示该索引不需要存储,即用户不需要去查找该Field的值

2.Index.TOKENIZED:表示该Field先被分词再索引

3.Index.NO_NORMS:表示不对该Field进行分词,但是不使用Analyzer,同时禁止它参加评分,主要是减少内存的消耗

 

Field类的构造方法

五种公有构造方法,来构造Field对象

public Field(String name,String value,Store stroe,Index index)
public Field(String name,String value,Store store,Index index,TermVector termVector)
public Field(String name,Reader reader)
public Field(String name,Reader reader,TermVector termVector)
public Field(String name,byte[] value,Store store)


name是指这个Field的名称,在为Field添加值时,有三种方式

1.直接的字符串方式

2.使用Reader从外部传入

3.使用直接的二进制byte传入

下面演示如何为图书馆构建Document和Field

Document bookdoc = new Document();

//创建书号Field
Field bookNo = new Field("booknumber","FB7654321",Field.Store.YES,Field.Index.UN_TOKENIZED);

//创建书名Field
Field bookName = new Field("bookname","海的女儿",Field.Score.YES,Field.Index.UN_TOKENIZED);

//创建作者Field
Field author = new Field("author"+"匿    名"+Field.Store.YES,Field.Index.UN_TOKENIZED);

//创建发行日期Field
Field publicdate = new Field("publishdate"+"1993-05-24",Field.Store.YES,Field.Index.NO);

//创建摘要Field
Field bookabstract = new Field("abstract","海的女儿很好看。",Field.Store.NO,Field.Index.TOKENIZED);

//创建价格FIeld
Field bookabstract = new Field("price","25.00",Field.Store.YES,Field.Index.NO);

//把所有的Field加入到Document中
bookdoc.add(bookNo);
bookdoc.add(bookName);
bookdoc.add(author);
bookdoc.add(publishdate);
bookdoc.add(bookabstract);
bookdoc.add(price);


 

欧了,今天到这吧。

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
该资源内项目源码是个人的课程设计、毕业设计,代码都测试ok,都是运行成功后才上传资源,答辩评审平均分达到96分,放心下载使用! ## 项目备注 1、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用! 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载学习,也适合小白学习进阶,当然也可作为毕设项目、课程设计、作业、项目初期立项演示等。 3、如果基础还行,也可在此代码基础上进行修改,以实现其他功能,也可用于毕设、课设、作业等。 下载后请首先打开README.md文件(如有),仅供学习参考, 切勿用于商业用途。 该资源内项目源码是个人的课程设计,代码都测试ok,都是运行成功后才上传资源,答辩评审平均分达到96分,放心下载使用! ## 项目备注 1、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用! 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载学习,也适合小白学习进阶,当然也可作为毕设项目、课程设计、作业、项目初期立项演示等。 3、如果基础还行,也可在此代码基础上进行修改,以实现其他功能,也可用于毕设、课设、作业等。 下载后请首先打开README.md文件(如有),仅供学习参考, 切勿用于商业用途。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值