solr配置schema.xml学习

最新推荐文章于 2022-03-16 14:33:49 发布

zhhpjl

最新推荐文章于 2022-03-16 14:33:49 发布

阅读量811

点赞数

分类专栏： solr 文章标签： solr

本文链接：https://blog.csdn.net/zhhpjl/article/details/43668115

版权

solr 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

solr创建索引、添加数据的关键是配置schema.xml文件，该文件中主要是完成配置数据源、索引字段、数据类型等定义。同时，该文件的配置直接影响到solr搜索的效率和准确性。

一、搜索类型FileType

name：指的是FileType的名字

class：指向org.apache.solr.analysis包里面对应的class名称，用来定义这个类型的行为

<types> 
    <fieldType name="string" class="solr.StrField" sortMissingLast="true" />
	<fieldType name="boolean" class="solr.BoolField" sortMissingLast="true"/>
	<fieldtype name="binary" class="solr.BinaryField"/>
	<fieldType name="int" class="solr.TrieIntField" precisionStep="0" positionIncrementGap="0"/>
	<fieldType name="float" class="solr.TrieFloatField" precisionStep="0" positionIncrementGap="0"/>
	<fieldType name="long" class="solr.TrieLongField" precisionStep="0" positionIncrementGap="0"/>
	<fieldType name="double" class="solr.TrieDoubleField" precisionStep="0" positionIncrementGap="0"/>
	<fieldType name="tint" class="solr.TrieIntField" precisionStep="8" positionIncrementGap="0"/>
	<fieldType name="tfloat" class="solr.TrieFloatField" precisionStep="8" positionIncrementGap="0"/>
	<fieldType name="tlong" class="solr.TrieLongField" precisionStep="8" positionIncrementGap="0"/>
	<fieldType name="tdouble" class="solr.TrieDoubleField" precisionStep="8" positionIncrementGap="0"/>
	<fieldType name="date" class="solr.TrieDateField" precisionStep="0" positionIncrementGap="0"/>
	<fieldType name="tdate" class="solr.TrieDateField" precisionStep="6" positionIncrementGap="0"/>
	<fieldType name="pint" class="solr.IntField"/>
	<fieldType name="plong" class="solr.LongField"/>
	<fieldType name="pfloat" class="solr.FloatField"/>
	<fieldType name="pdouble" class="solr.DoubleField"/>
	<fieldType name="pdate" class="solr.DateField" sortMissingLast="true"/>
	<fieldType name="sint" class="solr.SortableIntField" sortMissingLast="true" omitNorms="true"/>
	<fieldType name="slong" class="solr.SortableLongField" sortMissingLast="true" omitNorms="true"/>
	<fieldType name="sfloat" class="solr.SortableFloatField" sortMissingLast="true" omitNorms="true"/>
	<fieldType name="sdouble" class="solr.SortableDoubleField" sortMissingLast="true" omitNorms="true"/>
	<fieldType name="random" class="solr.RandomSortField" indexed="true" />
</types>

注明了若干种搜索类型，字符串，数字，浮点，日期，布尔等。

通常，我们对自己定义的类型建立分析器analyzer，来更好的实现对字段更加准确的搜索功能。分析器通常由分词器tokenizer和过滤器filter组成。通常只有solr.TextField 类型的fieldtype允许定制分析器。通常有一下两种方法创建分析器。

方法一：使用任何 org.apache.lucene.analysis.Analyzer的子类进行设定。

<fieldtype name="nametext" class="solr.TextField">
	<analyzer class="org.apache.lucene.analysis.WhitespaceAnalyzer"/>
</fieldtype>

方法二：指定一个TokenizerFactory ，后面跟一系列的TokenFilterFactories（它们将按照所列的顺序发生作用）

<fieldtype name="text" class="solrTextField">
   <analyzer>
     <tokenizer class="solr.solrStandardTokenizerFactory"/>
     <filter class="solr.solrStandardFilterFactory"/>
     <filter class="solr.solrLowerCaseFilterFactory"/>
     <filter class="solr.solrStopFilterFactory"/>
     <filter class="solr.solrPorterStemFilterFactory"/>
   </analyzer>
 </fieldtype>

需要说明的一点是，Any Analyzer, TokenizerFactory, or TokenFilterFactory 应该用带包名的全类名进行指定，请确保它们位于Solr的classpath 路径下。对于 org.apache.solr.analysis.* 包下的类，仅仅通过solr.*就可以进行指定。
Solr提供的TokenizerFactories，如下：

solr.LetterTokenizerFactory	"I can't"	"I", "can", "t"
solr.WhitespaceTokenizerFactory	"I can"	"I", "can"
solr.LowerCaseTokenizerFactory	"I can't"	"i", "can", "t"
solr.StandardTokenizerFactory	"I.B.M. cat's can't"	ACRONYM: "I.B.M.", APOSTROPHE:"cat's", APOSTROPHE:"can't"	目前仅仅只有StandardFilter对Token 的类型是敏感的。
solr.HTMLStripWhitespaceTokenizerFactory			solr.HTMLStripWhitespaceTokenizerFactory
solr.HTMLStripStandardTokenizerFactory			从结果中出去HTML标签，将结果交给StandardTokenizer处理
solr.PatternTokenizerFactory			按照规则表达式样式对分本进行分词

Solr有哪些TokenFilterFactories，如下：

solr.StandardFilterFactory	仅仅作用于由StandardTokenizer产生的Token
solr.LowerCaseFilterFactory
solr.TrimFilterFactory	去掉Token两端的空白符
solr.StopFilterFactory	去掉如下的通用词，多为虚词。可通过words="stopwords.txt"来指定字符集
solr.KeepWordFilterFactory	作用与solr.StopFilterFactory相反，保留词的列表也可以通过”word”属性进行指定
solr.LengthFilterFactory	过滤掉长度在某个范围之外的词，有min="2" max="5"属性
solr.PorterStemFilterFactory	采用Porter Stemming Algorithm算法去掉单词的后缀，例如将复数形式变成单数形式，第三人称动词变成第一人称，现在分词变成一般现在时的动词
solr.EnglishPorterFilterFactory	关于句子主干的处理，其中的"protected"指定不允许修改的词的文件
solr.SnowballPorterFilterFactory	关于不同语言的词干处理
solr.WordDelimiterFilterFactory	关于分隔符的处理
solr.SynonymFilterFactory	关于同义词的处理
solr.RemoveDuplicatesTokenFilterFactory	避免重复处理

二、定义字段fields

    name：字段名
    type：之前定义过的各种FieldType
    indexed：是否被索引
    stored：是否被存储（如果不需要存储相应字段值，尽量设为false）
    multiValued：是否有多个值（对可能存在多值的字段尽量设置为true，避免建索引时抛出错误）

    compressed(true|false)：是否使用gzip压缩存储(仅适用于compressable;TextField和StrField)
    compressThreshold()：保证压缩到不小于一个integer大小
    omitNorms(true|false)：当为true时，字段检索时被省略相关的规范
    omitTermFreqAndPositions(true|false)：当为true时，省略这一领域的长远频率，位置和有效载荷
    termVectors(true|false)：当设置true，会存储 term vector。当使用MoreLikeThis，用来作为相似词的field应该存储起来。
    termPositions：存储 term vector中的地址信息，会消耗存储开销。
    termOffsets：存储 term vector 的偏移量，会消耗存储开销。

<fields>     
    <field name="id" type="integer" indexed="true" stored="true" required="true" />    
    <field name="name" type="text" indexed="true" stored="true" />     
    <field name="summary" type="text" indexed="true" stored="true" />     
    <field name="author" type="string" indexed="true" stored="true" />     
    <field name="date" type="date" indexed="false" stored="true" />     
    <field name="content" type="text" indexed="true" stored="false" />     
    <field name="keywords" type="keyword_text" indexed="true" stored="false" multiValued="true" />    
    <!--拷贝字段-->     
    <field name="all" type="text" indexed="true" stored="false" multiValued="true"/>    
</fields>

三、拷贝字段copyField
将所有的全文本字段复制到一个字段中，以便进行统一的检索。

<copyField source="name" dest="all"/>     
<copyField source="summary" dest="all"/>

四、其他字段

<uniqueKey>id</uniqueKey>

文档的唯一标识，必须填写这个field（除非该field被标记required="false"），否则solr建立索引报错。

<defaultSearchField>text</defaultSearchField>

如果搜索参数中没有指定具体的field，那么这是默认的域。优先级比solrconfig.xml中设置的requestHandler低。

<solrQueryParserdefaultOperator="OR" />

配置搜索参数短语间的逻辑，可以是"AND|OR"。