下载solr
https://mirrors.tuna.tsinghua.edu.cn/apache/lucene/solr/6.5.1/solr-6.5.1.tgz
配置一个普通的solr core
wget https://mirrors.tuna.tsinghua.edu.cn/apache/lucene/solr/6.5.1/solr-6.5.1.tgz # 已下载请忽略
tar xzvf solr-6.5.1.tgz #解压
cd solr-6.5.1/server/solr
cp -r configsets/basic_configs ./mytestconf # 复制配置文件
solr6 支持动态字段添加,不需要配置schema.xml文件
到此为止,一个普通的solr core配置完毕了
配置一个支持pdf解析的solr core
复制配置文件
cp -r configsets/basic_configs ./mypdfconf
复制需要的依赖包
cp -r ../../contrib/extraction/lib ./mypdfconf/
cp ../../dist/solr-dataimporthandler-* ./mypdfconf/lib/
编辑solrconfig配置文件
vim mypdfconf/conf/solrconfig.xml
添加依赖配置到94行
<libdir="./lib"regex=".*\.jar" />
配置dataimport到860行
<requestHandlername="/dataimport"class="solr.DataImportHandler"><lstname="defaults"><strname="config">tika-data-config.xml</str></lst></requestHandler>
配置 tika-data-config.xml
vim tika-data-config.xml
添加以下内容
<dataConfig><script><![CDATA[
id = 1;
functionGenerateId(row) {
row.put('id', (id ++).toFixed());
return row;
}
functionWipOffHtml(row) {
var file = row.get('file');
row.put('file',file.substr(0,file.indexOf('.')));
return row;
}
]]>
</script><dataSourcetype="BinFileDataSource" /><document><entityname="files"dataSource="binary"rootEntity="false"processor="FileListEntityProcessor"baseDir="/tmp/pdfs"fileName=".*.(doc)|(pdf)|(xls)|(ppt)|(docx)"recursive="true"><fieldcolumn="fileAbsolutePath"name="filePath" /><fieldcolumn="fileSize"name="size" /><fieldcolumn="fileLastModified"name="lastModified" /><entityname="documentImport"processor="TikaEntityProcessor"url="${files.fileAbsolutePath}"format="text"transformer="HTMLStripTransformer,RegexTransformer,script:GenerateId"><fieldcolumn="file"name="fileName"/><fieldcolumn="id"name="id" /><fieldcolumn="Author"name="author"meta="true"/><fieldcolumn="title"name="title"meta="true"/><fieldcolumn="text"name="text"stripHTML="true"regex="\t|\r|\n|\s"replaceWith="" /></entity></entity></document></dataConfig>
添加pdf,doc文档(非扫描版)
cp ../../../../example/exampledocs/solr-word.pdf /tmp/pdfs/