数据工程｜Solr 使用 Tika 在中支持 pdf 和 doc搜索

最新推荐文章于 2024-07-06 13:29:25 发布

wissy512

最新推荐文章于 2024-07-06 13:29:25 发布

阅读量317

点赞数

分类专栏：数据工程文章标签： solr pdf lucene Powered by 金山文档

本文链接：https://blog.csdn.net/wissy512/article/details/129117205

版权

数据工程专栏收录该内容

1 篇文章 0 订阅

订阅专栏

下载solr

点击去Solr主页

https://mirrors.tuna.tsinghua.edu.cn/apache/lucene/solr/6.5.1/solr-6.5.1.tgz

配置一个普通的solr core

wget https://mirrors.tuna.tsinghua.edu.cn/apache/lucene/solr/6.5.1/solr-6.5.1.tgz # 已下载请忽略

tar xzvf solr-6.5.1.tgz #解压

cd solr-6.5.1/server/solr

cp -r  configsets/basic_configs ./mytestconf # 复制配置文件

solr6 支持动态字段添加，不需要配置schema.xml文件

到此为止，一个普通的solr core配置完毕了

配置一个支持pdf解析的solr core

复制配置文件

cp -r  configsets/basic_configs ./mypdfconf

复制需要的依赖包

cp -r ../../contrib/extraction/lib ./mypdfconf/ 
cp ../../dist/solr-dataimporthandler-* ./mypdfconf/lib/

编辑solrconfig配置文件

vim mypdfconf/conf/solrconfig.xml

添加依赖配置到94行

<libdir="./lib"regex=".*\.jar" />

配置dataimport到860行

<requestHandlername="/dataimport"class="solr.DataImportHandler"><lstname="defaults"><strname="config">tika-data-config.xml</str></lst></requestHandler>

配置 tika-data-config.xml

vim tika-data-config.xml

添加以下内容

<dataConfig><script><![CDATA[
            id = 1;
            functionGenerateId(row) {
                row.put('id', (id ++).toFixed());
                return row;
            }
            functionWipOffHtml(row) {
                var file = row.get('file');
                row.put('file',file.substr(0,file.indexOf('.')));
                return row;
            }
           ]]>
       </script><dataSourcetype="BinFileDataSource" /><document><entityname="files"dataSource="binary"rootEntity="false"processor="FileListEntityProcessor"baseDir="/tmp/pdfs"fileName=".*.(doc)|(pdf)|(xls)|(ppt)|(docx)"recursive="true"><fieldcolumn="fileAbsolutePath"name="filePath" /><fieldcolumn="fileSize"name="size" /><fieldcolumn="fileLastModified"name="lastModified" /><entityname="documentImport"processor="TikaEntityProcessor"url="${files.fileAbsolutePath}"format="text"transformer="HTMLStripTransformer,RegexTransformer,script:GenerateId"><fieldcolumn="file"name="fileName"/><fieldcolumn="id"name="id" /><fieldcolumn="Author"name="author"meta="true"/><fieldcolumn="title"name="title"meta="true"/><fieldcolumn="text"name="text"stripHTML="true"regex="\t|\r|\n|\s"replaceWith="" /></entity></entity></document></dataConfig>

添加pdf，doc文档（非扫描版）

cp ../../../../example/exampledocs/solr-word.pdf /tmp/pdfs/

wissy512

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
数据工程｜Solr 使用 Tika 在中支持 pdf 和 doc搜索

Solr 使用 Tika 在中支持 pdf 和 doc搜索
复制链接

扫一扫

专栏目录