Tika是什么?如何安装Tika?

最近在看lucene,昨天看到使用Tika提取文本,把安装过程记录下来,方便以后使用:

一句话解释Tika的作用:Tika是一个具有内置解析器用于处理各种文档类型的程序框架。该框架公布了标准的API供应用程序调用并完成从文档中提取文本和元数据,内置解析器会在后台通过外部程序提供的API与之交互。这使得你的应用程序能够针对不同的文档类型使用相同的API。当程序需要从文档中提取文本时,Tika会找到相应的解释器。

此处说明一点:

首先,要使用了Maven2编译生成的Tika,Tika的源码可以在http://www.apache.org/dyn/closer.cgi/tika/apache-tika-1.1-src.zip下到。不过默认不提供生成的jar包,需要自己用Maven2生成。因此要先配置Maven2,去http://maven.apache.org/download.html下载Maven2,我下载的是Maven2.2.1。

步骤一:配置Maven2

解压获得的apache-maven-2.2.1-bin.zip至你想要安置Maven2的目录,我解压至了"E:\TikaTest\",那么E:\TikaTest\apache-maven-2.2.1是Maven2的根目录。

配置名为M2_HOME的环境变量为上述路径;

配置名为M2的环境变量 为"%M2_HOME%\bin";

最后在Path系统环境变量中添加%M2%一项。 

当然,这些操作的前提是要正确安装好JDK。

经过上述步骤,在cmd中键入mvn --version看看是否正确输出。

步骤二:生成Tika目标文件

把下载好的apache-tika-1.1-src.zip解压到某特定目录,比如我的"E:\TikaTest\"则根目录是E:\TikaTest\apache-tika-1.1。打开apache-tika-1.1文件夹可以看到有三个文件夹分别为:tika-app,tika-parsers和tika-core。

其中,tika-core包含主要的接口和核心功能。

            tika-parsers包含与外部解析器程序库对应的所有适配器。

            tika-app将所有内容打包成一个单一的可执行的jar包。

cmd进入tika-core文件夹下,即E:\TikaTest\apache-tika-1.1\tika-core,执行mvn clean install,经过耐心等待,就可以在tika-core目录下发现新增了一个target目录,该目录下有一个jar文件tika-core- 0.5.jar,这就是我们要的了。

紧接着,用同样的方法分别进入到tika-app和tika-parsers文件夹下,使用同样的命令生成jar包。

tika-app-0.5.jar,tika-parsers-0.5.jar和tika-core- 0.5.jar就是我们后面内容所需要的。
   


  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值