TIKA环境配置


章将指导完成设置Apache Tika在Windows和Linux的配置过程。用户管理是必要的,同时安装了Apache Tika。

系统要求

JDK Java SE 2 JDK 1.6 或以上
内存 1 GB RAM (推荐)
硬盘空间 无最小要求
操作系统版本 Windows XP 或以上, Linux

第1步:验证安装Java

为了验证Java安装,打开控制台并执行下面的Java命令。

OS 任务 命令
Windows 打开命令控制台 \>java –version
Linux 打开命令终端 $java –version

如果Java已经正确地在您的系统已经安装,那么应该得到以下输出之一,具体取决于您所使用的平台上。

OS 输出
Windows

Java version "1.7.0_60"

Java (TM) SE Run Time Environment (build 1.7.0_60-b19)

Java Hotspot (TM) 64-bit Server VM (build 24.60-b09, mixed mode)

Lunix

java version "1.7.0_25"

Open JDK Runtime Environment (rhel-2.3.10.4.el6_4-x86_64)

Open JDK 64-Bit Server VM (build 23.7-b01, mixed mode)

第2步:设置Java环境

设置JAVA_HOME环境变量指向到安装在机器上的Java基本目录的位置。例如,

OS 输出
Windows 设置环境变量 JAVA_HOME to C:\ProgramFiles\java\jdk1.7.0_60
Linux export JAVA_HOME=/usr/local/java-current

附加Java编译器的位置到系统路径的完整路径。

OS 输出
Windows Append the String; C:\Program Files\Java\jdk1.7.0_60\bin to the end of the system variable PATH.
Linux export PATH=$PATH:$JAVA_HOME/bin/

验证命令java版本,命令提示符如上所述。

第3步:设置Apache Tika环境

可以在自己的环境中通过使用集成Apache Tika : 

  • 命令行,
  • Tika API,
  • Tika(CLI)的命令行界面,
  • Tika的图形用户界面(GUI),或
  • 源代码

对于任何一种方法,首先,必须下载的Tika源代码。

Tika的源代码在 http://Tika.apache.org/download.htmll,在那里找到两个链接:

apache-tika-1.6-src.zip: 它包含的Tika的源代码以及 Tika -app-1.6.jar: 它是一个包含Tika应用程序的JAR文件。

下载这两个文件。Tika的官方网站的快照如下所示。

Tika Environment

下载文件后,设置类路径的JAR文件 tika-app-1.6.jar。添加 jar 文件的完整路径,如图表所示。

OS Output
Windows 添加字符串 “C:\jars\Tika-app-1.6.jar” 到用户环境变量 CLASSPATH
Linux

Export CLASSPATH=$CLASSPATH:

/usr/share/jars/Tika-app-1.6.tar:

Apache提供Tika应用程序,使用Eclipse的图形用户界面(GUI)应用程序。

使用Eclipse构建Tika-Maven

m2e Release
  • 挑选的最新版本,并保存在URL网址的p2列的路径。

  • 现在重新访问eclipse,在菜单栏中,单击帮助,然后从下拉菜单中选择安装新软件

Eclipse
  • 单击 Add 按钮,输入任何想要的名称,因为它是可选的。现在贴在位置字段中保存的 URL。

  • 一个新的插件选择在上一步中添加的名字,选中复选框在它前面,然后单击下一步 Next。

Install
  • 继续安装。完成后,重新启动Eclipse。

  • 现在,右键单击该项目,并在配置选项,选择Convert to Maven项目。

  • 将出现创建一个新的POM新的向导。输入组ID为org.apache.tika,进入Tika的最新版本,选择jar 包,然后单击Finish。

Maven项目已成功安装,并且项目转化成Maven。现在,必须配置pom.xml文件。

配置XML文件

可以通过Tika Maven的依赖 http://mvnrepository.com/artifact/org.apache.tika

下面显示的是Apache Tika完整的Maven依赖。

<dependency>
   <groupId>org.apache.Tika</groupId>
   <artifactId>Tika-core</artifactId>
   <version>1.6</version>

   <groupId>org.apache.Tika</groupId>
   <artifactId> Tika-parsers</artifactId>
   <version> 1.6</version>

   <groupId> org.apache.Tika</groupId>
   <artifactId>Tika</artifactId>
   <version>1.6</version>

   <groupId>org.apache.Tika</groupId>
   < artifactId>Tika-serialization</artifactId>
   < version>1.6< /version>

   < groupId>org.apache.Tika< /groupId>
   < artifactId>Tika-app< /artifactId>
   < version>1.6< /version>

   <groupId>org.apache.Tika</groupId>
   <artifactId>Tika-bundle</artifactId>
   <version>1.6</version>
</dependency>


标签:TIKA    环境配置    
  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Tika可以与Spring框架中的MultipartFile对象一起使用,以处理上传的文件。MultipartFile是Spring提供的用于处理HTTP请求中的文件上传的接口。 要在Tika中处理MultipartFile对象,您需要将其转换为File对象,然后使用Tika进行解析。下面是一个简单的示例代码: ```java import org.apache.tika.Tika; import org.springframework.web.multipart.MultipartFile; import java.io.File; import java.io.IOException; public class TikaExample { public static void main(String[] args) { MultipartFile multipartFile = ...; // 获取上传的MultipartFile对象 // 将MultipartFile对象转换为File对象 File file = new File(multipartFile.getOriginalFilename()); try { multipartFile.transferTo(file); // 使用Tika解析文件 Tika tika = new Tika(); String mimeType = tika.detect(file); String content = tika.parseToString(file); System.out.println("MIME Type: " + mimeType); System.out.println("Content: " + content); } catch (IOException e) { e.printStackTrace(); } finally { // 删除临时文件 file.delete(); } } } ``` 在上面的示例中,我们首先将MultipartFile对象转换为File对象,然后使用Tika进行文件解析。您可以根据需要获取文件的MIME类型或提取文本内容。 请注意,上述示例中的`...`部分表示您需要根据您的具体情况获取实际的MultipartFile对象。还要确保您已经添加了Tika和Spring的相关依赖项。 希望这可以帮助到您!如果您有任何进一步的问题,请随时提问。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值