tika in action主体内容

chapter1
1.1数字文档协议
    Adode Photoshop:pdf,psd,jpg,gif,png....
    Microsoft Office:xls,doc,docx,xlsx,,vsd...
    Firefox,IE,Safari,etc:html,xthml,xml,rdf,rss...
1.1.1一种文件格式分类
    MIME(Multipurpose Internet Mail Extensions) 标准
    多用途互联网邮件扩展类型
1.1.2解析库
    文件格式多
    应用程序之间不允许别的程序很容易得到文本内容
    替换方法是实现或者使用一种文件格式解析库
    java标准库中的java.util.zip 解析库包
1.1.3作为通用的结构化文本
    应用要求
    XML Html最普遍的使用范围最广的文件格式
    程序关注的内容
1.1.4通用的元数据
    “data about data”:描述数据的数据,主要是描述数据的属性(property)的信息。
    元数据模型
    XMP标准(可扩展元数据平台):用于处理和涉及到的文件的内容储存信息的标准。
    Property类:提供PropertyType和值类型枚举捕获的元数据的名称和值
    metadata类:提供元数据模型的支持,提供各种方法来提取一个文件的内容
    N-grams算法支持语言选择
1.1.5理解一切的程序?
    search engine
    文件>识别文件的格式>选择合适的解析器>提供解析后的原文的数据和解析后的元数据
    apache Lucene...

TILL(tag image file format)标签图像文件格式

1.2什么是apache tika
1.2.1一些历史
1.2.2关键设计目标
    tika全部的架构    
    new parsers can be easily added and removed from the framework
    统一的parser接口:
    低内存占用和快速处理:逐步解析文本,作为基于SAX的XHTML事件放置。将整个XML文档加载到内存中,然后通过API使其可用。另一方面,SAX增量解析标签,导致内存占用很低,允许快速处理时间,并由TIKA架构要求提供功能。(sax替代DOM:文档对象模型)
        采用SAX模型,tika允许开发人员自定义tika的解析器处理自定义将提取的信息    
      关于SAX模型:用于处理XML事件驱动。xml解析的替代方法,比dom提供更好的性能
    灵活元数据:?
    解析器集成:
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值