chapter1
1.1数字文档协议
Adode Photoshop:pdf,psd,jpg,gif,png....
Microsoft Office:xls,doc,docx,xlsx,,vsd...
Firefox,IE,Safari,etc:html,xthml,xml,rdf,rss...
1.1.1一种文件格式分类
MIME(Multipurpose Internet Mail Extensions) 标准
多用途互联网邮件扩展类型
1.1.2解析库
文件格式多
应用程序之间不允许别的程序很容易得到文本内容
替换方法是实现或者使用一种文件格式解析库
java标准库中的java.util.zip 解析库包
1.1.3作为通用的结构化文本
应用要求
XML Html最普遍的使用范围最广的文件格式
程序关注的内容
1.1.4通用的元数据
“data about data”:描述数据的数据,主要是描述数据的属性(property)的信息。
元数据模型
XMP标准(可扩展元数据平台):用于处理和涉及到的文件的内容储存信息的标准。
Property类:提供PropertyType和值类型枚举捕获的元数据的名称和值
metadata类:提供元数据模型的支持,提供各种方法来提取一个文件的内容
N-grams算法支持语言选择
1.1.5理解一切的程序?
search engine
文件>识别文件的格式>选择合适的解析器>提供解析后的原文的数据和解析后的元数据
apache Lucene...
TILL(tag image file format)标签图像文件格式
1.2什么是apache tika
1.2.1一些历史
1.2.2关键设计目标
tika全部的架构
new parsers can be easily added and removed from the framework
统一的parser接口:
低内存占用和快速处理:逐步解析文本,作为基于SAX的XHTML事件放置。将整个XML文档加载到内存中,然后通过API使其可用。另一方面,SAX增量解析标签,导致内存占用很低,允许快速处理时间,并由TIKA架构要求提供功能。(sax替代DOM:文档对象模型)
采用SAX模型,tika允许开发人员自定义tika的解析器处理自定义将提取的信息
关于SAX模型:用于处理XML事件驱动。xml解析的替代方法,比dom提供更好的性能
灵活元数据:?
解析器集成:
1.1数字文档协议
Adode Photoshop:pdf,psd,jpg,gif,png....
Microsoft Office:xls,doc,docx,xlsx,,vsd...
Firefox,IE,Safari,etc:html,xthml,xml,rdf,rss...
1.1.1一种文件格式分类
MIME(Multipurpose Internet Mail Extensions) 标准
多用途互联网邮件扩展类型
1.1.2解析库
文件格式多
应用程序之间不允许别的程序很容易得到文本内容
替换方法是实现或者使用一种文件格式解析库
java标准库中的java.util.zip 解析库包
1.1.3作为通用的结构化文本
应用要求
XML Html最普遍的使用范围最广的文件格式
程序关注的内容
1.1.4通用的元数据
“data about data”:描述数据的数据,主要是描述数据的属性(property)的信息。
元数据模型
XMP标准(可扩展元数据平台):用于处理和涉及到的文件的内容储存信息的标准。
Property类:提供PropertyType和值类型枚举捕获的元数据的名称和值
metadata类:提供元数据模型的支持,提供各种方法来提取一个文件的内容
N-grams算法支持语言选择
1.1.5理解一切的程序?
search engine
文件>识别文件的格式>选择合适的解析器>提供解析后的原文的数据和解析后的元数据
apache Lucene...
TILL(tag image file format)标签图像文件格式
1.2什么是apache tika
1.2.1一些历史
1.2.2关键设计目标
tika全部的架构
new parsers can be easily added and removed from the framework
统一的parser接口:
低内存占用和快速处理:逐步解析文本,作为基于SAX的XHTML事件放置。将整个XML文档加载到内存中,然后通过API使其可用。另一方面,SAX增量解析标签,导致内存占用很低,允许快速处理时间,并由TIKA架构要求提供功能。(sax替代DOM:文档对象模型)
采用SAX模型,tika允许开发人员自定义tika的解析器处理自定义将提取的信息
关于SAX模型:用于处理XML事件驱动。xml解析的替代方法,比dom提供更好的性能
灵活元数据:?
解析器集成: