---恢复内容开始---
参考文献:
万里鹏. 非结构化到结构化数据转换的研究与实现[D]. 西南交通大学, 2013.
文中提到了一种方法:非结构化数据(通过提取有关的元数据)——>xml文档(根据约束条件)——>结构化数据
通过这样的方式来使得数据从非结构化到结构化。
如何提取有关的元数据呢?
一般采用了文件模板的方式,即把文件分为(1)文件字段名(2)字段类型(3)索引 以及更多的类型,这里的类型就依据所需要处理的属性具体划分,而文件模板的主要作用就是用于创建数据表,从而使得其原始数据能够结构更加清晰。
文件模板存放于系统模板库中,这样的话能够重复利用。
文中提到的比较多的文件类型是PDF、Office文档、文本数据以及HTML网页。都是不具有通用性,只能根据某一种文件的某一个特征进行分析、转换为xml。
(1)Word文档用到了Jacob技术
(2)Excel文档用到了Java Excel API技术
(3)HTML网页需要用到Webharvest、htmlparser或者htmlclean
(4)图片、图像、音频、视频这类非文本的以二进制形式存储的文件,则不能转换为xml文档
所提到的这些技术能够支持非结构化数据到xml文档的转换。其实也可以换一种思路理解,xml是一个承载数据转化的中间过程,最终的数据是以结构化的形式存储在关系数据库中的。
1.首先,先要了解

本文介绍了将非结构化数据转换为结构化数据的方法,通过提取元数据形成XML文档,再存储为结构化数据。重点讨论了处理PDF、Office文档、HTML网页的工具和技术,如Jacob、Java Excel API、Webharvest等,并强调XML作为转换中间过程的角色。对于HTML网页的日志文档,推荐使用Web-Harvest,它是一个基于Java的开源数据提取工具,支持XSLT、XQuery和正则表达式等操作。
最低0.47元/天 解锁文章
445

被折叠的 条评论
为什么被折叠?



