时间:2017年7月10日
1.获取领域知识:
找相关领域专家获取项目所需的已经大量存在的结构化的知识数据。(别说找不到,只要有相关学科,一定能找到一些,自己去整理实在太耗费时间和精力,并且不敢保证其科学性),以作后续处理。
2. 对这些结构化的数据进行处理:
[1]对这些结构化的数据再次结构化:
按我们所需的数据结构进行重新整理。人工?还是直接使用数据库进行数据处理获得我们所需的结构数据?个人认为最好当然是使用数据库进行处理,不过如果人多的话,人工整理更可控,因为可以尽可能将数据的结构处理成我们最需要的。
要做的工作:
1.对所需数据进行拍照,并且粘贴进PDF文件中。
2.使用OCR软件:ABBYY FineReader(试用版即可)对PDF文件进行扫描识别,保存成可编辑的Excel文件。
3.对Excel中的数据进行校对。校对的同时,按照我提供的数据格式进行数据处理。
附件:数据格式
[2]对整理好的已经满足我们需求的电子化的数据进行自动抽取。
因为很多数据可能是文本描述的,而我们需要将这些文本中的数据中我们所需的实体抽取出来。目前能想到的方法是:使用正则表达式进行抽取。
目前还没有做到这里,未完,待续 。。。