科技文献是科技信息工作起源和发展的基础。传统的挖掘多是采用文献计量学方法,基于关键词、作者、作者机构、发表时间、分类号、出版物等结构化元数据,对文献集合的分布情况和发展趋势进行分析,取得了一定的成效,但这些结构化元数据承载的内容特征有限,在一定程度上降低了科技文献大数据深度支撑科研创新和科技管理决策的效果。随着自然语言处理技术的进步,基于内容的科技文献大数据挖掘有了充足的发展。
对科技文献大数据的传统应用是提供搜索服务,这是当前甚至是以后相当长时间内科技文献的主要作用;实现基于内容的科技文献可以将搜索服务的内容单元进一步细化,从篇细化到段;另一方面优化了搜索的形式,提升搜索效果。
科技文献蕴含的价值巨大,科技文献大数据挖掘应用的终极目标是支撑科研创新。科技文献作为表达科学机理、介绍科研思路、展示科研结果的载体,对其进行深度挖掘,开发增值应用,为科学知识传承、科研方向选择、技术路径确定等提供高效支撑。
对科技文献的全文内容进行挖掘存在以下制约:
1、数据层面:与文献中摘要对比,科技文献全文内容获取难度较大;
2、技术层面:科技文献内容全部大部分都是PDF格式,将PDF转化为计算机可读的文本格式耗时耗力,转化得到的文本都被硬回车截断,需要进一步处理;
3、法律层面:部门出版商是否允许对全文进行挖掘。
运用现在高速发展的人工智能技术,自然语言处理技术对科技文献大数据进行高效的管理与计算:
自然语言处理技术的应用,使得可以对科技文献内容进行深层次解析&#