实现该接口主要是利用nlp自然语义识别技术,对文章内容进行机器语义识别后,根据提供概要长度的要求生成对应的文章摘要。
(体验请点击源文地址进行实际测试使用)
自动摘要(Automatic Summarization)的方法主要有两种:Extraction和Abstraction。其中Extraction是抽取式自动文摘方法,通过提取文档中已存在的关键词,句子形成摘要;Abstraction是生成式自动文摘方法,通过建立抽象的语意表示,使用自然语言生成技术,形成摘要。由于自动摘要方法需要复杂的自然语言理解和生成技术支持,应用领域受限。抽取式摘要成为现阶段主流,它也能在很大程度上满足人们对摘要的需求。
目前抽取式的主要方法:
基于统计:统计词频,位置等信息,计算句子权值,再简选取权值高的句子作为文摘,特点:简单易用,但对词句的使用大多仅停留在表面信息。
基于图模型:构建拓扑结构图,对词句进行排序。例如,TextRank/LexRank
基于潜在语义:使用主题模型,挖掘词句隐藏信息。例如,采用LDA,HMM
基于线路规划:将摘要问题转为线路规划,求全局最优解。
以上只是基于理论的实现,实际应用中受限于运算能力、模型构造及第三方干扰因素的影响,实现起来没有达到完全自动的程度,但作为一般的辅助类应用,也仅足够提供参考的水平。