文本摘要（text summary）

最新推荐文章于 2024-06-19 09:35:36 发布

wsl594546

最新推荐文章于 2024-06-19 09:35:36 发布

阅读量1.1k

点赞数

文章标签： nlp 自然语言处理

本文链接：https://blog.csdn.net/wsl594546/article/details/105054471

版权

本文档介绍了如何通过自然语言处理技术实现文本摘要。主要包括数据预处理、核心模型搭建、数学模型调优和可视化四个步骤，详细阐述了一个完整的文本摘要流程。

摘要由CSDN通过智能技术生成

1，数据预处理

2，核心模型的搭建

3，数学模型调优

4，可视化

一个简单的文本摘要的过程

**自动摘要是NLP领域一个经典问题
	输入：一段长文本
	输出：对长文本的总结概要**

1，数据预处理

	[	这里我使用的是维基百科的语料库：](https://ftp.acc.umu.se/mirror/wikimedia.org/dumps/zhwiki/20200101/)
	我用的是这个：
	zhwiki-20200101-pages-articles-multistream.xml.bz2
	然后是对数据进行一系列的处理：
	    1，数据的抽取
	    2，繁体简体的转换
	    3，语料的的清洗（去掉一些数字，他国语言等，去停用词，按文章切割，再按词切割）

2，核心模型的搭建

	1，word2vec模型的训练
			这里需要用到gensim（pip install）,按文章为单位训练，会花费一些时间，然后你可以进行一个训练后的词的可视化（可以用t-sne）。
	2，有了词的向量化，给我们一篇文章就可以对其中的句子进行向量化了，这里可以用sif（据说比tfidf要好），整篇文章也