文本摘要(text summary)

本文档介绍了如何通过自然语言处理技术实现文本摘要。主要包括数据预处理、核心模型搭建、数学模型调优和可视化四个步骤,详细阐述了一个完整的文本摘要流程。
摘要由CSDN通过智能技术生成

1,数据预处理

2,核心模型的搭建

3,数学模型调优

4,可视化

一个简单的文本摘要的过程

**自动摘要是NLP领域一个经典问题
	输入:一段长文本
	输出:对长文本的总结概要** 

1,数据预处理

	[	这里我使用的是维基百科的语料库:](https://ftp.acc.umu.se/mirror/wikimedia.org/dumps/zhwiki/20200101/)
	我用的是这个:
	zhwiki-20200101-pages-articles-multistream.xml.bz2
	然后是对数据进行一系列的处理:
	    1,数据的抽取
	    2,繁体简体的转换
	    3,语料的的清洗(去掉一些数字,他国语言等,去停用词,按文章切割,再按词切割)

2,核心模型的搭建

	1,word2vec模型的训练
			这里需要用到gensim(pip install),按文章为单位训练,会花费一些时间,然后你可以进行一个训练后的词的可视化(可以用t-sne)。
	2,有了词的向量化,给我们一篇文章就可以对其中的句子进行向量化了,这里可以用sif(据说比tfidf要好),整篇文章也
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值