1,数据预处理
2,核心模型的搭建
3,数学模型调优
4,可视化
一个简单的文本摘要的过程
**自动摘要是NLP领域一个经典问题
输入:一段长文本
输出:对长文本的总结概要**
1,数据预处理
[ 这里我使用的是维基百科的语料库:](https://ftp.acc.umu.se/mirror/wikimedia.org/dumps/zhwiki/20200101/)
我用的是这个:
zhwiki-20200101-pages-articles-multistream.xml.bz2
然后是对数据进行一系列的处理:
1,数据的抽取
2,繁体简体的转换
3,语料的的清洗(去掉一些数字,他国语言等,去停用词,按文章切割,再按词切割)
2,核心模型的搭建
1,word2vec模型的训练
这里需要用到gensim(pip install),按文章为单位训练,会花费一些时间,然后你可以进行一个训练后的词的可视化(可以用t-sne)。
2,有了词的向量化,给我们一篇文章就可以对其中的句子进行向量化了,这里可以用sif(据说比tfidf要好),整篇文章也