自动文本摘要 Text Summarization

自动文本摘要是通过提炼原始文档要点进行总结的技术,应用于新闻关键词提取和搜索引擎等场景。主要方法包括提取式和抽象式,前者选取原文相关句子,后者通过理解文章生成新内容。在实现过程中,通常涉及Beautiful Soup、Urllib、re、nltk等Python库,用于数据抽取、清洗、分析和摘要生成。
摘要由CSDN通过智能技术生成

文本摘要就是对原始文档的要点进行总结。比如新闻关键词的提炼,百度搜索引擎等。

自动文本摘要一般有两种方法: 提取式与抽象式。

提取式顾名思义,就是按照一定的权重,从原文中寻找跟中心思想最接近的一条或几条句子。

而抽象式则是计算机通读原文后,在理解整篇文章意思的基础上,按自己的话生成流畅的翻译。

 

从网页中抽取数据步骤:

1:导入相关库/包

  • Beautiful Soup(bs)是一个能从HTML和XML文件中抽出数据的Python库。

  • Urllib是一个程序包,里面含有处理URL的多个模块。

  • re 这个模块提供了各种正则表达式匹配操作。

  • nltk是一个基于Python的类库,是一个领先的自然语言处理的编程与开发平台。它为50多个语料和词库资源提供了易用的交互接口,比如WordNet。它同时也提供了一整套来对文本进行分类、分词、词干提取、标签化、解析、语义推理的文本处理库。

  • heapq 这个模块提供了堆队列算法(优先队列算法)的一种实现。

2:抽取数据

3:数据清洗

4:建立直方图

5: 计算句子分值

6:找出最适合的句

import bs4 as bs
import urllib.request
import re
imp
  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值