利用人工智能做有关人工智能的文章的摘要

  这就是我如何使用人工智能总结我最喜欢的关于……人工智能的文章,并建立每周新闻通讯。

  每周我都会阅读无数有关人工智能的文章,我相信收集它们并与更多人分享是一件好事。

  但是我喜欢以"智能"方式进行操作的想法,所以我正在使用人工智能(还有什么?)来自动化我喜欢的文章的数据收集,清理和汇总的整个过程。

  我要分享我在业余时间阅读的最相关文章的每周列表,并保持最新状态。

  我已经开始进行一项实验,该实验如何直接使用指向新闻链接的矢量化(Nltk),使我每周定期阅读的有关人工智能,机器学习和数据科学的数十篇令人兴奋的文章的摘要自动化。

  随着每天通过新闻,社交媒体和跟踪系统等不同渠道生成的大量新文本文档,自动文本摘要已成为我保持节奏,消化和理解如此多内容的关键。

  文本摘要的目的是提取或生成给定文本文档的简洁准确的摘要,同时保留在原始文本文档中找到的关键信息。

  自动汇总有助于将大文本文档减少为简短的单词集或传达全文含义的段落。

  文本摘要问题的一个很好的例子是新闻文章摘要,它试图从给定的文章中自动生成摘要。 它简要地代表了最新新闻。

  

  为什么文本摘要很重要?

  总体而言,自动化文本摘要技术还为各种行业的业务场景提供了动力,这些行业包括媒体和娱乐,零售,技术和金融服务(例如,机器人顾问)。

  文本摘要有几种可能的用法,例如:

  · 通过花最少的时间从非结构化文本数据中获得最大的信息。

  · 增强文档的可读性。

  · 消除多余的,无关紧要的文本,并提供所需的信息。

  · 加快研究信息的过程。

  文本汇总的不同方法

  文本摘要方法可以是提取的也可以是抽象的:

  · 选择原始文本中现有单词,短语或句子的子集以形成摘要的提取方法。 简单地说,我们从原始文本中识别关键句子或关键短语,仅从文本中提取关键短语或关键短语,从原始版本中提取短语,仅从文本中提取关键短语或关键短语。

  · 建立内部语义表示并使用自然语言生成技术来创建类似于人类创建的摘要的抽象方法。 此摘要可能包含原始文档中没有的词。 高级深度学习技术用于生成新的摘要。

  自动摘要还有两种主要类型:

  · 关键短语提取选择单个单词或短语来标记文档。

  · 文档摘要选择整个句子以创建简短的段落摘要。

  我的第一步是学习如何构建一个简单的摘要器,以便在我的每周人工智能中使用。 和ML新闻稿,所以我决定从提取摘要方法开始。

  创建文本摘要涉及的步骤

  · 从.csv文件收集数据,然后使用Urllib库加载URL。 使用Web抓取功能(使用Urllib库)从Wikipedia收集数据(使用Title,Url,Web站点和Dat从.csv文件中提取数据,以供Urllib库使用),Urllib库将连接到页面并检索HTML。

  

  我将使用urllib.request实用工具中的urlopen函数打开网页。 然后,我将使用读取功能读取抓取的数据对象。

  2)解析数据的URL内容(使用BeautifulSoup库)

  3)清除数据,例如删除特殊字符,数字值,停用词和标点符号。

  

  4)令牌化-令牌的创建(单词令牌和句子令牌)要将article_content分成一组句子,我们将使用nltk库中的内置方法。 从NLTK工具包中导入停用词,并从字符串库中导入标点符号。 停用词是一组使用任何语言的常用词。 例如,用英语," the"," is"和" and"将很容易被视为停用词。 在NLP和文本挖掘应用程序中,停用词用于消除不必要的词,而使应用程序专注于基本词。

  

  5)计算每个单词的单词频率。 Word标记整个文本。 我们必须创建一个字典,将键作为单词,将值作为单词重复的次数,然后将所有单词的出现次数除以出现次数最多的单词的出现次数。

  6)计算每个句子的加权频率。 为了评估文本中每个句子的得分,我们将分析每个术语的出现频率。 在这种情况下,我们将按单词的单词对每个句子评分,即增加在句子中找到的每个重要单词的频率。

  7)创建摘要,使用权重最高的句子构建摘要使用nalargest库获取权重最高的句子。 然后,将其加入以获得最终的摘要文本。

  

  

  使用转移学习总结文章

  另外,我正在尝试使用称为T5的转移学习模型进行更高级的汇总技术。

  转移学习是一种在自然语言处理(NLP)上完成多种语言理解任务的强大技术,在这种模型中,模型首先要在数据丰富的任务上进行预训练,然后再在下游任务上进行微调。

  T5是Google推出的一种新的转换器模型,以端到端的方式进行了培训,文本作为输入,修改后的文本作为输出。

  通过结合使用在大型文本语料库(如"巨大的干净爬行的语料库"或C4)上训练的文本到文本转换器的见解,T5模型在多项NLP任务(例如总结)上获得了最新的结果 ,问题解答,机器翻译等。

  

  T5模型的灵感来自Colin Raffel,Noam Shazeer,Adam Roberts,Katherine Lee,Sharan Narang,Michael Matena,Yanqi Zhou,李玮,Peter J 刘

  此处有更多详细信息:文本到文本传输转换器。

  T5是一种抽象的摘要算法。 这意味着它将在必要时重写句子,而不仅仅是直接从原始文本中提取句子。

  

  模型检查点

  我们为本文中描述的预训练模型发布了以下检查点:

  T5-Small(6000万个参数):gs:// t5-data / pretrained_models / small T5-Base(2.2亿个参数):gs:// t5-data / pretrained_models / base T5-Large(7.7亿个参数):gs :// t5-data / pretrained_models /大型T5-3B(30亿个参数):gs:// t5-data / pretrained_models / 3B T5-11B(110亿个参数):gs:// t5-data / pretrained_models / 11B

  请参阅此处以获取其他实验预训练模型检查点的列表。

  

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值