文章笔记
文章平均质量分 72
记录下来自己读的每一篇文章
tsingxia
这个作者很懒,什么都没留下…
展开
-
富文本文档处理layoutMv
文档智能是一种旨在针对富文本文档进行理解并抽取其中非结构化信息的技术。LayoutLM的成功证明了针对文本和布局进行预训练的有效性。在此基础上,我们提出了多模态预训练模型LayoutLMv2及其多语言扩展LayoutXLM,通过对文本、布局和图像进行联合预训练,进一步提高了模型的性能,在多项任务中取得了新的突破。PPT链接:aka.ms/AAdcz3u富文本文档receiptscanned formdigital-born invoice富文本文档的理解-表单理解传统处理方法:文本进行OCR原创 2022-04-10 22:40:18 · 567 阅读 · 0 评论 -
doc文件文本结构提取
python-docx模块处理word文档- docx文件docx是Microsoft Office2007之后版本使用的,用新的基于XML的压缩文件格式取代了其目前专有的默认文件格式,在传统的文件名扩展名后面添加了字母“x”docx格式的文件本质上是一个ZIP文件。将一个docx文件的后缀改为ZIP后是可以用解压工具打开或是解压的。事实上,Word2007的基本文件就是ZIP格式的docx文档包含的内容有以下四类段落: 文本 样式-判断段落的种类表格图片其它插入的文件对象代码操作流原创 2022-04-07 21:33:15 · 678 阅读 · 0 评论 -
TextRank文本摘要算法
摘要提取:对文本进行降维处理原创 2022-04-07 18:59:02 · 1781 阅读 · 0 评论 -
摘要提取模型--实验一
抽取式文本摘要提取模型的函数结构,算法结构,bug解决,应用思考原创 2022-04-04 12:06:20 · 1088 阅读 · 0 评论 -
NLP-文本摘要提取
摘要提取思路一.文本基本任务—预处理操作:1.词向量化把词进行量化,得到向量空间的值,得到具体的数值,长度,计算距离,拓展到文本向量和文章向量2.分词中文 :基本语义单元分割英文:按照空格3.词性标注分词之后进行标注4.命名实体识别组织,人,5.文本结构化快递地址识别信息提取案例二.文本应用—分类与聚类:将文本文件分到一个或多个一定好的类别中,涉及文本向量化,序列化标注等新闻稿分类垃圾邮件分类情感类型分类意图识别文本应用—文章标签与摘要提取:从文章中自动提取关键字原创 2022-04-03 14:08:09 · 2759 阅读 · 0 评论