![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
自然语言处理
文章平均质量分 63
南楚巫妖
且试新茶
展开
-
Text Smoothing: Enhance Various Data Augmentation Methods on Text Classification Tasks文献翻译
摘要:在进入神经网络之前,一个token一般会转换成对应的onehot表示,这是词汇表的离散分布。平滑表示是从预训练的掩码语言模型中获得的候选标记的概率,可以看作是对 one-hot 表示的信息更丰富的替代。我们提出了一种有效的数据增强方法,称为文本平滑,通过将句子从其单热表示转换为可控平滑表示。我们在资源匮乏的情况下在不同的基准上评估文本平滑。实验结果表明,文本平滑在很大程度上优于各种主流数据增强方法。此外,文本平滑可以与那些数据增强方法相结合,以获得更好的性能。1.介绍数据增强是一种广泛使用的技术原创 2022-05-12 15:47:12 · 718 阅读 · 0 评论 -
EasyNLP: A Comprehensive and Easy-to-use Toolkit for Natural Language Processing文献翻译
摘要:预训练模型 (PTM) 的成功重塑了自然语言处理 (NLP) 的发展。然而,对于工业从业者来说,获得高性能模型并在线部署它们并不容易。为了弥补这一差距,EasyNLP 旨在让构建 NLP 应用程序变得容易,它支持一整套 NLP 算法。它还具有用于大规模 PTM 的知识增强预训练、知识蒸馏和小样本学习功能,并为实际应用程序提供模型训练、推理和部署的统一框架。目前,EasyNLP 已为阿里巴巴集团内的十多个业务部门提供支持,并与阿里云上的人工智能平台(PAI)产品无缝集成。我们的 EasyNLP 工具包原创 2022-05-12 15:25:42 · 603 阅读 · 0 评论 -
Embedding-based Retrieval in Facebook Search 文献翻译
Embedding-based Retrieval in Facebook Search摘要:在 Facebook 等社交网络中进行搜索与经典网络搜索相比面临不同的挑战:除了查询文本之外,考虑搜索者的上下文以提供相关结果也很重要。他们的社交图谱是这一背景不可或缺的一部分,也是 Facebook 搜索的一个独特方面。虽然基于嵌入的检索 (EBR) 已在网络搜索引擎中应用多年,但 Facebook 搜索仍主要基于布尔匹配模型。在本文中,我们讨论了将 EBR 应用于 Facebook 搜索系统的技术。我们介绍原创 2022-05-12 14:29:11 · 606 阅读 · 0 评论 -
TextBrewer工具使用实战2
https://zhuanlan.zhihu.com/p/261714758导入第三方库包#coding=utf-8import numpy as npimport pandas as pdimport osimport matplotlib.pyplot as pltfrom sklearn.model_selection import train_test_splitfrom sklearn.metrics import accuracy_scoreimport torchimpor原创 2022-05-06 15:02:59 · 464 阅读 · 0 评论 -
深度学习文本分类模型使用TextBrewer实战
"""采用Transformer裁剪后,剪枝后生成的文件夹内是不包含vocab.txt文件的,因此需要把源文件夹内的vocab.txt文件夹复制粘贴过去,防止报错"""# 采用Transformer裁剪后,模型占GPU121->547->1283 M# 采用流水线裁剪后,模型占GPU121->477->1原创 2022-05-04 11:29:43 · 777 阅读 · 5 评论 -
深度学习文本分类模型使用TextPruner实战
# 完全不适用剪枝手段,模型占GPU 121->687->1447 M# 采用剪枝手段后,模型占GPU 121->617->1377 M"""采用Transformer裁剪后,剪枝后生成的文件夹内是不包含vocab.txt文件的,因此需要把源文件夹内的vocab.txt文件夹复制粘贴过去,防止报错"""# 采用Transformer裁剪后,模型占GPU121->547->1283 M# 采用流水线裁剪后,模型占GPU121->477->1原创 2022-05-03 13:20:05 · 493 阅读 · 0 评论 -
使用transformers_2.4.0验证bertoftheus性能
from __future__ import absolute_import, division, print_functionimport argparseimport globimport loggingimport osimport randomimport jsonimport numpy as npimport torchfrom torch.utils.data import (DataLoader, RandomSampler, SequentialSampler,原创 2022-04-26 20:11:50 · 265 阅读 · 0 评论 -
bert of thesus模型实战,采用transformers直接调用
from transformers import AutoTokenizer, AutoModeltokenizer = AutoTokenizer.from_pretrained("canwenxu/BERT-of-Theseus-MNLI")model = AutoModel.from_pretrained("canwenxu/BERT-of-Theseus-MNLI")Downloading: 0%| | 0.00/151 [00:00<?, ?B/s]原创 2022-04-26 20:09:58 · 574 阅读 · 0 评论 -
Adapter-transfomers版本库包使用练习
Aapter-transformers库包尝试使用,感觉这个库包的用于做模型轻量化效果不是很大,降低内存不多,不是很实用。调用第三方库包#coding=utf-8import numpy as npimport pandas as pdimport osimport matplotlib.pyplot as pltfrom sklearn.model_selection import train_test_splitfrom sklearn.metrics import accuracy_s原创 2022-04-25 16:38:50 · 1098 阅读 · 0 评论 -
On the Evaluation of NLP-based Models for Sofware Engineering 论文总结
On the Evaluation of NLP-based Models for Sofware Engineering基于自然语言处理的软件工程模型评价研究摘要基于NLP的模型越来越多地被用于解决SE问题。这些模型要么在SE域中使用,几乎没有变化,要么根据源代码及其独特特性进行了大量定制。其中许多方法被认为优于或补充了现有的解决方案。然而,这里出现了一个重要的问题:这些模型在SE社区中是否得到了公平一致的评估?。为了回答这个问题,我们回顾了研究人员如何评估基于NLP的SE问题模型。研究结果表明,目原创 2022-04-01 17:23:45 · 272 阅读 · 0 评论 -
LinkBERT: Pretraining Language Models with Document Links 论文总结
LinkBERT: Pretraining Language Models with Document LinksLink BERT:带有文档链接的预训练语言模型源码位置:https://github.com/michiyasunaga/LinkBERT摘要语言模型(LM)预训练可以从文本语料库中学习各种知识,帮助下游任务。然而,现有的方法(如BERT)对单个文档建模,并且不能捕获跨文档的依赖关系或知识。在这项工作中,我们提出了LinkBERT,这是一种LM预训练方法,利用文档之间的链接,例如超链原创 2022-03-31 16:40:53 · 2349 阅读 · 0 评论 -
Hierarchical Transformer Model for Scientific Named Entity Recognition 论文总结
Hierarchical Transformer Model for Scientific Named Entity Recognition科学命名实体识别的层次变换模型Github 地址:https://github.com/urchade/HNER摘要:命名实体识别是关系抽取、知识图构造等自然语言处理系统的重要组成部分。在这项工作中,我们提出了一种简单有效的命名实体识别方法。我们方法的主要思想是使用一个预先训练好的转换器(如BERT)对输入子词序列进行编码,然后,在子词表示中添加另一层转换器,原创 2022-03-31 09:29:47 · 1743 阅读 · 0 评论 -
如何学习NLP论文
最近在B站学习这系列视频,视频链接如下:https://www.bilibili.com/video/BV1ME411J7Ch?p=1在此进行总结:2. 收集和组织论文收集引擎:ACL网站https://aclanthology.org/arxiv 网站https://arxiv.org/整理某类方向论文:(1)通过会议按照那一年、什么会议形式去投(2)通过是否preprint按照论文是否已投(3)通过问题按照论文是无监督/有监督、检索式/生成式等方向去实现(5)通过方法按原创 2022-03-27 21:02:01 · 522 阅读 · 0 评论 -
Utilizing BERT for Aspect-Based Sentiment Analysis via Constructing Auxiliary Sentence 论文总结
Utilizing BERT for Aspect-Based Sentiment Analysis via Constructing Auxiliary Sentence《通过构建辅助句利用 BERT 进行基于方面的情感分析 》论文源码位置:https://github.com/HSLCY/ABSA-BERT-pair摘要提出了一种通过构造辅助句子,将基于方面的情感分析 (ABSA) 转换成句子对分类问题的方法,提高针对特定方面的细粒度意见极性,使用BERT模型,在SentiHood 和 Sem原创 2022-03-23 23:33:40 · 1120 阅读 · 6 评论 -
mzcn模块的新版本——————支持命令行训练和导出ONNX进行深度学习部署
简介mzcn是本人针对于matchzoo-py库出现的对中文文本语料处理不友好,而开发出的新版本,具体功能介绍在这里:https://blog.csdn.net/yingdajun/article/details/119846966新版本功能介绍目前通过阅读Facebook公司提出的pytext的框架,给原本的mzcn模型添加了以下三个功能:1.支持一键进行训练2.一键导出ONNX格式3.检测是否可以进行预测(由于本人电脑性能贼差,刚毕业没有余钱换电脑,所以预测结果很垃圾,但是估计性能好一点原创 2021-09-03 18:02:04 · 382 阅读 · 0 评论 -
matchzoo-py的二次开发-mzcn
mzcn中文版本的matchzoo-py本库包是基于matchzoo-py的库包做的二次开发开源项目,MatchZoo 是一个通用的文本匹配工具包,它旨在方便大家快速的实现、比较、以及分享最新的深度文本匹配模型。由于matchzoo-py面向英文预处理较为容易,中文处理则需要进行一定的预处理。为此本人在借鉴学习他人成功的基础上,改进了matchzoo-py包,开发mzcn库包。mzcn库包对中文文本语料进行只保留文本、去除表情、去除空格、去除停用词等操作,使得使用者可以快速进行中文文本语料进行预原创 2021-08-21 23:54:00 · 448 阅读 · 0 评论 -
论文《PYTEXT: A SEAMLESS PATH FROM NLP RESEARCH TO PRODUCTION》学习总结
论文《PYTEXT: A SEAMLESS PATH FROM NLP RESEARCH TO PRODUCTION》学习总结Abstract阐述工作内容写了一个基于pytorch的模型部署文件框架,该框架可以调和算法工程师快速实验和大规模服务模型部署之间的矛盾创新点1.为模型组件提供简单可扩展的接口2.利用pytorch导出模型以便送入caff2模型进行推断3.同时构建多个单任务模型,通过上述的模块,确定共享的模型参数,进行共同的研究,可以对于多个任务使用一个或者多个输入表示联合训练模型I原创 2021-08-16 23:07:01 · 192 阅读 · 0 评论 -
房地产问答机器人操作当前较为完整版本呱呱呱
利用matchzoo-py库实现房地产问答匹配问题导入库包# import matchzoo as mzimport pandas as pdimport numpy as npimport numpy as np # import tensorflow.keras as K# from matchzoo.preprocessors import BasicPreprocessorfrom sklearn.model_selection import train_test_splitimp原创 2021-08-07 20:18:42 · 329 阅读 · 2 评论 -
使用matchzoo解决房产行业问答匹配比赛问题
前言参加了贝壳找房的房产问答匹配比赛(比赛链接:https://www.datafountain.cn/competitions/474),于是利用matchzoo库解决房产行业问答匹配比赛问题。比赛流程导入第三方库包import matchzoo as mzimport pandas as pdimport numpy as npimport numpy as np import tensorflow.keras as Kfrom matchzoo.preprocessors原创 2021-05-12 12:50:21 · 551 阅读 · 1 评论 -
预训练模型transformers综合总结(三)
这就是最后的部分,关于语言建模、多选、问答系统、文本分类、命名实体识别等任务的模型微调,这一块我也是直接看人家笔记本总结的。按照这三个部分,这个库基本就弄熟了语言建模主要有这两种方式进行建模因果语言建模:模型必须预测句子中的下一个标记(因此标签与向右移动的输入相同)。为确保模型不作弊,当尝试预测句子中的标记i + 1时,它将获得一个注意掩码,以防止其访问标记i之后的标记。 屏蔽语言建模:模型必须预测输入中被屏蔽的一些标记。它仍然可以访问整个句子,因此它可以在屏蔽标记之前和之后使用标记来预测其值原创 2021-02-05 19:56:07 · 6208 阅读 · 1 评论 -
预训练模型transformers综合总结(二)
接着第一部分,这里写如何使用自定义数据集,调用transformers库去训练模型,其实感觉本质就是如何把数据集合理读取进来。文本分类使用aclImdb数据集,我比较倾向于直接用list把文本给读取进来(一)数据准备#数据读取from pathlib import Pathdef read_imdb_split(split_dir): split_dir = Path(split_dir) texts = [] labels = [] for labe原创 2021-02-05 19:55:35 · 1776 阅读 · 0 评论 -
预训练模型transformers综合总结(一)
这是我对transformers库查看了原始文档后,进行的学习总结。第一部分是将如何调用加载本地模型,使用模型,修改模型,保存模型之后还会更新如何使用自定义的数据集训练以及对模型进行微调,感觉这样这个库基本就能玩熟了。# 加载本地模型须知* 1.使用transformers库加载预训练模型,99%的时间都是用于模型的下载。为此,我直接从清华大学软件("https://mirrors.tuna.tsinghua.edu.cn/hugging-face-models/")把模型放在了我的本地目原创 2021-02-05 19:55:01 · 2635 阅读 · 4 评论 -
利用matchzoo搭建常见的文本匹配模型
和师弟联手利用了matchzoo框架搭建了11套文本匹配模型,作为一个新框架的出现,以后会在我们的github上对这个框架逐渐进行拓展。我们做的作品的github地址是:https://github.com/yingdajun/matchzooExample-我们搭建了BiMPM、ConvKNRM、DenseBaseline-model、DRMMTKS.DUET、ESIM、HBMP、KNRM、MatchLSTM、MatchSRNN、MVLSTM模型。...原创 2020-11-19 21:08:52 · 648 阅读 · 0 评论 -
基于fastnlp实现常见的文本分类模型
和师弟共同实现的基于fastnlp框架搭建的常见的文本分类模型,例如textCNN、textRNN、textRCNN、DPCNN模型。github地址是:https://github.com/yingdajun/fastNLPTextClassifly原创 2020-11-18 16:23:40 · 662 阅读 · 0 评论 -
利用seq2seq、transformer、fastnlp实现实现常见的问答、机器翻译、文本摘要功能
最近在学习seq2seq模型,以实现常见的问答、机器翻译、文本摘要功能。所以采用三种方式(1)利用keras库搭建seq2seq(2)利用keras_transformer库(3)利用fastnlp框架实现问答机器人、机器翻译、文本摘要等功能下面是github源码:https://github.com/yingdajun/seq2seqForExample...原创 2020-11-16 09:54:24 · 581 阅读 · 0 评论 -
文本挖掘技术学习
微信公众号《Social Listening与文本挖掘中》的“”文本挖掘从小白到精通“”学习笔记源码项目链接在:https://github.com/yingdajun/Text-Mining原创 2020-11-10 21:13:14 · 238 阅读 · 0 评论 -
从matchzoo中反向推导深度学习文本匹配模型
从matchzoo中反向推导深度学习文本匹配模型,以后会逐渐增加新模型,就当是练手了。有源码,有数据,有导出的模型图片,有模型参数结构,可以方便下载。github地址如下:https://github.com/yingdajun/ReverseMatchZoo...原创 2020-11-07 12:28:04 · 263 阅读 · 0 评论 -
简单的利用深度学习进行文本匹配的实战
这里是利用了textCNN、textRNN、Bi-LSTM、CNN+RNN、Transformer模型搭建的文本匹配项目。Github地址在这里:https://github.com/yingdajun/chinese_text_match_By_all_pattern.git原创 2020-10-13 19:39:04 · 777 阅读 · 6 评论 -
word2vec和常见CNN+RNN网格结构组成的文本分类模型
作者为了应付毕业,所以在补充深度学习相关知识,这是我尝试把word2vec和深度学习相互结合的一次记录。数据集来源 数据集预处理 生成word2vec模型 搭建网络并且训练数据集来源本文的数据集源自kaggle比赛中的NLP入门比赛,灾难新闻预报警。数据集预处理数据导入:import numpy as npimport pandas as pdtrain_df = pd.read_csv("data/train.csv")test_df = pd.read_csv(.原创 2020-09-21 16:22:04 · 3163 阅读 · 1 评论 -
NLP学习第一天——Task1 赛题理解
本系列是针对于DataWhale学习小组的笔记,从一个对统计学和机器学习理论基础薄弱的初学者角度出发,在小组学习资料的基础上,由浅入深地对知识进行总结和整理,今后有了新的理解可能还会不断完善。由于水平实在有限,不免产生谬误,欢迎读者多多批评指正。如需要转载请与博主联系,谢谢。Task1 赛题理解赛题背景赛题名称:零基础入门NLP之新闻文本分类 赛题目标:引导初学者学会NLP的预处理、以及常见的SVM、贝叶斯、逻辑回归等常见用于文本分类的机器学习算法与常用的深度学习算法。 赛题任务:赛题以自然原创 2020-07-21 23:15:31 · 292 阅读 · 0 评论 -
利用fastnlp做文本分类
微博情感文本二分类数据测试:https://github.com/yingdajun/fastnlpTextClassDemo微博情感文本多分类数据测试:https://github.com/yingdajun/fastnlpweiboMultClassDemo垃圾邮件数据集测试:https://github.com/yingdajun/fastnlprabishDemo评论分类数据测试:https://github.com/yingdajun/fastnlptaobaoComm原创 2020-06-18 20:54:01 · 743 阅读 · 0 评论 -
利用fastnlp做的第一个中文情感分析Demo
项目数据集源码在这里:https://github.com/yingdajun/-fastnlp-Demo这里是通过借鉴这篇博客:https://www.jianshu.com/p/70c37deaac26然后在此基础上进行改进。1.导入包+初始化#导入Pytorch包import torchimport torch.nn as nnfrom fastNLP.io.loader import CSVLoaderdataset_loader = CSVLoader(h原创 2020-06-18 11:19:10 · 891 阅读 · 2 评论 -
一种基于复旦大学语料库文本分类的DEMO
这是我通过改进他人的算法,对中文复旦大学语料库的文本做文本分类的项目。也是我第一次独立进行中文文本分析的小DEMO。项目源码在这里:https://github.com/yingdajun/ML_Text_Classifiaction原创 2020-06-13 21:19:01 · 966 阅读 · 0 评论 -
中文NLP处理用于处理的方法
"""@author: liushuchun"""import reimport stringimport jieba# 加载停用词with open("dict/stop_words.utf8", encoding="utf8") as f: stopword_list = f.readlines()def tokenize_text(text): tokens = jieba.cut(text) tokens = [token.strip() for to...原创 2020-06-07 16:07:55 · 608 阅读 · 0 评论 -
文本预处理清洗数据
自己找的清洗数据的方法,可以用于自然语言处理的研究呢def text_to_lowercase(text): return text.lower()def text_remove_punctuation(text): return text.translate(str.maketrans('', '', string.punctuation))def text_r...原创 2020-04-20 11:11:48 · 934 阅读 · 0 评论 -
混合编程NLP桌面项目
我自己写了一个基于NLP的混合编程项目。以C#为界面,python为脚本。本来打算加上关键词提取的,但因为pyintsaller对jieba的anaylse包不友好,所以就不能装了。啊好痛苦。下面是源码和功能。这里是github源码:功能一共分四个:(1)中文分词:输入文本:中文分词是文本处理的第一步。记得选择分词模式然后得到分词结果。(2...原创 2020-02-29 21:54:07 · 378 阅读 · 0 评论 -
混合编程和机器学习的融合
为了提高自己对机器学习能力和混合编程能力。作为一个小菜鸡,我又要开始水博客了。今天我写了一个项目框架。基于NLP和ML的混合编程。用C#为界面,调用相应的功能。鉴于混合编程技术我掌握不太熟练。调用打包的EXE不但程序大且运转起来也贼慢所以这个还只是一个小雏形。期望以后我能将它完善了,不但是功能还有控件。点击计算精度后:选择算法:选择搜索以后:选择关键词提...原创 2020-02-28 16:36:00 · 282 阅读 · 0 评论 -
关键词提取算法比较
算法名称 原理 是否需要语料库 TF-IDF 统计词的频次 需要 TextRank 脱胎于pageRank,根据权重判断 不需要 LSI 在词-段落中加一道主题,SVD分解法获取分布信息 需要 LDA 在词-段落中加一道主题,贝叶斯法获取拟合分布信息 需要 ...原创 2020-01-06 21:13:44 · 835 阅读 · 0 评论 -
关键词提取代码
我又来水博客了,今天我做了关键词提取算法。代码我会上传到我的github中去,这个算法需要stopword和corpus两个txt格式,导入的时候,会出现下面的错误gbk' codec can't decode byte 0x80 in position 26: illegal multibyte sequence只需要在里面的open函数里面加一句encoding=“utf-8”即可...原创 2020-01-06 20:52:58 · 1582 阅读 · 0 评论 -
混合编程的小作品,NLP高频词提取
https://github.com/yingdajun/-XXX功能大概如下,以C#做界面,python为内部程序。这个程序的缺陷是只能提取前10个词,以及暂时没搞懂怎么去去掉停用词。但是比起之前的中文分词程序,可以选择导入的EXE文件位置了。...原创 2019-12-24 21:01:24 · 303 阅读 · 0 评论