南楚巫妖
码龄6年
  • 60,189
    被访问
  • 100
    原创
  • 19,433
    排名
  • 71
    粉丝
关注
提问 私信

个人简介:且试新茶

  • 加入CSDN时间: 2016-08-17
博客简介:

yingdajun的博客

查看详细资料
  • 3
    领奖
    总分 330 当月 59
个人成就
  • 获得34次点赞
  • 内容获得23次评论
  • 获得213次收藏
创作历程
  • 18篇
    2022年
  • 14篇
    2021年
  • 48篇
    2020年
  • 20篇
    2019年
成就勋章
TA的专栏
  • 自然语言处理
    40篇
  • 机器学习方法
    26篇
  • 论文学习
    7篇
  • 日常总结
    7篇
  • 深度学习
    24篇
  • 文本匹配
    2篇
  • 数据挖掘
    1篇
  • 心跳信号分类比赛
  • 语音识别
  • matchzoo
    4篇
  • REVIT二次开发
    8篇
  • keras
    5篇
  • 巫王勇者的升阶之路
    8篇
  • bert
  • python
    3篇
  • kaggle
    8篇
  • fastnlp
    1篇
  • 情感分析
    2篇
  • 论文翻译
    1篇
  • sklearn
    4篇
  • 空间句法
    1篇
  • 百度API
    2篇
  • 混合编程
    6篇
  • 日常吐槽
    2篇
  • 降维算法
    1篇
兴趣领域 设置
  • 人工智能
    opencv计算机视觉机器学习自然语言处理nlp数据分析
  • 最近
  • 文章
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

Text Smoothing: Enhance Various Data Augmentation Methods on Text Classification Tasks文献翻译

摘要:在进入神经网络之前,一个token一般会转换成对应的onehot表示,这是词汇表的离散分布。平滑表示是从预训练的掩码语言模型中获得的候选标记的概率,可以看作是对 one-hot 表示的信息更丰富的替代。我们提出了一种有效的数据增强方法,称为文本平滑,通过将句子从其单热表示转换为可控平滑表示。我们在资源匮乏的情况下在不同的基准上评估文本平滑。实验结果表明,文本平滑在很大程度上优于各种主流数据增强方法。此外,文本平滑可以与那些数据增强方法相结合,以获得更好的性能。1.介绍数据增强是一种广泛使用的技术
原创
发布博客 2022.05.12 ·
77 阅读 ·
0 点赞 ·
0 评论

EasyNLP: A Comprehensive and Easy-to-use Toolkit for Natural Language Processing文献翻译

摘要:预训练模型 (PTM) 的成功重塑了自然语言处理 (NLP) 的发展。然而,对于工业从业者来说,获得高性能模型并在线部署它们并不容易。为了弥补这一差距,EasyNLP 旨在让构建 NLP 应用程序变得容易,它支持一整套 NLP 算法。它还具有用于大规模 PTM 的知识增强预训练、知识蒸馏和小样本学习功能,并为实际应用程序提供模型训练、推理和部署的统一框架。目前,EasyNLP 已为阿里巴巴集团内的十多个业务部门提供支持,并与阿里云上的人工智能平台(PAI)产品无缝集成。我们的 EasyNLP 工具包
原创
发布博客 2022.05.12 ·
85 阅读 ·
0 点赞 ·
0 评论

Embedding-based Retrieval in Facebook Search 文献翻译

Embedding-based Retrieval in Facebook Search摘要:在 Facebook 等社交网络中进行搜索与经典网络搜索相比面临不同的挑战:除了查询文本之外,考虑搜索者的上下文以提供相关结果也很重要。他们的社交图谱是这一背景不可或缺的一部分,也是 Facebook 搜索的一个独特方面。虽然基于嵌入的检索 (EBR) 已在网络搜索引擎中应用多年,但 Facebook 搜索仍主要基于布尔匹配模型。在本文中,我们讨论了将 EBR 应用于 Facebook 搜索系统的技术。我们介绍
原创
发布博客 2022.05.12 ·
17 阅读 ·
0 点赞 ·
0 评论

TextBrewer工具使用实战2

https://zhuanlan.zhihu.com/p/261714758导入第三方库包#coding=utf-8import numpy as npimport pandas as pdimport osimport matplotlib.pyplot as pltfrom sklearn.model_selection import train_test_splitfrom sklearn.metrics import accuracy_scoreimport torchimpor
原创
发布博客 2022.05.06 ·
51 阅读 ·
0 点赞 ·
0 评论

深度学习文本分类模型使用TextBrewer实战

"""采用Transformer裁剪后,剪枝后生成的文件夹内是不包含vocab.txt文件的,因此需要把源文件夹内的vocab.txt文件夹复制粘贴过去,防止报错"""# 采用Transformer裁剪后,模型占GPU121->547->1283 M# 采用流水线裁剪后,模型占GPU121->477->1
原创
发布博客 2022.05.04 ·
15 阅读 ·
0 点赞 ·
0 评论

spark的官方例子,集合了JAVA和SCALA双版本

这里是我把JAVA和SCALA双语言的Spark实现源码集成起来,上传到Github上面免得之后换新电脑忘记了。https://github.com/yingdajun/realrealsparkdemo
原创
发布博客 2022.05.03 ·
1286 阅读 ·
0 点赞 ·
0 评论

深度学习文本分类模型使用TextPruner实战

# 完全不适用剪枝手段,模型占GPU 121->687->1447 M# 采用剪枝手段后,模型占GPU 121->617->1377 M"""采用Transformer裁剪后,剪枝后生成的文件夹内是不包含vocab.txt文件的,因此需要把源文件夹内的vocab.txt文件夹复制粘贴过去,防止报错"""# 采用Transformer裁剪后,模型占GPU121->547->1283 M# 采用流水线裁剪后,模型占GPU121->477->1
原创
发布博客 2022.05.03 ·
70 阅读 ·
1 点赞 ·
0 评论

使用transformers_2.4.0验证bertoftheus性能

from __future__ import absolute_import, division, print_functionimport argparseimport globimport loggingimport osimport randomimport jsonimport numpy as npimport torchfrom torch.utils.data import (DataLoader, RandomSampler, SequentialSampler,
原创
发布博客 2022.04.26 ·
84 阅读 ·
0 点赞 ·
0 评论

bert of thesus模型实战,采用transformers直接调用

from transformers import AutoTokenizer, AutoModeltokenizer = AutoTokenizer.from_pretrained("canwenxu/BERT-of-Theseus-MNLI")model = AutoModel.from_pretrained("canwenxu/BERT-of-Theseus-MNLI")Downloading: 0%| | 0.00/151 [00:00<?, ?B/s]
原创
发布博客 2022.04.26 ·
104 阅读 ·
0 点赞 ·
0 评论

Adapter-transfomers版本库包使用练习

Aapter-transformers库包尝试使用,感觉这个库包的用于做模型轻量化效果不是很大,降低内存不多,不是很实用。调用第三方库包#coding=utf-8import numpy as npimport pandas as pdimport osimport matplotlib.pyplot as pltfrom sklearn.model_selection import train_test_splitfrom sklearn.metrics import accuracy_s
原创
发布博客 2022.04.25 ·
175 阅读 ·
0 点赞 ·
0 评论

Impossible Triangle: What’s Next for Pre-trained Language Models? 论文翻译

Impossible Triangle: What’s Next for Pre-trained Language Models?不可能的三角:预训练语言模型的下一步是什么?机构: 微软认知服务研究小组摘要:大规模预训练语言模型(PLM)的最新发展极大地提高了模型在各种NLP任务中的能力,即在特定任务微调和零次/少次学习后的性能。然而,许多这样的模型都具有惊人的巨大规模,很少有机构能够承担预培训、微调甚至部署的费用,而中等规模的模型通常缺乏强大的通用性少镜头学习能力。在本文中,我们首先从不可能三角
原创
发布博客 2022.04.19 ·
814 阅读 ·
1 点赞 ·
0 评论

On the Evaluation of NLP-based Models for Sofware Engineering 论文总结

On the Evaluation of NLP-based Models for Sofware Engineering基于自然语言处理的软件工程模型评价研究摘要基于NLP的模型越来越多地被用于解决SE问题。这些模型要么在SE域中使用,几乎没有变化,要么根据源代码及其独特特性进行了大量定制。其中许多方法被认为优于或补充了现有的解决方案。然而,这里出现了一个重要的问题:这些模型在SE社区中是否得到了公平一致的评估?。为了回答这个问题,我们回顾了研究人员如何评估基于NLP的SE问题模型。研究结果表明,目
原创
发布博客 2022.04.01 ·
135 阅读 ·
0 点赞 ·
0 评论

LinkBERT: Pretraining Language Models with Document Links 论文总结

LinkBERT: Pretraining Language Models with Document LinksLink BERT:带有文档链接的预训练语言模型源码位置:https://github.com/michiyasunaga/LinkBERT摘要语言模型(LM)预训练可以从文本语料库中学习各种知识,帮助下游任务。然而,现有的方法(如BERT)对单个文档建模,并且不能捕获跨文档的依赖关系或知识。在这项工作中,我们提出了LinkBERT,这是一种LM预训练方法,利用文档之间的链接,例如超链
原创
发布博客 2022.03.31 ·
1208 阅读 ·
0 点赞 ·
0 评论

Hierarchical Transformer Model for Scientific Named Entity Recognition 论文总结

Hierarchical Transformer Model for Scientific Named Entity Recognition科学命名实体识别的层次变换模型Github 地址:https://github.com/urchade/HNER摘要:命名实体识别是关系抽取、知识图构造等自然语言处理系统的重要组成部分。在这项工作中,我们提出了一种简单有效的命名实体识别方法。我们方法的主要思想是使用一个预先训练好的转换器(如BERT)对输入子词序列进行编码,然后,在子词表示中添加另一层转换器,
原创
发布博客 2022.03.31 ·
1277 阅读 ·
0 点赞 ·
0 评论

VLP: A Survey on Vision-Language Pre-training 论文总结

VLP: A Survey on Vision-Language Pre-trainingVLP:视觉语言预训练研究综述论文地址:https://arxiv.org/pdf/2202.09061.pdf摘要:在过去几年中,训练前模型的出现将计算机视觉(CV)和自然语言处理(NLP)等单峰领域带入了一个新时代。大量工作表明,它们有利于下游单峰任务,避免从头开始训练新模型。那么,这种预先训练好的模型可以应用于多模式任务吗?研究人员已经探索了这个问题,并取得了重大进展。本文综述了视觉语言预训练(VLP)
原创
发布博客 2022.03.30 ·
3376 阅读 ·
0 点赞 ·
0 评论

如何学习NLP论文

最近在B站学习这系列视频,视频链接如下:https://www.bilibili.com/video/BV1ME411J7Ch?p=1在此进行总结:2. 收集和组织论文收集引擎:ACL网站https://aclanthology.org/arxiv 网站https://arxiv.org/整理某类方向论文:(1)通过会议按照那一年、什么会议形式去投(2)通过是否preprint按照论文是否已投(3)通过问题按照论文是无监督/有监督、检索式/生成式等方向去实现(5)通过方法按
原创
发布博客 2022.03.27 ·
400 阅读 ·
0 点赞 ·
0 评论

Utilizing BERT for Aspect-Based Sentiment Analysis via Constructing Auxiliary Sentence 论文总结

Utilizing BERT for Aspect-Based Sentiment Analysis via Constructing Auxiliary Sentence《通过构建辅助句利用 BERT 进行基于方面的情感分析 》论文源码位置:https://github.com/HSLCY/ABSA-BERT-pair摘要提出了一种通过构造辅助句子,将基于方面的情感分析 (ABSA) 转换成句子对分类问题的方法,提高针对特定方面的细粒度意见极性,使用BERT模型,在SentiHood 和 Sem
原创
发布博客 2022.03.23 ·
356 阅读 ·
0 点赞 ·
2 评论

在IDEA中启动spark项目的操作

第一步:在pom文件中换成<properties> <scala.version>2.12.12</scala.version> <maven.compiler.source>1.8</maven.compiler.source> <maven.compiler.target>1.8</maven.compiler.target> <encoding>UTF-8</en
原创
发布博客 2022.02.12 ·
151 阅读 ·
0 点赞 ·
0 评论

mzcn模块的新版本——————支持命令行训练和导出ONNX进行深度学习部署

简介mzcn是本人针对于matchzoo-py库出现的对中文文本语料处理不友好,而开发出的新版本,具体功能介绍在这里:https://blog.csdn.net/yingdajun/article/details/119846966新版本功能介绍目前通过阅读Facebook公司提出的pytext的框架,给原本的mzcn模型添加了以下三个功能:1.支持一键进行训练2.一键导出ONNX格式3.检测是否可以进行预测(由于本人电脑性能贼差,刚毕业没有余钱换电脑,所以预测结果很垃圾,但是估计性能好一点
原创
发布博客 2021.09.03 ·
142 阅读 ·
0 点赞 ·
0 评论

matchzoo-py的二次开发-mzcn

mzcn中文版本的matchzoo-py本库包是基于matchzoo-py的库包做的二次开发开源项目,MatchZoo 是一个通用的文本匹配工具包,它旨在方便大家快速的实现、比较、以及分享最新的深度文本匹配模型。由于matchzoo-py面向英文预处理较为容易,中文处理则需要进行一定的预处理。为此本人在借鉴学习他人成功的基础上,改进了matchzoo-py包,开发mzcn库包。mzcn库包对中文文本语料进行只保留文本、去除表情、去除空格、去除停用词等操作,使得使用者可以快速进行中文文本语料进行预
原创
发布博客 2021.08.21 ·
209 阅读 ·
1 点赞 ·
0 评论
加载更多