- 博客(68)
- 资源 (5)
- 收藏
- 关注
原创 attn_mask-代码解读
看到关于attn_mask给出了一个新的源文件,里面包含了创建4d_causal_attention源码,那是怎么实现的呢,一起来看一下吧。
2024-10-22 14:49:10 197
原创 ROPE及各种变体-代码解读
看到关于rope给出了一个新的源文件,里面包含了rope及多种变体的源码,那都有哪些变体呢,又是怎么实现的呢,各个变体之间的区别和联系是什么呢,一起来看一下吧。
2024-10-17 11:57:52 643
原创 MINICPM-V2_6图像+文本得到embedding-代码解读
基于将不同长度的图片patch embedding通过resampler变换成固定长度的patch embedding,那这个patch embedding是怎么和文本embedding到一起的呢?本篇从此出发,一起来看一下吧。
2024-09-25 17:22:42 503
原创 MINICPM-V2_6之图像embedding的resampler-代码解读
既然是attention,那其中必然有位置embedding,这里使用的是ROPE,只是因为是2D,所以这里也要处理一下得到2D的位置embedding"""输入:embed_dim: 向量维度输出:demo:"""else:grid = np.meshgrid(grid_w, grid_h) # 生成网格,但是这里是w在前;torch.meshgrid是h在前grid = np.stack(grid, axis=0)# 在第0维拼接"""输入:embed_dim: 向量维度。
2024-09-13 11:53:03 882
原创 MINICPM-V2_6图像得到embedding-代码解读
通过阅读代码,找到MINICPM-V2_6由图片得到embedding(位置编码和像素编码)的过程,并将代码本地化,每个代码都有对应的输入和输出,并详细的介绍了2D位置编码得到的过程。
2024-09-11 17:38:26 745
原创 MINICPM-V2_6图像预处理流程-代码解读
通过阅读多个代码,找到MINICPM-V2_6对应的图片切片的过程,并将代码本地化,每个代码块都有完整的输入输出,且解读了代码的每一步流程
2024-09-10 16:57:16 1059
原创 All mistakes are not equal: Comprehensive Hierarchy Aware Multi-label Predictions (CHAMP)
多层级loss函数
2022-08-15 16:31:09 471 1
原创 representation learning for resource-constrained keyphrase generation
关键词生成2022
2022-08-01 17:05:23 306
原创 InferSent
Supervised Learning of Universal Sentence Representations from Natural Language Inference DataGitHub论文目的NLP系统基于word embedding作为base features,却很少有成功的sentence embedding。本论文基于Stanford NLI数据得到好的sentence representations,也可以转换到其它数据集。相关工作word2vecgloveSkip
2022-01-27 16:59:04 941
原创 ERNIE-DOC
ERNIE-DOC: A Retrospective Long-Document Modeling TransformerGitHub论文目的因为随着长度的增加,transformer的内存和时间消耗成倍增加,所以transformer不适合处理长文本。简单的截断文档或使用稀疏attention并不能解决这个问题,提出ERNIE-DOC:一种基于循环transformer的文档级语言预训练模型,由两种技术组成:retrospective feed mechanism(回溯) and the enhan
2022-01-20 16:40:59 1258
原创 GATER
Heterogeneous Graph Neural Networks for Keyphrase GenerationGitHub论文目的keyphrase generation(KG)同时预测present keyphrases和absent keyphrases,但是仅依靠source document会产生不可控和不准确的absent keyphrases。为了解决这个问题,本论文基于图从相关的参考文献中获取显式的信息,首先从预定义的索引中找到与source document相似的文档-关键词
2022-01-18 16:55:48 984
原创 HiDEC
HIERARCHY DECODER IS ALL YOU NEED TO TEXT CLASSIFICATIONGitHub论文目的Hierarchical text classification (HTC) 会有数据不平衡和层级依赖的缺点,有local和global两种改进方向,hierarchy decoder (HiDEC)基于编码器、解码器的层次递归解码,The key idea of the HiDEC involves decoding a context matrix into a su
2022-01-12 15:36:23 369
原创 TRANS-ENCODER
TRANS-ENCODER: UNSUPERVISED SENTENCE-PAIR MODELLING THROUGH SELF- AND MUTUAL-DISTILLATIONSGitHub论文目的sentence similarity and paraphrase identification 两句话进行对比有两种常见的方法: bi-encoders and cross-encoders。Bi-encoders产生固定维度的句子表达,效果不如cross-encoders好,cross-encode
2022-01-08 16:22:27 1000
原创 Fast, Effective, and Self-Supervised:Mirror-BERT
Fast, Effective, and Self-Supervised: Transforming Masked LanguageModels into Universal Lexical and Sentence Encoders论文目的没有经过特定任务微调的预训练MLMs对句子编码是无效的,本论文想基于自监督将MLMs在不引入新数据的前提下对句子编码。提出Mirror-BERT:简单、快速、有效,通过对字符串进行小的修改形成正样本进行微调,有些数据集上效果与sentence-bert可媲美相关
2022-01-05 16:27:10 695
原创 开源数据集
遇到哪个加哪个NLPSTSSTS中的训练、测试、验证集的数量,语义文本相似性基准数据集,常用于无监督模型训练的测试集,使用Spearman correlation作为评价指标。STS-B http://ixa2.si.ehu.eus/stswiki/index.php/STSbenchmarkmain-captionsMSRvid2012test00005.000A man with a hard hat is dancing.A man wearin
2022-01-04 16:20:17 749
原创 ESimCSE: Enhanced Sample Building Method for Contrastive Learning of Unsupervised Sentence Embedding
论文目的SimCSE 使用dropout作为数据增强的最小方法,因为transformer使用位置embedding,句子的长度信息会被编码到句子embedding中,所以unsup-SimCSE的正对包含相同的长度信息。所以unsup-SimCSE训练的正样本对估计是有偏的,会倾向于将有相同或类似长度的句子是相似的,通过统计观察,发现unsup-SimCSE的确有这个问题。为了缓解它,使用一个简单的重复操作来修改句子,然后将句子和修改后的句子输入transformer来得到正对,且从CV中引入momen
2022-01-04 14:46:08 1051
原创 R-Drop: Regularized Dropout for Neural Networks
论文目的dropout会给训练和测试的过程中带来不一致,regularize dropout 简单的一致性训练策略,迫使dropout产生的子模型输出分布一致,这是通过约束每个样本两个子模型的输出的双向KL散度来达到的。在 neural machine translation, abstractive summarization, language understanding, language modeling, and image classification五个任务上做了实验。方法R-Drop
2021-12-31 15:54:17 1059
原创 SimCSE: Simple Contrastive Learning of Sentence Embeddings
论文目的SimCSE:simple contrastive sentence embedding framework首先提出一种无监督的方法,仅使用dropout作为噪声,进行对比训练。与有监督的方法效果类似,dropout充当了最小的数据增强的方法,删除它模型会崩溃。然后提出一种有监督的方法,使用自然语言推理(NLI)中的蕴含作为正对、矛盾作为负例,在STS任务上评估SimCSE,在无监督和有监督的任务上都有提升。还在理论和试验上证明了对比学习目标将预训练嵌入的各向异性空间正则化,使其更加均匀。
2021-12-24 18:00:12 1831
原创 Simple Contrastive Representation Adversarial Learning for NLP Tasks
这里写自定义目录标题论文目的相关工作contrastive learningAdversarial Training and Adversarial Attack本文方法Adversarial Training And Adversarial Attack MethodsSelf-supervised Contrastive LearningSupervised Contrastive Adversarial LearningUnsupervised Contrastive Adversarial Lear
2021-12-24 15:35:49 2125 4
原创 XLNet
XLNet:Generalized Autogressive Pretraining for Language Understanding摘要类似于Bert基于上下文进行建模的DAE(denoising autoencoding)的预训练模型比基于AR(autoRegressive)的语言模型得到了更好的效果。然而,Bert乎是了mask之间的依赖关系,并且预训练和微调之间的不一致(微调的时候没有mask),基于这样的优缺点,我们提出XLNet,通过最大化排列组合的因式分解的极大似然估计学习上下文的信息
2021-01-19 17:02:17 207
原创 FastBert
FastBert:a self-distilling bert with adaptive inference time摘要类似Bert的预训练语言模型已经被证明有很好的效果,但是计算昂贵,模型很难加载。Fastbert在微调时使用自适应机制,确保模型性能的前提下,提高效率,根据不同需求,灵活调整速度,同时避免了样本的冗余计算。1. introduction在未标注的文本上预训练,标注的样本上进行微调,预训练模型Bert、gpt、xlnet在很多nlp任务上有了很大的效果提升。缺点:计算量大、推
2021-01-06 10:54:34 984
转载 NLP学习过程中参考的网页
https://www.leiphone.com/news/201709/8tDpwklrKubaecTa.html 雷锋网 完全图解RNN、RNN变体、Seq2Seq、Attention机制https://www.cnblogs.com/wangduo/p/6773601.html?utm_source=itdadao&utm_medium=referral ...
2019-01-29 10:38:28 155
原创 python包使用过程
flask + jpypeflask会自动启动两次,原因:当调用app.run()的时候,用到了Werkzeug库,它会生成一个子进程,当代码有变动的时候它会自动重启如果在run()里加入参数 use_reloader=False,就会取消这个功能,当然,在以后的代码改动后也不会自动更新了。jpype如果被启动两次,程序会僵死,所以在两个一起时,应该让flask只启动一次。...
2019-01-24 17:28:19 337
原创 感知器--李航统计学习方法有感
第一次系统的学习统计,对感知器有了更深的认识,基于我很懒而且不想打公式,故将学习过程手写下来,忽略我那很丑的字以及不咋地的拍照技术,能起到想要的作用就好。...
2018-06-13 10:43:50 196
原创 HMM、MEMM、CRF学习小结
首先我是从https://www.zhihu.com/question/35866596和https://www.jianshu.com/p/55755fc649b1以及《数学之美》中学习的这三种概念,现在做个总结。下面均已词性标注为例。张三(名词)在(介词)星巴克(名词)喝(动词) 咖啡(名词)。1.生成式:隐马尔科夫模型HMM o观测值:张三i状态值:名词A:状态转移概率矩阵p(i2|i1) ...
2018-06-11 11:43:56 931
原创 excel想把B列、C列的内容插入到A列里面怎么操作
=OFFSET($A$1,INT((ROW()-3)/4),MOD(ROW()-3,4))https://zhidao.baidu.com/question/455067254.html 参考余数和取整重点说一下(ROW()-3),这里的ROW()具体指当前行,3指你这个公式开始的当前行的行数其实整体就是再凑行数和列数 INT部分是行数 MOD部分是列数。要是我想让四列横的变一列竖的呢比如1 2 ...
2018-06-07 17:33:46 7232
原创 nlp学习--点滴
很久没写过博客了,这段时间干了些啥呢?针对语音分类做了一个简单的demo,学了一些nlp的基本知识,比如分词、语法分析、命名实体识别等。貌似学习的东西挺多的,结果发现没有记录还是没记住啥,现在开始记录一下下。 分词,我使用的是jieba分词和hanlp分词,在命名实体识别的时候又把Stanford分词看了一下。 分词的原理是什么呢?分词一开始是“查字典”,即把句子从左到右扫描一...
2018-06-05 15:15:45 217
原创 java输出jar包,在服务器上运行
java输出jar包:1.file——project structure——artifacts点+健,jar——from modules with dependencies进入main class 选择你的main所在的java文件jar file from libraries我选择第二个,这个会把程序包含的jar包都显示出来(多个jar包),我选第一个一直有错误(这个会形成一个jar包)dire...
2018-03-05 15:19:31 2840
原创 java正则表达式
新接触Java时间不长,学一点用一点。这两天涉及到在句子中选择关键词,进行分门别类。开始使用的是contains,后来发现当同时包含多个关键词时,无法表示出关键词的先后顺序,所以自学了一点正则表达式。 String temporary = "123"; temporary.matches("^[0-9]*$"); tempora...
2018-03-02 15:43:45 226
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人