应有光-CSDN博客

原创【NER-2】——2019 IJCAI LR-CNN

本文是来自2019年IJCAI的CNN-Based Chinese NER with Lexicon Rethinking，用于中文NER的识别。

2022-07-16 14:28:13 491

原创【NER-0】-2016 NAACL BiLSTM-CRF

BiLSTM-CRF是2016年NAACL的NeuralArchitecturesforNamedEntityRecognition,其是NER领域的重要模型。

2022-07-15 15:48:26 313

原创【PLM—3】——Bert结构学习

仅仅看Bert的论文其实对我们的帮助并不大，我们一般更关注于实践中对Bert结构的搭建。BERT原文的代码为：https://github.com/google-research/bert，但是其为TF写的，然而我并不会TF。因此本文参考Hugging Face的Transformers库的实现，学习Bert结构。......

2022-07-08 22:03:05 1151

原创【PLM—1】——2019-NAACL-Bert

本文是对Bert的论文阅读。值得我们注意的是，Bert的论文可能本身并不神奇，关键在于应用。

2022-07-08 17:44:58 400

原创【PLM—2】——2019-Arxiv-Robera

2019年Arxiv上的一篇预训练模型RoBERTa: A Robustly Optimized BERT Pretraining Approach，虽然后来也没看到这个模型被哪个会议录用了，大概是因为创新点并不大。不过似乎因为是对Bert充分训练、研，而被研究者们广泛使用了（虽然也有人说没比Bert强到哪里去）。......

2022-07-08 17:41:59 520

原创【Transformers-实践3】——LEBert-CRF用于中文平坦实体（Flat NER）识别

LeBert为Lexicon Enhanced Bert，即词表增强的Bert。考虑到NER边界，其实也是分词的边界。因此，自然而然地引入词汇边界信息，有利于提升NER效率。本文的任务目标在于利用预训练的语言模型，并使用额外的词表，辅助下游的中文语料的平坦命名实体识别任务。.........

2022-07-08 17:34:14 1586 1

原创【NER-1】-2018 ACL Lattice-LSTM

本文隶属于词表增强的模型，对后续的NER工作有较大的影响。

2022-07-08 13:50:35 627

原创【Utils-1】——字典树（Trie）

在Lattice-BiLSTM，或者LeBert等等进行中文命名实体识别的模型中，需要用到词汇信息。特别的，需要知道以某个词语开头的所有词语，是否在一个预训练的词表、词向量库中出现。因此，查找词语变得非常重要。依托于LeBert的中文NER识别项目（本博客的【Transfoemers-实践3】），这里将其中用到的数据结构Trie树的python实现学习。......

2022-07-07 21:04:35 318

原创【Utils-2】——嵌套实体(nested NE)的平坦化（朴素方法）

最近在探究命名实体识别相关的内容。命名实体存在嵌套（nested)现象，在模型标注时，需要将树状结构线性化。当然将嵌套实体“线性化”（Linearization）的方法有很多，考虑到实体“不存在交汇的情况，这里我们采取两种最朴素的实现方法，最大实体、最小实体平坦化。...............

2022-07-07 19:01:35 764 1

本文为VAE原作者Diederik P. Kingma在Arxiv上的一篇解读An Introduction toVariational Autoencoders的阅读记录。原文实际上是对于自己的得意之作VAE进行更进一步的讨论，以及对follow-up的工作进行讨论的文章。In chapter 2 we explain the basics of VAEs.In chapter 3 we explain advanced inference techniques,in chapter 4 give

2022-07-06 14:17:50 994

原创【读论文-笔记】——2.沐神读Resnet

Resnet所提出的`Residual connection`作为现代神经网络中最为有效的加深网络深度的技巧，被广泛使用，但是我实际上从来没有看过Resnet的原文。前几天写本科毕业论文吃瘪，在这里还是得好好的看一看这篇文章，不仅是学习`扎实的实验技术`，也是学习大神的写作方法。...

2022-07-06 13:54:21 875

原创【读论文-笔记】——1.沐神读Alexnet

本文是看沐神阅读Alexnet文章的笔记。

2022-07-06 13:53:34 289

原创【基础知识-高数-1】——雅可比行列式与“可逆性”证明一则

最近在看PRML，总是出现雅可比行列式。雅可比行列式体现了变量的微元变换的面积比，虽然我的认识并不深刻，但是好歹经常遇见它，这里证明一个关于它的小结论。我们知道，在一元变量中，我们有：dydxdxdy=1{dy \over dx} {dx \over dy} =1dxdydydx=1但是在多元的变换过程中，我们其实也有类似的好结论，即关于雅可比行列式的结论，不过条件是我们不能把未知数变换少了，因为这相当于把维度降低了，变量单位微元组成的面积求为0了。如下我们从计算的角度证明结论，而不是从严格

2022-07-06 00:17:28 7981

原创【Transformers-实践2】——Bert-CRF用于英语平坦实体（Flat NER）识别

本文是学习使用Huggingface的Transformers库的简单实践，我们简单的梳理一下模型的结构，以及具体的程序结构。本文的任务目标在于利用预训练的语言模型，辅助下游的英语的识别任务。主要包括四大模块：tokenizer、Bert model、classifier、CRF layer。............

2022-07-05 19:01:25 3461 14

原创【Statistics-6】——差异检验和三大分布

实际上，有些时候我们并不需要判别一个分布的值，而是知道两个分布之间的区别。10. Analyzing the Difference Between Two Groups Using Binomial Proportions还是这个例子，但是我们希望比较俩个城镇之间，对于各自的法案的支持程度，例如第一个镇的人风气比较自由主义做派，第二个镇的人的风气比较保守，那么他们关于类似法案的支持度，很有可能不一样。我们按照假设检验的标准步骤，完成这项调查。当然，我们可以分别估计他们两的情况，然后做出推断，但是这里我们

2022-03-31 17:16:16 477

原创【Statistics-5】——正态分布与二项分布的逼近

在前文中，实际上我们不仅仅在考虑，抽样分布的置信区间与假设检验方法；实际上，我们面对的是一种特殊的分布。当然，我们都学过概率论，所以我们也知道，这其实就是中心极限定理——特别的，这里是二项分布逼近正态分布的情况，然后我们对它采取标准化操作，变为标准正态分布。以下我们还是从直观的、统计的角度来看待、感受标准正态分布，而不是像概率论教材里那样严谨的从数学上证明。8.标准正态分布9.近似条件实际上，...

2022-03-31 17:15:43 7482

原创【环境配置-1】-anaconda环境配置

由于换了电脑，因此原本很多配置过的内容又得重新操作一遍。不过这会也借机会熟悉一下conda虚拟环境配置的一些操作。对环境的管理增#在不影响当前版本的情况下,新建环境并安装不同版本的python#新建一个Python版本为3.6 名称为 py36 的环境conda create -n py36 python=3.6 anaconda#注:将py36替换为您要创建的环境的名称。 anaconda是元数据包，带这个会把base的基础包一起安装，不带的话新环境只包含python3.6相关的包。 pyth

2022-03-31 16:56:35 2724

原创【Pytorch-6】-模型保存与加载

其实Pytorch模型保存还是挺简单的，但是不同方式也有好坏之分吧。有时候，我们不仅仅需要保存模型参数，实际上有时需要保存训练的所有现场，包括优化器的内容。即有时候是只保存参数，但有时候需要保存模型训练的全过程。最为常用如果直接保存模型，其实很直接了当；如果model是pytorch的nn.module继承而来的，那么如下：model_path = os.path.join(output, 'model.pth')torch.save(model.state_dict(), model_path)

2022-03-27 16:56:00 2507

原创【Pytorch-0】-结构性整理

本节从一个非常简单的小例子开始，说明如何搭建Pytorch的深度学习模型。本节从在Minist数据集上训练最简单的VAE实现开始，讲述如何搭建模型：1. 模型训练总的来说，整个训练流程需要以下几个步骤：数据准备，超参数管理：数据准备如使用dataset管理，超参数可以通过argparse管理，也可以通过yaml管理，或者暴力输入，但是这不是一个很好的习惯。数据预处理：如使用torchvision进行处理，但是实际可能复杂很多。数据加载，获得迭代器：例如，Dataloader,DataIter搭

2022-03-27 00:52:28 720

原创【Pytorch-3】-基础网络模块概念

1.MLP常见的MLP可能结构如下所示，即若干组：全连接+激活函数。可能加上dropout。class MLP(nn.Module): """A simple MLP. """ def __init__(self, input_size, hidden_size, num_classes, num_layers=1, dropout_p=0.0): """Constructor for MLP. Args:

2022-03-25 23:46:33 396

原创【Pytorch-3.3】——RNN时序网络建模

本文是在实现IVQA模型时的一些记录，该模型使用的是RNN建模，因此借此机会回顾一些Seq2Seq模型的写法，以及Pytorch的使用。1.LSTM：看结构图就可以明白LSTM的机理。LSTM是一种使用了“门控”方式的RNN，最原始的RNN的结构上，其实就是一般的MLP网络，但是有一个“自回归的状态输出”。门控机制其实可以看作注意力机制，形式上是类似的。具体的，LSTM有三个门，被称作是输入门（input gate)，遗忘门（forget gate)，输出门（output gate)。三个门依次控

2022-03-25 23:45:00 759

原创【Pytorch-7】-Pytorch的初级GPU训练

现如今模型都比较大，光用CPU是训练模型基本不可能，不过做模型推理还是可以的。本小节主要回顾如何使用GPU训练模型，当然环境配置就不啰嗦了，这里直接进入正题：将相关数据放到GPU上；如何将模型放到GPU上；最为粗暴的多GPU训练方法；首先，我们可以用如下方法判断我们是否可以用GPU训练模型：torch.cuda.is_available():1.数据放置我们可以用粗暴的方法放置数据，即，我们直接通过tensor.cuda()方法就可以达到目标，如下所示： for i, (images,

2022-03-25 23:42:23 2104

原创【Statistics-4】——假设与统计显著的局限性

在上一节中提到，我们做统计分析，倾向于取得一个保守的结果，也就是说要尽可能避免，犯两类错误时的结果。“所谓保守的一侧，就是说我们更倾向于“即使做错判断，也不会发生大问题”的情况，这一面可以多犯点错，因此这种错误的错误率可以高一些；而不是“做错判断，会发生大问题”，我们需要严格的控制错误率。换句话说，这里的保守面，就是分析第一类错误时的假设。”前文【Statistics-3】采取这样的手段，但是实际上前文中，我们也一直强调两件事：我们在没有上帝视角的情况下，没有先验知识；但是我们上面的例子中，都是探讨“一

2022-03-25 19:37:09 1276

原创【Statistics-3】——抽样结果的误差分析

4. 频率派假设检验的两类错误第一类错误：例如，一枚公平的硬币，在进行随机实验时，如果我们根据95%置信区间的法则，只有5%的实验内，会让我们错误的认为，这枚公平的硬币是不公平的。即，错误的拒绝正确的假设。第二类错误：例如，一枚不公平的硬币，我们假设它公平，在进行随机实验时，任然可能落入我们的95%置信区间内，我们会错误的认为，这枚硬币是公平的，即，正确的接受错误的假设。如下，我们展示四类情况，两类是在假设检验的框架下得到了正确的结果，两类是得到了错误的结果。列个表格，如下所示：两类错误，再次

2022-03-25 16:43:52 1501

原创【Statistics-2】-抽样分布的因素（Dynamics）

2.Sampling Distribution Dynamics我们考虑前文考虑的实际问题：在一个有60000人的社区里，提出新的决议，我们需要知道居民对决议的支持比例。如果我们从中随机抽取一批人进行调查，得到结果，那么我们对于全体居民的支持比例的相关假设，可信度有多高？具体的，前文中，进行随机实验。真实的支持比例为50%，随机抽取100人，统计支持者比例，并进行1000次独立的随机实验。其统计结果如下，我们可以看到其95%的置信区间结果为40%-60%之间。这么大（20%）的置信区间，实际上的作用是非

2022-03-25 16:43:27 694

原创【Statistics-1】-基本抽样分布（背景回顾）

3月底将至，在阅读VAE的过程中，发现自己对于概率论和数理统计的理解非常的浅薄，在这里，阅读一本统计的tutorial：Statistical Analysis Illustrated Foundations You Should Know。并做学习记录。实际上，概率论和数理统计，对于世界的不确定性进行了很好的建模，其用确定的数学语言衡量了世界中的不确定性。因此，概率论的思维和其它代数、几何的问题，不一样，而且应用性强。0.IntroductionReading textbooks doesn’t w

2022-03-25 16:42:13 488

原创【基础知识-熵】——1.熵的建模

其实很多博客对于熵这个概念都说不明白，而且有直接能看出来的错误，这里为了深刻认识，故做此小结。信息熵直观理解熵，我们知到：是不确定的度量。是信息的度量。如果我们完全认识一个事件，那么我们获得了足够大的信息量；反之，则获得的信息量不足。虽然我们已经用概率做了不确定的度量，但是熵和概率比，有什么区别呢？如果我们知到一件事必然发生，虽然它的概率是1，但是熵却是0，没有不确定度。如果一件事必然不发生，虽然概率是0，但是熵也是0，因为没有不确定度。但是如果一个概率为1的事件没发生，或者概率为0的事

2022-03-21 18:23:25 466

原创【考古-3】——Dynamic time warping(DTW)算法

1.Abstract；2.Intro；3.Conclusion；4.Related works；5.model；6.Experiment；

2022-01-18 15:59:18 2423

原创【考古-1】-2006-ICML-CTC算法

本文是2006年ICML的Connectionist Temporal Classification: Labelling Unsegmented Sequence Data with Recurrent Neural Networks一文，提出了CTC算法。在不同的地方看到CTC算法很多遍了，因此在这里学习一下CTC算法。中文知乎：https://zhuanlan.zhihu.com/p/88645033教程：https://distill.pub/2017/ctc/代码：https://link

2022-01-17 09:53:44 272

原创【dual learning】——Dual Learning for Machine Translation

本文主要描述的是NMT中的一些Dual learning的方法，其中主要是基于半监督和无监督下的场景。回顾back-translation的方法：Principle of Dual Reconstruction这里以机器翻译为例，说明半监督条件下的Dual learning。图中Bob只说语言X，Alice只说语言Y，并且有两个翻译模型。实际上，我们并不确保两个机器翻译模型的正确性。但是我们至少可以通过以下手段判断翻译模型是否存在问题：1.Bob向模型fff说一句话xxx，因此得到了yˉ=f(x

2021-12-19 15:41:50 484

原创【一起看花书1.3】——第5章机器学习基础

本文内容对应于原书的5.7-5.11共5小节内容，其中知识性、结论性的内容偏多，也加入了点个人见解。5.7 监督学习监督学习，本质上是复杂函数的拟合，即给定特征xxx,我们需要得到标签yyy，这不就是求一个函数的拟合嘛？线性回归是比较简单的，从高代、概率论就可以理解，甚至用傅里叶级数、插值，不也是嘛？只不过形式太复杂了，我们不能简单的用这些工具。这里作者大概提了几类方法：概率监督学习SVM(包括使用了核方法的）KNN决策树其中，概率监督学习指的是，我们通过确定正确的输入和输出变量上的有参

2021-12-14 16:37:13 1974

原创【一起看花书1.2】——第五章机器学习基础

第五章机器学习基础（2）上一部分概要性的关注了机器学习中的基础概念与基础问题，主要从直觉上阐述了模型选择方面的、参数调整的启发。本节内容进一步地，从统计学方面来粗浅地观察机器学习模型，对应于原书目录5.4-5.6小节。本文目录5.4 估计、偏差、方差5.5.最大似然估计5.6 贝叶斯统计5.4 估计、偏差、方差5.4.1 基础概念这里的“估计”和我们在数理统计中学的“参数估计”概念基本一致；“偏差”类似于自动控制理论中的稳态误差，其实也就是对估计量的误差的期望；“方差”和概率论中的方

2021-12-13 20:14:45 1030

原创【一起看花书1.1】——第五章机器学习基础

第五章机器学习基础本章介绍的是关于机器学习中的一些模型评价方面的知识。深度学习火了很久，但是深度学习也是发源于ML的感知机方法。我们要想充分理解深度学习，必须对机器学习的基本原理有深刻的理解。作者推荐的ML的书，有：Bishop, C. M. (2006). Pattern Recognition and Machine Learning. Springer. 87, 126Murphy, K. P. (2012). Machine Learning: a Probabilistic Pers

2021-12-10 21:34:05 1071

原创【Data augmentation in NLP】——2

本内容承接上一篇，将阐述一些其中的技巧、应用以及相关的话题：1. 影响因素：对于不同的数据增强方法，其效果也是不同的，本节将概述影响方法效力的因素以及适用场景。1.1 方法的组合使用显然，这些方法可以被组合在一起使用。同类方法可以交互使用。例如paraphrasing的方法中，可以将word embedding和language model一起使用，将word embedding和Rules或者word embedding和词典库一起组合使用。而noise-based方法由于操作简单，往往也是组合使

2021-12-08 16:10:04 683

原创【Data augmentation in NLP】——1

最近学校内上鉴萍老师的“智能工程计算实践”课程，在讲到“真实场景下的应用“方面，讲了一些数据增强方法，觉得很有实际意义。因此在这里想深入学习一下。本文为数据增强系列的第一篇，是阅读：Data Augmentation Approaches in Natural LanguageProcessing: A Survey 一文的简要记录，大家有兴趣建议还是阅读原文。0.前言数据增强（Data augmentation)指的是通过增加“根据数据集数据轻微修改”的数据，或者“增加新和成的数据”来增加数据数

2021-12-07 20:32:37 1130

原创【概率论】一元概率分布的平均化

前段时间在做相关深入思考的时候，突然想到一个问题：如何将一个任意的概率分布，映射为一个平均分布？在这里我们将逐步的讨论这个问题：不详细讨论分布的数学条件上的要求1.问题铺垫设RRR为随机变量，R∈[0,1]R \in [0,1]R∈[0,1]，其概率密度函数为Pr(r)。P_r(r)。Pr(r)。现在我们要求一个映射TTT，使得随机变量SSS满足，S=T(R)S=T(R)S=T(R)，且S∈[0,1]S \in [0,1]S∈[0,1]，SSS为服从均匀分布的随机变量。出于当时研究问题的背景

2021-12-07 18:18:21 388

原创【概率论】正态分布的由来——从大一同学的视角出发

正态分布平时常常遇到，无论是在概率论中的“中心极限定理”，还是平时在学习ML中遇到的“高斯混合模型”，或者是在深度学习中，常常将一些数据假设为正太分布的情况。但是为什么不是平均分布呢？二项分布呢？泊松分布？或者是其它抽样分布？接下来我们将简要探讨正态分布的由来：中心极限定律中心极限定律有很多种形式，包括...

2021-12-06 13:55:42 1171

原创【VQA survey】视觉问答中的语言学问题

前言看文章，也有所谓的2、8定律，顶会之中也有那么80%的文章，其实并没有下文，或者没有人关注。集中精力发现关注那20%的文章，是很重要的。回想起来，很多领域都是研究了重要的问题，因此才出现的：比如，为什么分为判别式模型和生成式模型？因为实际上是对问题的建模不同，一个是对联合概率建模，另一个是直接建立“问题和目标的”映射，为什么分为有监督和无监督？实际上是对不同问题的研究，即有数据集标注，和无数据集标注，希望依据某种标准发现数据集的结构。为什么有生成问题？因为模型需要自主生成的能力，而并不是对我

2021-12-02 21:37:35 1327

原创【Robustness of VQA-1】——2019-EMNLP-Don’t Take the Easy Way Out

2019-EMNLP-Don’t Take the Easy Way Out: Ensemble Based Methods for Avoiding Known Dataset Biases

2021-12-01 22:50:34 254

原创【Basic model】Transformer-实现中英翻译

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Markdown编辑器你好！这是你第一次使用 Markdown编辑器所展示的欢迎页。如果你想学习如何使用Mar

2021-11-26 21:25:54 2420 1

空空如也

空空如也