只鸥周-CSDN博客

原创 06_gpt2_overall

https://github.com/chunhuizhang/bert_t5_gpt/blob/main/tutorials/06_gpt2_overall.ipynb

2023-11-05 22:17:53 134

原创 01_fine_tune_transformers_on_classification

https://github.com/chunhuizhang/bert_t5_gpt/blob/main/tutorials/01_fine_tune_transformers_on_classification.ipynb

2023-11-05 22:12:11 150

原创 09_masked_lm

https://github.com/chunhuizhang/bilibili_vlogs/blob/master/fine_tune/bert/tutorials/09_masked_lm.ipynb

2023-11-05 21:36:13 139

原创 08_bert_head_pooler_output

https://github.com/chunhuizhang/bilibili_vlogs/blob/master/fine_tune/bert/tutorials/08_bert_head_pooler_output.ipynb

2023-11-05 21:31:48 99

原创 07_add_norm_residual_conn

https://github.com/chunhuizhang/bilibili_vlogs/blob/master/fine_tune/bert/tutorials/07_add_norm_residual_conn.ipynb

2023-11-05 21:24:09 29

原创 06_attn_01

https://github.com/chunhuizhang/bilibili_vlogs/blob/master/fine_tune/bert/tutorials/06_attn_01.ipynb

2023-11-05 16:45:35 31

原创 05_model_outputs

https://github.com/chunhuizhang/bilibili_vlogs/blob/master/fine_tune/bert/tutorials/05_model_outputs.ipynb

2023-11-05 16:32:54 26

原创 04_subword_wordpiece_tokenizer

https://github.com/chunhuizhang/bilibili_vlogs/blob/master/fine_tune/bert/tutorials/04_subword_wordpiece_tokenizer.ipynb

2023-11-05 10:32:14 30

原创 03_bert_embedding-output

https://github.com/chunhuizhang/bilibili_vlogs/blob/master/fine_tune/bert/tutorials/03_bert_embedding-output.ipynb

2023-11-05 10:17:26 27

原创 torch.no_grad() vs. param.requires_grad == False

https://github.com/chunhuizhang/bilibili_vlogs/blob/master/fine_tune/bert/tutorials/02_no_grad_requires_grad.ipynb

2023-11-05 10:00:55 49

原创 02 tokenizer encode_plus, token_type_ids（mlm，nsp）

https://github.com/chunhuizhang/bilibili_vlogs/blob/master/hugface/02_tokenizer_encode_plus_token_type_ids.ipynb

2023-11-05 09:27:40 46

原创 01 huggingface tokenizer

https://github.com/chunhuizhang/bilibili_vlogs/blob/master/hugface/01_tokenizer_sentiment_analysis.ipynb

2023-11-05 09:15:03 30

原创计算机网络面经

https://www.eet-china.com/mp/a68780.html

2023-10-20 09:06:50 27

原创 DGL入门教程

https://blog.csdn.net/CY19980216/article/details/110629996

2023-10-13 19:30:14 96

原创 Pyg使用参考

https://zhuanlan.zhihu.com/p/94491664

2023-10-13 19:28:40 38

原创推荐系统学习路径

推荐系统学习路径：https://datawhalechina.github.io/fun-rec/#/

2023-10-13 18:32:03 42

原创 Attention 和 self-attention 的区别

https://zhuanlan.zhihu.com/p/489431520

2023-10-11 16:54:37 175

原创 python中is和==的区别

https://zhuanlan.zhihu.com/p/35219174

2023-10-11 16:50:43 25

原创 c++中的虚函数问题

https://zhuanlan.zhihu.com/p/54145222

2023-10-11 16:46:53 30

原创 CRF简介

CRF条件随机场的原理、例子、公式推导和应用 - 知乎

2023-09-22 21:27:46 57

原创 faiss

faiss是向量数据库，可用于文本相似度匹配。

2023-09-17 21:07:58 75

原创 tokenizer简介

https://blog.csdn.net/SunJW_2017/article/details/121783956

2023-09-17 15:53:33 37

原创 09-Cross-Modal Representation

Kottur等人[30]还提出了一种神经模型来从视觉信息中捕获细粒度的语义。我们不关注真实的像素，而是考虑视觉背后的抽象场景。该模型以一对视觉场景和一个相关的单词序列（I，w）作为输入。在每个训练步骤中，在单词序列w上使用一个窗口，形成一个子序列Sw。Sw中的所有单词将使用单热编码输入到输入层，因此输入层的维度是|V |，这也是词汇表的大小。然后将单词转换为它们的嵌入，而隐藏层是所有这些嵌入的平均值。隐层的大小为NH，这也是单词嵌入的维数。

2023-09-07 09:55:49 82

原创 08-Network Representation

8 Network Representation网络表示学习的目的是将网络中的顶点嵌入到低维密集表示中，其中网络中相似的顶点应该具有“接近”表示（通常通过其表示的余弦相似度或欧氏距离来衡量）。这些表示法可以作为顶点的特征，并应用于许多网络研究任务。在本章中，我们将介绍过去十年来的网络表示学习算法。然后，我们将讨论它们在应用于各种现实世界的网络时的扩展。最后，我们将介绍一些常见的网络表示学习评估任务和相关数据集。作为一种表示对象及其关系的自然方式，该网络在我们的日常生活中无处不在。Facebook和推特等

2023-09-07 09:54:30 112

原创 07-World Knowledge Representation

7 World Knowledge Representation世界知识表示旨在在低维语义空间中表示知识图中的实体和关系，已广泛应用于大型知识驱动任务中。在本章中，我们首先介绍了知识图的概念。接下来，我们将介绍其动机，并概述了现有的知识图表示方法。此外，我们将讨论几种旨在处理知识图表示的当前挑战的高级方法。我们还回顾了知识图表示的现实世界中的应用，如语言建模、问题回答、信息检索和推荐系统。7.1 Introduction为了将知识编码到现实应用中，知识图表示表示分布式表示知识图中的实体和关系，并应用于

2023-09-07 09:53:50 81

原创 06-Sememe Knowledge Representation

6 Sememe Knowledge Representation语言知识图（例如，WordNet和HowNet）描述了形式语言和结构语言中的语言知识，它们可以很容易地融入到现代自然语言处理系统中。在本章中，我们将重点关注关于HowNet的研究。我们首先简要介绍了HowNet和半音素的背景和基本概念。接下来，我们介绍半素表示学习的动机和现有的方法。在本章的最后，我们回顾了半音素表示的重要应用。6.1 Introduction在自然语言处理（NLP）领域中，单词通常是最小的研究对象，因为它们被认为是人类

2023-09-07 09:53:07 94

原创 transform代码讲解

转载并翻译：http://nlp.seas.harvard.edu/2018/04/03/attention.html去年，中的变形金刚一直萦绕在很多人的脑海中。除了显着提高翻译质量之外，它还为许多其他 NLP 任务提供了新的架构。论文本身写得很清楚，但传统观点认为正确实施是相当困难的。在这篇文章中，我以逐行实现的形式展示了论文的“带注释”版本。我重新排序并删除了原始论文中的一些部分，并在全文中添加了评论。本文档本身是一个工作笔记本，并且应该是一个完全可用的实现。

2023-09-06 20:59:07 171

原创 transform

另一个完成这个任务的方法是留住概率最靠高的两个单词（例如I和a），那么在下一步里，跑模型两次：其中一次假设第一个位置输出是单词“I”，而另一次假设第一个位置输出是单词“me”，并且无论哪个版本产生更少的误差，都保留概率最高的两个翻译结果。第六步是对加权值向量求和（译注：自注意力的另一种解释就是在编码某个单词时，就是将所有单词的表示（值向量）进行加权求和，而权重是通过该词的表示（键向量）与被编码词表示（查询向量）的点积并通过softmax得到。而自注意力机制会将所有相关单词的理解融入到我们正在处理的单词中。

2023-09-06 20:58:30 42

原创 Bert-part3

Transformer是一种基于注意力的自然语言处理 (NLP) 架构，一年前在《AttentionIs All You Need》一文中介绍了这一架构。在这篇博文中，我们将深入研究解码器；BERT中未使用的Transformer 架构部分。我们将参考Encoder来解释完整的架构。注意：如果您只想了解 BERT 的工作原理，则本博文中描述的部分不相关。旨在解决的问题。信息流。解码器。

2023-09-06 20:56:09 30

原创 Bert-part2

什么是 BERT？BERT代表Transformers的双向编码器表示。_ 它基本上是一堆堆叠在一起的 Transformer 编码器（不是整个架构，而只是编码器）。双向性概念是BERT与其前身OpenAI GPT**之间的关键区别。**BERT是双向的，因为它的自注意力层在两个方向上执行自注意力。让我们看一个例子。假设我们的输入句子是“我喜欢从事 NLP 工作”。在OpenAI GPT中，“love”标记仅与“I”标记及其自身具有自注意力关系（仅向后）。在BERT中，同一个 token 会对。

2023-09-06 16:27:41 43

原创 Bert-part1

BERT中使用的编码器是一种基于注意力的自然语言处理（NLP）架构，一年前在**《Attention Is All You Need》论文中介绍了这一架构。论文介绍了一种称为Transformer 的架构，它由****Encoder和Decoder两部分组成。由于BERT仅使用编码器，因此我们仅在本博文中对此进行解释（如果您想了解解码器以及它如何与编码器**集成，我们就此撰写了单独的博文）。自今年早些时候发布ULMFiT以来，迁移学习已迅速成为 NLP 领域最先进成果的标准。此后，通过将。

2023-09-06 16:27:10 51

原创 05-Document Representation

主题建模算法是一种分析原始文本中的单词，以探索贯穿它们的主题，这些主题是如何连接的，以及它们是如何随时间变化的统计方法。我们可以放大一个令人感兴趣的主题，如外交政策，来揭示它的各个方面，如中国的外交政策、中东的冲突和美国与俄罗斯的关系。在本章中，我们引入了文档表示学习，它将整个文档的语义信息编码为实值表示向量，为利用文档信息进行下游任务提供了一种有效的方法，并显著提高了这些任务的性能。实际上，词袋表示主要用作特征生成的工具，而从该方法计算出的最常见的特征类型是文档中出现的词频。计算相似度得分进行排序。

2023-09-06 16:26:20 91

原创 04-Sentence Representation

句子是自然语言中的一个重要的语言单位。句子表示一直是自然语言处理的核心任务，因为在相关领域的许多重要应用在于理解句子，如摘要、机器翻译、情感分析和对话系统。句子表示的目的是将语义信息编码为实值表示向量，并将其用于进一步的句子分类或匹配任务。随着互联网上大规模的文本数据和深度神经网络的最新进展，研究人员倾向于使用神经网络（如卷积神经网络和递归神经网络）来学习低维句子表示，并在相关任务上取得很大的进展。在本章中，我们首先介绍了句子的单热表示和n-gram句子表示（即概率语言模型）。

2023-09-06 16:25:37 126

原创 03-Compositional Semantics

NLP领域中的许多重要应用都依赖于理解更复杂的语言单元，如短语、句子和单词之外的文档。因此，组合语义仍然是自然语言处理的核心任务。在本章中，我们首先介绍了二进制语义组合的各种模型，包括加性模型和乘法模型。在此之后，我们提出了各种典型的n元语义组成模型，包括递归神经网络、递归神经网络和卷积神经网络。pfuvRK其中，p对应于联合语义单位（u，v）的表示。需要注意的是，这里的u和v可以表示单词、短语、句子、段落，甚至是更高层次的语义单位。其中，K表示背景知识。其中，R。

2023-09-06 16:24:49 119

原创 02-扩展-word2vec

基于训练数据建模的过程，我们给它一个名字叫“Fake Task”，意味着建模并不是我们最终的目的。为了有效地进行计算，这种稀疏状态下不会进行矩阵乘法计算，可以看到矩阵的计算的结果实际上是矩阵对应的向量中值为1的索引，上面的例子中，左边向量中取值为1的对应维度为3（下标从0开始），那么计算结果就是矩阵的第3行（下标从0开始）—— [10, 12, 19]，这样模型中的隐层权重矩阵便成了一个”查找表“（lookup table），进行矩阵计算时，直接去查输入向量中取值为1的维度下对应的那些权重值。

2023-09-06 16:23:28 282

原创 02-扩展-ELMo原理解析及简单上手使用

首先，一个非常明显的缺点在特征抽取器选择方面，ELMo 使用了 LSTM 而不是新贵 Transformer，Transformer 是谷歌在 17 年做机器翻译任务的“Attention is all you need”的论文中提出的，引起了相当大的反响，很多研究已经证明了 Transformer 提取特征的能力是要远强于 LSTM 的。其中，假定数据集有 V 个单词， W′ 是V∗m 的矩阵， ℎk 是 m∗1 的列向量，于是最终结果是 V∗1 的归一化后向量，即从输入单词得到的针对每个单词的概率。

2023-09-06 16:22:04 170

空空如也

空空如也