非文的NLP修炼笔记-CSDN博客

原创 ERROR: Cannot install salesforce-lavis==1.0.0 and salesforce-lavis==1.0.2 versions conflicting解决方案

成功安装lavis！

2024-07-31 10:09:05 435

原创联邦学习的安全机制

虽然在联邦学习的过程中，我们是通过模型参数的交互来进行训练的，而不是交换原始数据，但当前越来越多的研究都表明，即使只有模型的参数或者梯度，也能反向破解原始的输入数据。按照数据收集方式的不同，当前的差分隐私可以分为中心化差分隐私和本地化差分隐私，它们的区别主要在于差分隐私对数据处理的阶段不同。作为一种不需要将密文解密就可以处理密文的方法，同态加密是目前联邦学习系统里最常用的隐私保护机制，例如横向联邦学习里基于同态加密的安全聚合方法、基于同态加密的纵向联邦学习、基于同态加密的联邦迁移学习。

2023-02-01 09:33:33 1629 1

原创联邦学习的应用前景

这样，我们就可以得到一个足够大的数据集来训练一个模型，该模型的性能比在单一医疗机构的数据上训练得到的模型要好得多。然后，我们可以使用基于联邦学习的方法构建一个综合模型，来对各种AIS的知识图谱进行整合，从而可以将课程知识、学习者模型和数据从一个AIS扩展至另一个。联邦学习和迁移学习是解决这些问题的关键。城市计算被定义为一种获取、整合和分析由城市中不同信息源，例如传感器、设备、车辆、建筑和人类等，产生的大量异构数据的过程，以缓解当前城市面临的主要问题，如空气污染、能源消耗增加和交通拥堵等。

2023-01-31 21:25:34 1233

原创联邦学习概述

另一方面，数据直接与企业收益相关，比如各金融机构有用户的历史逾期数据，一个有效的对逾期客户的识别模型，能够大大降低金融机构的贷款风险，减少潜在的经济损失。这一交换不会暴露本地的用户数据，降低了数据泄露的风险。但由于相互之间的竞争，各方的数据很难进行共享，导致数据呈现出割裂的状态，影响了极度依赖数据的人工智能的发展。由于前述各方面原因，使得我们过去使用的大数据正面临着严重的数据割裂问题，并呈现出“数据孤岛”的现状，导致在进行人工智能模型训练时无法有效利用各参与方的数据，阻碍了算法模型的效果提升。

2023-01-31 21:18:56 539

原创联邦强化学习

智能体根据当前环境条件选择动作决策，环境在智能体决策的影响下发生相应改变，智能体可以根据自身的决策、环境的改变过程得出奖励。分布式强化学习在实现过程中存在许多技术和非技术的问题，其中最关键的问题是如何防止信息泄露，并在分布式强化学习过程中保护智能体的隐私安全。在传统强化学习方法中，从已学习过的任务中，将经验、知识、参数或梯度迁移到新任务中是目前研究的前沿。由于联邦学习在强化学习领域引入了新的约束，因此借用传统强化学习方法或深度学习方法，探索新的强化学习机制形成了一个有意义但极具挑战的研究方向。

2023-01-31 10:24:48 891

原创联邦学习与计算机视觉、自然语言处理及推荐系统

挑战总是伴随着机遇，除了推动英伟达、苹果、华为和小米等移动设备制造商去开发专门用于DNN训练的硬件，在智能设备应用上不断提高的需求也会促进如参数修剪、低秩分解、知识蒸馏等模型压缩技术的发展，从而节省计算资源和通信代价。不同于其他可以有效地从分布式和异构的数据中（如图像、声音信号、其他数值数据）学习模式的智能算法，对于联邦学习，还应定制先进的通信协议，以支持各种设备之间的实时交互，也需要高效的安全协议以保证司机和乘客的个人数据的隐私和安全。在真实的场景中，用户的自然语言数据是敏感的，可能包含隐私内容。

2023-01-31 09:17:46 984

原创联邦学习激励机制的挑战与展望

然而，通过参与联邦学习，这种类型的市场领导者可能会无意地帮助到它地竞争者们，因为联邦学习模型将会在所有参与方间共享，从而会给市场领导者们招致潜在的巨大机会成本。为了维持数据联邦的长期稳定，并且在以后逐渐吸引更多高质量的参与方加入，需要一种强调公平性，并且适合联邦学习环境的激励机制。在这之后，由于现实中的联邦学习商业模型必须在产生利润之前就被建立起来，我们进一步提出了一种能够公平地考虑到激励参与方优先顺序的框架结构，它为人们提供了一种可调节的联邦学习激励机制，可以轻易地调整各种影响因素地权重。

2023-01-30 22:30:14 446

原创联邦迁移学习的挑战与展望

为了解决这些问题，联邦学习可以结合迁移学习技术，使其可以应用于更广的业务范围，同时可以帮助只有少量数据（较少重叠的样本和特征）和弱监督（较少标记）的应用建立有效且精确的机器学习模型，并且遵守数据隐私和安全条例的规定。我们需要确定如何在保证所有参与方的共享表征的隐私安全的前提下，在分布式环境中学习迁移知识表征的方法。在联邦学习框架中，迁移知识表征不仅是以分布式的方式学习得到的，还通常不允许暴露给任何参与方。基于执行迁移学习的方法，迁移学习主要分为三类：基于实例的迁移、基于特征的迁移和基于模型的迁移。

2023-01-30 20:31:39 880

原创纵向联邦学习的挑战与展望

之前的研究工作已经证明，只有具备针对性的安全工具，才能让不同的计算种类达到最优效果，例如混淆电路可以高效地进行比较计算，而秘密共享和同态加密可以提供高效的算术运算。此外，高效的基于隐私保护的实体对齐技术也是一个值得探索的方向，因为它是纵向联邦学习中必不可少的一环。出于不同的商业目的，不同组织拥有的数据集通常具有不同的特征空间，但这些组织可能共享一个巨大的用户群体。我们把在数据集上具有相同的样本空间、不同的特征空间的参与方所组成的联邦学习归类为纵向联邦学习，也可以理解为按特征划分的联邦学习。

2023-01-30 15:51:14 307

原创横向联邦学习的挑战与展望

在这里，超参数可能包括DNN的层数，DNN的每一层中节点的个数、卷积神经网络（CNN）的结构、循环神经网络（RNN）的结构、DNN的输出层及激活函数等。因此，我们需要更灵活的解决方案来移除掉线的参与方并加入新的参与方，并且不能影响到联邦模型训练过程和模型精度，尤其不能影响模型训练的收敛速度。通过加入横向联邦学习，其他的竞争者可能会从这类大公司的数据中受益，使得这些大公司丧失市场的主导地位。例如，一个参与方可能欺骗性地宣称自己能够给模型贡献训练的数据点的数量，并谎报训练模型的测试结果，以此获得更多的益处。

2023-01-28 17:26:49 229

原创写有用的东西，不要灌水

大家互相帮助，才能共同成长和进步

2022-12-06 22:49:18 260

原创《深度学习进阶：自然语言处理》读书笔记：第7章基于RNN生成文本

因为语言模型并不是背诵了训练数据，而是学习了训练数据中单词的排列模式。如果语言模型通过语料库正确学习了单词的出现模式，我们就可以期待该语言模型生成的文本对人类而言是自然的、有意义的。这个世界充满了时序数据。文本数据、音频数据和视频数据都是时序数据。另外，还存在许多需要将一种时序数据转换为另一种时序数据的任务，比如机器翻译、语音识别等。其他的还有进行对话的聊天机器人应用、将源代码转为机器语言的编译器等。像这样，世界上存在许多输入输出均为时序数据的任务。编码就是将任意长度的文本转换为一个固定长度的向量。

2022-12-06 21:42:28 387

原创 DLG4NLP

动态图的优点是比较简便，不需要额外的领域知识直接让机器去学习最优的图结构，其图结构和图表征的学习过程可以相互促进。首先是Dependency Graph，该图结构依赖于dependency parsing，可以用来捕捉句子的句法信息，它更注重两个词之间的句法关系，所以该图结构是一个比较简洁的构图表示。相对Dependency Graph，Constituency Graph展现的是句子的句法信息，更注重整个句子的结构，而不是局限于句子中两个词之间的句法关系。根据不同的信息或者文本，静态图可以进一步细分。

2022-09-02 10:19:57 432

原创《深度学习进阶：自然语言处理》读书笔记：第8章 Attention

然后，我们使用Attention实现了seq2seq，并通过简单的实验，确认了Attention的出色效果。Self-Attention直译为“自己对自己的Attention”，也就是说，这是以一个时序数据为对象的Attention，旨在观察一个时序数据中每个元素与其他元素的关系。这样一来，即使加深了层，梯度也能正常传播，而不会发生梯度消失（或者梯度爆炸），学习可以顺利进行。具体来说，就是从“基于规则的翻译”到“基于用例的翻译”，再到“基于统计的翻译”。现在，神经机器翻译取代了过往的计数，获得了广泛关注。.

2022-08-29 14:43:20 480

原创《深度学习进阶：自然语言处理》读书笔记：第6章 Gated RNN

不幸的是，随着时间的回溯，这个简单RNN未能避免梯度变小（梯度消失）或者梯度变大（梯度爆炸）的命运。而LSTM的反向传播进行的不是矩阵乘积计算，而是对应元素的乘积计算，而且每次都会基于不同的门值进行对应元素的乘积计算。本章的主题是Gated RNN，我们指出了上一章的简单RNN中存在的梯度消失（或梯度爆炸）问题，说明了作为替代层的Gated RNN（具体指LSTM和GRU等）的有效性。我们想要的是一个泛化能力强的模型，因此必须基于训练数据和验证数据的评价差异，判断是否发生了过拟合，并据此来进行模型的设计。.

2022-08-25 23:49:55 488

原创《深度学习进阶：自然语言处理》读书笔记：第4章 word2vec的高速化

过去，将基于计数的方法获得的单词向量称为distributional representation，将使用神经网络的基于推理的方法获得的单词向量称为distributed representation。然后，将这些数据（正例和采样出来的负例）的损失加起来，将其结果作为最终的损失。4.基于word2vec获得的单词的分布式表示内嵌了单词含义，在相似的上下文中使用的单词在单词向量空间上处于相近的位置；6.word2vec的迁移学习能力非常重要，它的单词的分布式表示可以应用于各种各样的自然语言处理任务。

2022-08-25 15:10:25 368

原创《Photoshop 2020从入门到精通》读书笔记1

RGB通道属于复合通道，显示整个图像的全通道效果，其他3个颜色通道则控制着各自颜色在画面种显示的多少。CMYK颜色模式的图像有CMYK、青色、洋红、黄色、黑色5个通道，而索引颜色模式的图像只有一个通道。计算机图像是用红、绿、蓝3种基色的相互混合来表现所有色彩，由红、绿、蓝混合而成的图像就是通常我们所称的RGB颜色模式图像。颜色通道：用来记录图像颜色信息。不同颜色模式的图像显示的颜色通道个数不同，例如，RGB图像显示红通道、绿通道和蓝通道3个颜色通道，而CMYK则显示青色、洋红、黄色、黑色4个通道。

2022-08-25 13:23:21 934

原创《深度学习进阶：自然语言处理》读书笔记：第3章 word2vec

用向量表示单词的研究最近正在如火如荼地展开，其中比较成功的方法大致可以分为两种：一种是基于计数的方法；另一种是基于推理的方法。虽然两者在获得单词含义的方法上差别很大，但是两者的背景都是分布式假设。

2022-08-23 15:06:57 269

原创《深度学习入门：基于Python的理论和实现》再读笔记4

根据这个递归结构，神经网络会受到之前生成的信息的影响（换句话说，会记忆过去的信息），这是RNN的特征。然后，再受到前面生成的“我要”的影响，生成了“睡觉”这个词。实践中经常会灵活应用使用ImageNet这个巨大的数据集学习到的权重数据，这称为迁移学习，将学习完的权重（的一部分）复制到其他神经网络，进行再学习。也就是说，通过加深层，可以将各层要学习的问题分解成容易解决的简单问题，从而可以进行高效的学习。说得详细一点，就是与没有加深层的网络相比，加深了层的网络可以用更少的参数达到同等水平（或者更强）的表现力。

2022-08-21 11:27:40 325

原创《深度学习入门：基于Python的理论与实现》再度笔记3

神经网络中进行的处理有推理和学习两个阶段。神经网络的推理通常不使用Softmax层。当神经网络的推理只需要给出一个答案的情况下，因为此时只对得分最大值感兴趣，所以不需要Softmax层。不过，神经网络的学习阶段则需要Softmax层。神经网络学习的全貌图前提神经网络中有合适的权重和偏置，调整权重和偏置以便拟合训练数据的过程称为学习。神经网络的学习分为下面4个步骤。从训练数据中随机选择一部分数据2.计算梯度计算损失函数关于各个权重参数的梯度。3.更新参数将权重参数沿梯度方向进行微小的更新。

2022-08-21 08:46:33 575

原创《深度学习入门：基于Python的理论与实现》再读笔记（2）

此时，对该权重参数的损失函数求导，表示的是“如果稍微改变这个权重参数的值，损失函数的值会如何变化”。并且，“使性能的恶劣程度达到最小”和“使性能的优良程度达到最大”是等价的，不管是用“恶劣程度”还是“优良程度”，做的事情本质上都是一样的。作为激活函数的阶跃函数也有相同的情况。因此，在寻找函数的最小值（或者尽可能小的值）的位置的任务中，要以梯度的信息为线索，决定前进的方向。神经网络的学习中“学习”是指从训练数据中自动获取最优权重参数的过程，学习的目的就是以损失函数为基准，找出能使它的值达到最小的权重参数。..

2022-08-18 09:42:18 157

原创《深度学习入门：基于Python的理论与实现》再读笔记（1）

和数组的算术运算一样，矩阵的算术运算也可以在相同形状的矩阵间以对应元素的方式进行。并且，也可以通过标量（单一数值）对矩阵进行算术运算，这也是基于广播的功能。数学上将一维数组称为向量，将二维数组称为矩阵。另外，可以将一般化之后的向量或矩阵等统称为张量。Python等动态类型语言一般比C和C++等静态型语言（编译型语言）运算速度慢。实际上，如果是运算量大的处理对象，用C/C++写程序更好。为此，当Python中追求性能时，人们会用C/C++来实现处理的内容。......

2022-08-17 11:07:09 532

原创《深度学习进阶：自然语言处理》读书笔记：第2章自然语言和单词的分布式表示

通过对所有单词创建近义词集合，并用图表示各个单词的关系，可以定义单词之间的联系。利用这个“单词网络”，可以教会计算机单词之间的相关性。也就是说，我们可以将单词含义（间接地）教给计算机，然后利用这一知识，就能让计算机做一些对我们有用的事情。......

2022-08-15 14:57:38 472

原创《自然语言处理实战：利用Python理解、分析和生成文本》读书笔记：第4章词频背后的语义

TF-IDF向量会对文档中词项的准确拼写形式进行计数。因此，如果表达相同含义的文本使用词的不同拼写形式或使用不同的词，将会得到完全不同的TF-IDF向量表示。这会使依赖词条计数的搜索引擎和文档相似性的比较变得乱七八糟。...

2022-08-13 15:07:53 572

原创《自然语言处理实战：利用Python理解、分析和生成文本》读书笔记：第3章词中的数学

TF-IDF是流水线中的第一个阶段，是从文本中提取的最基本的特征集。

2022-08-11 22:19:20 487

原创《自然语言处理实战：利用Python理解、分析和生成文本》读书笔记：第2章构建自己的词汇表——分词

本章实现了分词功能，并且可以为应用定制分词器。

2022-08-11 08:50:35 909

原创《自然语言处理实战：利用Python理解、分析和生成文本》读书笔记：第1章 NLP概述

好的NLP可以帮助拯救世界

2022-08-09 16:52:06 1146

原创《自然语言处理简明教程》读书笔记：第十四章文本数据挖掘

自然语言的文本中蕴藏着大量丰富的信息，但是，自然语言却对这些信息进行了编码，把这些信息隐藏在文本当中，使它们成了一种难以解释的形式。可能正是因为这样的原因，在过去的自然语言处理中，很少有人去研究如何从文本中挖掘那些隐藏着的信息，大多数人要么是使用信息抽取的方法从数据中抽取信息，要么就是使用信息检索的方法直接从文本中检索信息。”文本数据挖掘“（Text Data Mining，简称TDM）目的在于从大规模真实文本的数据中发现或推出那些隐藏在文本中的信息，或者找出文本数据集合的模型，或者预测文本数据中所隐含的趋

2022-06-07 15:36:10 2820 1

空空如也

空空如也