N刻后告诉你-CSDN博客

原创 [学习笔记] An Introduction to Flow Matching and Diffusion Models

arxiv原文文章翻译本课程的目标是教你两种最广泛使用的生成式人工智能算法：去噪扩散模型和流匹配。所有这些生成模型通过迭代地将噪声转换为数据来生成对象。从噪声到数据的这种演变是通过模拟常微分或随机微分方程（ODE/SDE）来实现的。虽然这些讲义是自恰的，但我们鼓励您使用课程网站上的两个资源：讲座录音和实验。第一节：用于采样的生成建模第二节：流和扩散模型第三节：构建训练目标第四节：训练第五届：条件图像生成图像，视频，分子结构等各种需要生成的数据对象都可以被数学表示为一个向量(可能是展平之后)

2025-11-13 00:00:00 1665

原创 softplus的逆的数值稳定计算方法

根据Softplus的pytorch实现1，Softplus是ReLU函数2的近似，用于保证输出总是为正。

2025-04-10 16:50:38 1425

原创连不上服务器，超时

项目场景：工位电脑连接系里的服务器。问题描述今天用我的MacbookAir可以通过ssh连上系里的服务器，但是MacMini无法连上。用vscode的ssh连接，会显示ssh 建立连接:操作已超时。于是开始查找原因。原因分析：同时在MacbookAir和MacMini上的terminal上面敲命令sudo systemsetup -getremotelogin。可以查看是否开始SSH功能。发现我的MacMini其实并没有开启ssh服务。网上查到的指令是sudo systemsetup -

2024-09-23 19:46:19 1322

原创 [B站大学]Zotero7教程

参考资料: https://www.bilibili.com/video/BV1PSvUetEQX。

2024-09-04 16:48:31 9427 2

原创 [随便学学]在doker服务器中实现ssh免密登陆

最近登陆服务器，发现每次都需要输密码。所以想看看有没有一劳永逸的办法，能够不输密码。免密登陆。ssh（secure shell）是一种网络协议，用于在不安全的网络中建立安全的远程连接。ssh无密码登陆是通过公钥加密技术，实现在ssh连接中无需输入密码即可登陆远程服务器的方法。

2024-08-28 11:13:07 723 1

原创 [学习笔记]深度学习详解-Datawhale学习组

优化神经网络时，使用梯度下降法，遇到梯度为0的点，训练就停了下来，损失也不再下降。这个梯度为0的点，可以称为临界点。临界点可以细分为局部极小值局部极大值和鞍点。如下图，左侧是局部极小值，右侧是鞍点。鞍点的特点是，它在某些方向上是极小值，在某些方向上是极大值。形似马鞍面。

2024-08-25 15:50:15 1348

原创 VScode如何进行调试

"configurations"是一个数组，对应多个配置项(字典)。，缺点是程序没有配有调试器，因此不支持断点调试，即打了断点，通过这种方式运行，遇到断点仍会继续执行。"name"是给配置项起一个易于理解的名字，方便后面在调试时，通过下拉列表切换配置项。“request"指定的是调试模式，具体值只能是"launch"或者"attach”。“type"指定的是编程环境，如python对应type是"debugpy”。“name”，“type”，"request"是通用参数，任何编程语言都有。

2024-07-19 17:05:07 835

原创 [读论文]Transformers are SSMs

NotationTTT: Sequence length/ time length$$:摘要虽然transformer一直是深度学习在语言建模方面成功的主要架构，但状态空间模型(ssm)，如Mamba，最近被证明在中小规模上与transformer相匹配或优于transformer。这些模型族实际上是非常密切相关的，并在ssm和注意力变体之间发展了一个丰富的理论联系框架，通过对一类经过充分研究的结构化半可分矩阵的各种分解连接起来。状态空间对偶(SSD)框架使我们能够设计一个新的架构(Mamba-2)

2024-07-14 00:16:13 1625

原创 [读论文]Mamba4Rec: Towards Efficient Sequential Recommendation with Selective State Space Models

序列推荐旨在评估动态的用户偏好以及用户历史行为之间的序列依赖关系。尽管基于transformer的模型已被证明对序列推荐是有效的，但它们受到注意力算子的二次计算复杂性导致的推理效率低下的问题的困扰，特别是对于长程行为序列。受最近状态空间模型(ssm)成功的启发，本文提出Mamba4Rec，这是第一个探索选择性ssm高效序列推荐潜力的工作。基于基础的Mamba模块，即一个带有硬件感知并行算法的选择性SSM，我们结合了一系列序列建模技术，在保证推理效率的同时，进一步提升模型性能。

2024-07-11 17:43:43 2147

原创 Git常用命令汇总

Git常用命令

2024-06-21 01:30:00 514

原创 [学习笔记](b站视频)PyTorch深度学习快速入门教程（绝对通俗易懂！）【小土堆】

前面P1-P5属于环境安装，略过。

2024-06-02 22:06:40 1398

原创 [代码复现]Self-Attentive Sequential Recommendation

文中有疑问的地方用?表示了。可以通过ctrl+F搜索’?

2024-05-30 22:54:27 1608 1

原创 [学习笔记]知乎文章-PyTorch的Transformer

的tensor，注意数据类型是浮点类型。可以设置对角线偏移。

2024-05-30 22:53:33 568

原创 [操作系统]浅浅了解进程，线程

进程是资源分配单位，线程是CPU调度单位，”并行的最小单位“。

2024-05-27 17:02:15 837

原创 Python心得(待补充)

下列网站的知识涵盖度由浅到深，可以按照(暂定)顺序逐个进行检索，即先选择靠上的网站进行知识点检索。建议先使用help()，然后查阅下面的网站/文档，最后还搞不懂可以去翻一些个人博客资料。下面的网站可以帮助了解IDE和python快捷命令，用来提高效率。对于内容多的，可以当工具书检索使用。对于内容少的可以看一遍。

2024-05-27 11:14:12 430

原创 [读论文]精读Self-Attentive Sequential Recommendation

顺序动态是许多现代推荐系统的一个关键特征，这些系统试图根据用户最近执行的操作来捕获用户活动的“上下文”。马尔可夫链（MC）和递归神经网络（RNN）。马尔可夫链假设用户的下一个动作可以仅根据他们最后（或最后几个）动作来预测，而 RNN 原则上允许发现长期语义。一般来说，基于MC 的方法在极稀疏的数据集中表现最好，其中模型精简至关重要，而RNN 在更密集的数据集中表现更好，在这些数据集中，模型复杂性更高。

2024-05-25 17:03:36 1838

原创深度学习环境配置：(windows环境)WSL2-Ubuntu+(mac环境)

流程可参考：https://www.bilibili.com/video/BV1mX4y177dJ注意：中间可能需要使用命令更新一下wsl。

2024-05-15 16:19:11 1574

原创 [公开课学习]台大李宏毅-自注意力机制 & Transformer

存在一些问题，每个向量有一个输出结果，被称为不知道有多少输出结果，被称为seq2seq。

2024-05-08 21:29:03 1286

原创 [学习笔记]pytorch tutorial

使用预训练的ResNet 18 CNN，有18层深(CNN的层数一般就是指具有权重/参数的层数总和)，可以进行1000分类。会创建一个简单的flask应用，带有rest api，并且以json数据作为返回。实现激活函数：nn.xxx, torch.xxx, F.xxx。成更高维度的tensor，其拓展的维度由。3.如何保存和加载Checkpoint。4.在GPU/CPU上保存/加载。pytorch会进行数字数字分类。是将相同大小的tensor。2.只需要保存参数(推荐)衡量分类模型的表现。

2024-04-03 15:58:56 1119 2

原创 [学习笔记]CNN代码实战

1.2.

2024-03-23 18:00:00 478

原创 [学习笔记]刘知远团队大模型技术与交叉应用L6-基于大模型文本理解和生成介绍

IR系统分为两个阶段：Retrieval阶段：对整个文档库排序后，抽回一部分相关文档的子集。主要考虑召回率。Re-Rankink阶段：精排序主要的机器问答类型：机器阅读理解、开放域问答、基于知识库问答、对话式QA完形填空多选抽取式阅读理解(原文找答案)data-to-text: 可以把一些非语言性的表示的信息，通过模型，以人类可以理解的语言表示出来。例子：seq2seq比较知名的模型：T5T5是在一个被清洗过的爬取的数据集上训练的。输入时，会将其中一部分mask，在训练和模型策略上。

2024-02-02 15:05:35 899

原创 [学习笔记]刘知远团队大模型技术与交叉应用L5-BMSystem

表现：高效，便宜使用时只需要进行简单替换。介绍大规模预训练模型压缩的相关技术。以及相关工具包BMCook。下表是PLMs模型增长的趋势。如何将大规模的计算量降下来，同时保留PLMs学习到的能力。所以希望将大规模模型压缩。同时小模型基本上继承大模型的能力。有效的方法可能包括：知识蒸馏；模型剪枝；模型量化；模型的专家化现在的PLMs是十分过参数化的。有一些方法被用于提高模型效率。BMCook是一个工具包。它的目的是结合已有的有效的模型压缩方法，加速现有大规模模型。

2024-01-28 21:56:45 1191

原创 [学习笔记]刘知远团队大模型技术与交叉应用L4-Prompt-learning & Delta-learning

预训练和fine-tuning有一定的gap。毕竟是不同的任务。通过额外增加模版。映射到标签的过程称为verbalizer。这样就使用了mask任务。弥补了不同之间的gap。

2024-01-21 22:47:30 1021

原创 [学习笔记]刘知远团队大模型技术与交叉应用L3-Transformer_and_PLMs

BPE提出主要是为了解决OOV的问题：会出现一些在词表中没有出现过的词。

2024-01-21 22:47:08 738

原创 [学习笔记]刘知远团队大模型技术与交叉应用-汇总

视频：【清华NLP】刘知远团队大模型公开课全网首发｜带你从入门到实战[学习笔记]刘知远团队大模型技术与交叉应用L1-NLP&Big Model Basics[学习笔记]刘知远团队大模型技术与交叉应用L2-Neural Network Basics

2024-01-14 21:08:55 1107

原创 [学习笔记]刘知远团队大模型技术与交叉应用L2-Neural Network Basics

本节首先介绍神经网络的一些基本构成部分。然后简要介绍神经网络的训练方式。介绍一种基于神经网络的形成词汇的向量表示的方法。接下来继续介绍常见的神经网络结构：RNN和CNN。最后使用PyTorch演示一个NLP任务的一个完整训练的Pipeline。

2024-01-14 21:08:22 1236

原创 [学习笔记]刘知远团队大模型技术与交叉应用L1-NLP&Big Model Basics

相关知识，如Linux命令，Git命令等，需要自己了解。

2024-01-14 21:06:45 1821

原创 [学习笔记]PageRank算法

对于Column Stochastic矩阵，由Perreon-Frobenius定理，最大的特征值就是1，且存在唯一的主特征向量(特征值1对应的特征向量)，向量所有元素求和为1。random walks with restarts：随机游走，并有传送到指定的一个节点，继续游走。pagerank的一种解释是：随机游走，并有概率随机传送到网络中的任意一个节点，继续游走。所以考虑一个网站是否重要，需要看引用它的网站是否重要，这就成了一个递归的问题。的节点的rank值，各自除以它的出度，再求和。

2023-09-11 17:46:22 1404 1

原创 [学习笔记]Node2Vec图神经网络论文精读

参考资料：https://www.bilibili.com/video/BV1BS4y1E7tf/?

2023-09-10 12:13:01 758

原创 [学习笔记]词向量模型-Word2vec

skip-gram只有一组完整的中心词向量，没法像之前一样将中心词向量和周围词向量相加求平均。与skip-gram的层次softmax的区别是u0是上下文词向量avg。开n次方根是为了避免长句子的概率比小句子概率小，导致评价偏颇。重要的词往往出现的频率比较小，不重要的词往往出现的频率比较高。语言模型是计算一个句子是句子的概率的模型。下面的skip-gram和cbow也都是Log线性模型。不同模型的E和T认为一样，所以下面用Q来代表模型复杂度。简单，但词越多，向量越长。语言模型是无监督的，不需要标注语料。

2023-09-10 10:16:23 603

学习笔记(b站视频)PyTorch深度学习快速入门教程（绝对通俗易懂！）小土堆

学习笔记CNN实战代码

Advances in Natural Language Processing

空空如也