eryihahaha-CSDN博客

转载推荐系统的特征工程

首先我们对数据的统计值做一个排序，从小到大或从大到小都可以，得到数据的Rank值，然后将Rank值缩放到(-1,1)区间，最后调用erfinv逆误差函数，就可以将变换后的Rank值分布调整为高斯分布。的特征变换，这是因为深度模型一次只能接受一个小批次的样本，无法建模到全局的统计聚合信息，而这些信息通常是十分重要的。，而不是对整个数据集，并且最好采用叶子类目，即最细一层的类目，但如果叶子类目的商品种类太少，回溯一层也是可以的。推荐场景下，用户的统计特征需要先按照用户分组后再做分箱，不建议全局做分箱。

2022-09-07 15:07:38 242 1

原创扩散模型学习--基于苏神博客

拆分，添加了随机噪声，对下一时刻的x与噪声增加了系数，这样可以保证每一步都对。接下来我们对损失函数进行一下简化，减少采样的变量，增加训练稳定性。这样损失函数就建立完毕了，我们只需要输入如下特征就可以进行训练。训练好模型后通过迭代就可以从随机噪声生成对应的模型了。跟t时刻的残差并不是独立的，我们往回退一步。DDPM首先将一个原始的图像。就又噪声主导了，ok拆楼完成。, 这里采用了预测残差的方式。可以表示为如下形式，由于。...

2022-08-29 11:50:33 766

转载 empirical distribution

For example, the heights of humans will fit the normal (Gaussian) probability distribution.This is not always the case. Sometimes the observations in a collected data sample do not fit any known probability distribution and cannot be easily forced into an

2022-02-10 19:36:09 375

原创 AI技术周总结 1 by Jeryi

Hugging Face ML appsHugging Face 最近做了一个space功能，存放了各种ML 应用，可以去试玩或者部署自己的应用，具体如何部署后期试试再写，目前就体验了一下，感觉很可以的。链接：https://huggingface.co/spacesPatches are all you need？CV中一篇新工作，去掉transformer结构，采样简单的Patches以及Conv 结合得到了很不错的效果optimal algorithm lecture一套关于凸优化的白

2022-02-02 19:34:48 1174

转载 MCMC~

蒙特卡洛采样方法1. cdf采样根据pdf求积分得到cdf，之后在y（0-1）直接均匀分布取值即可采样出x对于大部分分布来说，无法求出cdf2. adjection sampling在可行域中就接受，否则不接受3.重要性采样重新构造一个分布q（x）,在q(x)上进行采样（cdf等），同时增加一个权重来纠偏，如果真实p大，q小了那就权重放大，否则权重放下。马尔可夫链MCMCMH从第一个值出发，Q是随机矩阵，α\alphaα为接受率，如果接受那么就取新采样出的样本，否则还是采样本样本。

2022-01-29 14:44:24 323

原创变分推断~

文章目录数据X与模型Z的关系基于平均场的变分推断基于梯度的变分推断重参数化数据X与模型Z的关系从模型到数据就是生成模型，其作用是去预估生成数据的分布从数据到模型是推断模型，其作用是根据数据去得到因变量基于平均场的变分推断基于平均场将隐变量z分为若干个独立的团，这样求起来还是需要积分，其思想类似于坐标上升。基于梯度的变分推断这里补充一点，对于变分推断来说，基于的公式也是ELBO与KL散度，总体来说就是让q(z)q(z)q(z)去近似估计p(z∣x)p(z|x)p(z∣x)这个后验。我们

2022-01-28 15:58:23 1189 1

转载高斯混合模型

高斯混合模型简介高斯混合模型从本质上来看就是多个高斯模型的加权平均，权重是隐变量z的概率分布正是因为这个连加操作使得混合高斯模型的参数估计不能通过MLE直接得到闭式解，可以采用基于梯度的近似估计，但是EM算法更加优美，也更加适合使用EM算法求解GMM将EM中优化的公式进行带入，可以得到一个可以求得闭式解的形式，E步中假定θt+1\theta^{t+1}θt+1固定，之后求解得pt+1p^{t+1}pt+1, 之后去求θt+2\theta^{t+2}θt+2,之后更新p…就可以通过迭代

2022-01-27 14:17:57 169

转载 EM算法~

EM算法背景EM公式可以证明，logP（x∣θt+1）>=logP(x∣θt)logP（x|\theta^{t+1}）>= logP(x|\theta^{t})logP（x∣θt+1）>=logP(x∣θt)EM算法推导logP(x∣θ)=ELBO+KL(p∣∣q)logP(x|\theta) = ELBO + KL(p||q)logP(x∣θ)=ELBO+KL(p∣∣q)KL>=0 我们只需要最大化ELBO即可，先假定一个θ\thetaθ, 带入得到posterior，

2022-01-27 12:05:38 59

原创概率图模型~

背景介绍主要是对高维随机变量，重点是条件独立性贝叶斯网络（有向图）

2022-01-25 22:09:19 1698

转载熵在均匀分布下值最大的证明

带约束的极大化问题，使用拉格朗日乘子法将约束带入，之后求导即可

2022-01-24 12:20:22 1046

原创线性分类~

文章目录模型总览感知机算法线性判别分析逻辑回归模型总览（感知机居然是硬输出 QaQ）感知机算法是有一个sign，所以直接转化成硬分类了最终就是一个sgd优化的错误分类，使其减小线性判别分析投影到一个向量上，实现类内小，类间大，这个等价于求感知机的法线，不够更加严格一点，约束比较紧逻辑回归最终MLE其实就是一个-cross_entropy...

2022-01-23 11:37:02 609

原创线性回归~

引入正则化（岭回归）的原因数学层面不可逆现实层面过拟合解决过拟合的方案：a. 加数据 b.特征选择（选一些重要特征） c. 特征降维 d.正则化岭回归半正定（矩阵与矩阵转置相乘一定半正定） + λ\lambdaλI = 正定（可逆）直观上可以使得W稀疏，从而防止过拟合总结关系...

2022-01-22 15:29:16 363

原创高斯分布~

为什么MLE估计服从高斯分布的数据分布方差会估小？因为MLE求方差是根据数据的均值，并不是分布的期望，因为会根据采样的偏差将均值拉到符合数据的地方，从而算出来的方差会变小。从几何层面看高维高斯分布主要看exp上的值，可以将Σ\SigmaΣ进行特征值分解，之后带入计算，每个x可以得到一个椭圆公式（对于二维来说），进而组成钟形函数...

2022-01-21 21:49:05 654 1

原创 SVM系列

文章目录1. SVM 思想转化为数学表达soft margin svm拉格朗日函数与对偶性1. SVM 思想转化为数学表达首先这是一个凸优化问题，因为WTWW^{T} WWTW 是二次的，正定，约束条件是一个线性变化。为了方便求解，我们使用拉格朗日乘子法将式化为无约束情况使用强对偶关系就行一波转化，方便先求W b无约束求最小值，直接求导，先求b偏导，代入，再求W偏导，带入求解min时得出一个约束，加入其中最终可以得到一个与W b无关的λ\lambdaλ 优化问题，从而求解出λ\lambdaλ

2022-01-20 17:25:21 198

转载多任务学习漫谈（一）：以损失之名 by 苏剑林

文章目录多任务损失函数一般形式初始状态先验状态动态调节实时状态理想状态多任务损失函数一般形式如何确定αi\alpha_{i}αi至关重要初始状态去除量纲如果我们将每个损失函数看成具有不同量纲的物理量，那么从“无量纲化”的思想出发，我们可以用损失函数的初始值倒数作为权重，即如何得到Li(init)\mathcal{L}_i^{(\text{init})}Li(init) ,可以考虑使用一个batch计算一下，或者根据分析得出经验初始值，比如，在主流的初始化之下，我们可以认为初始模型（加激活

2022-01-18 21:03:10 344

原创 MMD总结

今天偶尔学了一下MMD， mark一下源头中文讲解不错的核方法Kernel Distribution Embedding我的理解是为了衡量两个分布在各方面的是否相似，这里使用了核函数将分布映射到无穷维度，并且使用了kernel mean embedding以及RSKH空间中内积的性质，将sup去掉转化成了期望的无偏估计的模，最后因为是无穷维度的映射所以使用了核技巧没有显式构建映射函数，而是使用了核函数进行求解，具体核函数的选择对于分布的度量的有效性有很大影响。...

2022-01-14 16:09:27 768

原创苏神文章总结栏

浅谈Transformer的初始化、参数化与标准化如果不除d\sqrt{d}d的话方差过大，会导致softmax之后接近于one hot，最终导致梯度消失针对多次提到的norm 问题，post norm与pre norm都一般，作者提出使用参数化训练，初始化为0，之后慢慢增加...

2021-12-21 22:50:26 185

原创 Mixup Cutup 与mutilabel muticlass

文章目录前言一、Mixup Cutup二、Loss function选择前言今天看paper Resnet的最新训练结果，发现了Mixup Cutup，其中使用了BCE 作为损失函数/font>一、Mixup CutupCV里数据增加的一种方案，可以让一个数据拥有多个标签，妥妥的mutilabel problem参考：如下博客Multiclass classification 就是多分类问题，比如年龄预测中把人分为小孩，年轻人，青年人和老年人这四个类别。Multiclass class.

2021-10-05 17:30:09 293

原创 CrossEntropyLoss改进

文章目录前言一、CrossEntropyLoss二、SmoothCrossEntropy三、Sparse Softmax前言CrossEntropyLoss 是分类任务中经常使用的损失函数，但是在某些情况下，其优化效果并不是很好，本文介绍了最近出现的对CrossEntropyLoss进行改进的新损失函数一、CrossEntropyLoss公式：上图是pytorch版实现的CrossEntropyLoss，可以看出其主要作用是优化了正例对应的logits（logits介绍见上一篇博文）并使其无.

2021-10-03 14:23:19 3253 1

原创深度学习中的logits是什么含义？

logits在深度学习中表示模型最后一层的数据，也就是raw data，之后可以接softmax或者sigmod进行缩放logits的范围为 [−∞- \infty−∞，+∞+ \infty+∞]

2021-10-03 13:48:34 2422

原创 debug 记录

文章目录1. TypeError: Object of type 'int64' is not JSON serializable1. TypeError: Object of type ‘int64’ is not JSON serializableint64是numpy数据类型，json无法序列化，使用 .item()可以将int64转化为int类型

2021-09-25 14:18:04 82

原创实用工具总结

文章目录pyinstrumentpyinstrumentPython 性能分析工具 pyinstrument ，可以快速找到代码运行最慢的部分链接地址

2021-09-13 14:25:09 70

原创概率论复习

第一章：互斥不等于独立独立的圈圈图A B也有∩ “互斥不独立，独立不互斥”是在事件 [公式] 与事件 [公式] 发生的概率都不为0的情况下才有的结论0概率事件 1概率事件与任何事件独立不可能事件与任何事件独立且互斥“在期望存在的情况下，独立必不相关，不相关不一定独立”不相关的随机变量间不存在线性关系。相互独立的随机变量间不存在任何关系。没有线性关系，可以有别的关系，因而不相关不一定独立。第二章离散分布二项分布泊松定理λ=npn在n↦∞\lambda

2021-08-26 12:07:00 502

原创华为推荐系统赛道三

样本分布不均衡focal loss:loss采样上:sampler模型上：ESMMDeepCTR

2021-08-19 17:10:37 124

原创总结深度学习coding

1. torch.masked_select>>> x = torch.randn(3, 4)>>> xtensor([[ 0.3552, -2.3825, -0.8297, 0.3477], [-1.2035, 1.2252, 0.5002, 0.6248], [ 0.1307, -2.0608, 0.1244, 2.0139]])>>> mask = x.ge(0.5)>>> m

2021-08-18 13:49:40 445

原创本地与服务器端口转化方案

文章目录FastAPIFastAPI最近使用FastAPI写接口，需要转服务器在本地调试先在服务器起一个FastAPIuvicorn main:app --reload之后在本地:ssh -L 本地端口:127.0.0.1:服务器端口 zhongxiang_sun@183.174.228.109 -p 5102 ...

2021-08-17 14:05:13 357

原创 NLP 学习记录

系列文章目录文章目录系列文章目录前言weight_decaywarm up前言最近在做一些NLP可解释性的研究，也算是正经的NLP入门项目了，有很多新的知识点在本文中记录一下。weight_decay损失函数中，weight decay是放在正则项（regularization）前面的一个系数，正则项一般指示模型的复杂度，所以weight decay的作用是调节模型复杂度对损失函数的影响，若weight decay很大，则复杂的模型损失函数的值也就大对于bias或者LayerNorm.

2021-08-03 12:21:07 610

原创 linux 配置常用操作总结

1. anaconda 安装wget https://repo.continuum.io/archive/Anaconda3-5.2.0-Linux-x86_64.shchmod +x Anaconda3-5.2.0-Linux-x86_64.sh./Anaconda3-5.2.0-Linux-x86_64.sh

2021-07-22 15:35:29 38

原创优质 Idea 分享

1. Chinese bert融合字形与拼音信息的中文预训练模型2. autoformer对时间序列的升级改造

2021-07-10 20:40:53 132 1

原创 ACwing 刷题冲冲冲！

数据结构AcWing 826. 单链表数据结构：用数组构造邻接表存储链表int h[N], e[N], ne[N], head, idx;h[N]: 对于图这类有多个头节点的（每个节点都是一个）来存储头节点head：用于单链表e[N]: 存储value用ne[N]: 存储链表中下一个节点的idxidx按照插入顺序计数的一个传递下标main code analysis:这里使用的h[N] 是用来存储图，树这类有多个头节点的链表结构的，本题为单链表，因而定义一个head即可。初始化

2021-06-27 11:28:38 58

原创机器学习论文里难以理解的名词解释

Prior Domain KnowledgePrior Domain Knowledge： The prior domain knowledge is all of the auxiliary information about the learning task that. can be used to guide the learning process, and the information comes from either some. other discovery processes or

2021-05-23 15:43:44 122

原创 EM算法

前提： EM算法需要两个东西，其解决方法就是先随机初始化θA\theta_{A}θA,θB\theta_{B}θB, 然后用去估计 Z，然后基于 Z 按照最大似然概率去估计新的θA\theta_{A}θA,θB\theta_{B}θB，循环至收敛。琴声不等式：$ \ $...

2021-05-20 22:23:29 70

原创 model-base model-free on-policy off-policy

先挖个坑以后读论文慢慢填mode-free不需要预测状态转移只需要预测在当前状态下做 aia_{i}ai 的回报model-base需要一个模型去学习状态转移概率函数 TTT，从 SiS_{i}Si 做某个动作aia_{i}ai 能转移到哪个Si+1S_{i+1}Si+1中去On-policy探索环境使用的策略和要更新的策略是一个policy（SARSA）Off-policy探索环境使用的策略和要更新的策略不是同一个policy（Q-learning）...

2021-05-04 14:34:21 66

原创数据结构-DFS

1. 八皇后问题可以使用一个数组存储八皇后的对角线关系对角线 dg[u+i]dg[u+i]，反对角线udg[n−u+i]udg[n−u+i]中的下标 u+i 和 n−u+i 表示的是截距（u为行 i为列）

2021-05-01 21:25:15 112

原创 Bert中文vocab ##的作用

This is the character used to denote WordPieces, it’s just an artifact of the WordPiece vocabulary generator that we use, but most of those words were never actually used during training (for Chinese). So you can just ignore those tokens. Note that for the

2021-04-28 15:45:45 3929

KMP算法讲解.pptx

空空如也