回想sy-CSDN博客

原创神经网络中的权重初始化

从神经网络输入和输出尽量都要有相同的方差出发，但均值很难保持一致（由于有一些非负的激活函数）。而且现有的标准化策略也是起到了同样的作用，如BN，LN等，都是努力将中间层的输出的方差和均值限定为1和0，但是最近的一些BN的工作（如用在Google T5中的RMS Norm）尝试了去掉减去均值的操作，反而会有提点的效果。说明保持均值一致并不是必须的。对于一个输入含有m个神经单元的网络层，输出n个值。当没有激活函数时，模型为yibi∑jwijxij。

2024-04-08 22:15:33 1230

原创 score-based method

生成模型中的score-based方法

2023-12-12 14:58:32 376

原创认识并行计算

并行计算

2023-03-22 18:46:44 377

原创分类编码方式

关于线性回归的可解释性的编码方式

2023-01-08 00:40:15 687 1

原创一个关于调度的paper

本文提出了一种新的算法模型去最大化封装和测试的批量的吞吐量，而且确保关键批量的权重优先级。该问题是一个混合整数规划问题，采用反应贪婪随机自适应搜索算法(greedy randomized adaptive search procedure, GRASP)求解。......

2022-07-04 14:23:16 453

原创强化学习在图像分割上的新应用：协同分割

北京理工大学于2022年4月份发表的一篇用强化学习做协同分割任务的论文

2022-04-25 18:31:06 9051 4

原创图卷积神经网络

图神经网络概述

2022-04-21 22:13:16 3343

原创线性因子模型

线性因子模型线性因子模型是基于潜变量的一类简单概率模型，线性因子模型通过随机线性解码器函数来定义，通过函数对 hhh 的线性变换以及添加噪声来生成 xxx 。线性因子模型描述了如下的数据生成过程。首先我们从一个分布中抽取解释性因子 hhh ，h∼p(h)h \sim p(h)h∼p(h) ，其中 p(h)p(h)p(h) 是一个因子分布，满足 p(h)=∏ip(hi)p(h)=\prod_{i}p(h_i)p(h)=∏ip(hi) ，易于从中采样。接下来，再给定因子的情况下，我们对实值的可观察变量进

2022-04-18 14:07:35 1251

原创 autoencoder

自编码器1.欠完备自编码器从自编码器获得有用特征的一种方法是限制 hhh 的维度比 xxx 小，这种编码维度小于输入维度的自编码器称为欠完备自编码器(undercomplete autoencoder) 。学习欠完备的表示将强制自编码器捕捉训练数据中最显著的特征。学习过程可以简单的描述为最小化一个损失函数 L(x,g(f(x)))L(x,g(f(x)))L(x,g(f(x))) ，其中 LLL 是一个损失函数，如均方误差。当解码器是线性的并且 LLL 是均方误差，欠完备自编码器会学习出与 PCA 相

2022-04-18 09:53:06 938

原创常见循环神经网络概括

常见循环神经网络概括循环神经网络（recurrent neural network）是一类专门用于处理序列数据的神经网络，就像卷积神经网络是专门处理网格化数据（如图像）的神经网络，卷积神经网络是专门用于处理序列 x(1),⋯ ,x(τ)x^{(1)}, \cdots, x^{(\tau)}x(1),⋯,x(τ) 的神经网络。本文主要介绍花书中提到的几种循环神经网络。循环神经网络中的一些重要设计模式包括以下几种：每个时间步都有输出，并且隐藏单元之间有循环连接的循环网络，如图每个时间步都产生一

2022-04-17 20:54:18 2045

原创 ActionSpotter Deep Reinforcement Learning Framework for Temporal Action Spotting in Videos

ActionSpotter: Deep Reinforcement Learning Framework for Temporal Action Spotting in Videos论文阅读笔记1.abstractaction spot 最近被提出用来代替动作检测和关键帧检测的任务，目前最有效的 action spot 方法需要昂贵的 ground truth，由人类注释的搜索序列组成——这是一个关键限制。在本文中，我们提出了一种使用强化学习算法去做 action spot 任务的算法，而且仅使用动作

2022-04-14 22:13:55 371

原创 L1、L2 正则化的一些原理

L1／L2 正则化与高斯先验／对数先验的 MAP 贝叶斯推断的关系1. MAP 贝叶斯推断贝叶斯推断和极大似然的用处一样，都是求生成训练数据的参数 θ\thetaθ ，但是极大似然估计是基于频率派的思想，而贝叶斯推断是基于贝叶斯派的思想。MAP（Maximum A Posteriori, MAP）最大后验估计点估计。θMAP=argmaxθp(θ∣x)=argmaxθlog⁡p(x∣θ)+log⁡p(θ)\theta_{MAP} = \underset{\theta}{argmax} p(\thet

2022-04-10 18:29:07 1273

原创机器学习常见问题

机器学习一些常见问题特征工程是什么？特征工程（Feature Engineering）特征工程是将原始数据转化成更好的表达问题本质的特征的过程，使得将这些特征运用到预测模型中能提高对不可见数据的模型预测精度。特征工程简单讲就是发现对因变量y有明显影响作用的特征，通常称自变量x为特征，特征工程的目的是发现重要特征。如何能够分解和聚合原始数据，以更好的表达问题的本质？这是做特征工程的目的。特征工程是数据挖掘模型开发中最耗时、最重要的一步。深度了解特征工程 - 知乎 (zhihu.com)类别

2022-04-08 11:42:18 1295

原创详解 CatBoost 原理

详解 CatBoost 原理集成学习的两大准则：基学习器的准确性和多样性。算法：串行的Boosting和并行的Bagging,前者通过错判训练样本重新赋权来重复训练，来提高基学习器的准确性，降低偏差！后者通过采样方法，训练出多样性的基学习器，降低方差。1.catboost 的优缺点性能卓越：在性能方面可以匹敌任何先进的机器学习算法鲁棒性/强健性：它减少了对很多超参数调优的需求，并降低了过度拟合的机会，这也使得模型变得更加具有通用性易于使用：提供与 scikit 集成的 Python 接口，以及

2022-04-07 15:49:02 17813 1

原创 BERT论文笔记

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding作者：Google1.Introduction 预训练方法适用于 NLP 任务，包括词嵌入、GPT等方法。NLP 包括两类：第一类叫做句子层面的任务，识别句子的情绪或者连两个句子之间的关系；第二类是词语层面上的任务，识别各个词，对细粒度要求较高。存在两种预训练的策略，第一种是基于特征的，代表作是 ELMo，对每一下游的任务，构造相关的神

2022-04-01 21:00:49 436

原创 Fully Convolutional Networks for Semantic Segmentation

Fully Convolutional Networks for Semantic Segmentation 论文阅读论文：Fully Convolutional Networks for Semantic Segmentation(2015 CVPR)作者：Jonathan Long Evan Shelhamer Trevor Darrell -UC Berkeley图像分割领域的开山之作1.1 研究成果将分类网络改变为全卷积神经网络，具体包括全连接层转换为卷积层以及通过反卷积进行

2022-03-19 21:15:41 5509

原创 XGBoost A Scalable Tree Boosting System

xgboost 论文阅读笔记

2022-02-01 23:10:56 672

原创 Linux组队学习（三）

Task8-Task10任务8：使用grep和awk从文件中筛选字符串步骤1：下载周杰伦歌词文本，并进行解压。https://mirror.coggle.club/dataset/jaychou_lyrics.txt.zip用前面介绍的wget命令下载即可，输入命令wget https://mirror.coggle.club/dataset/jaychou_lyrics.txt.zip，即可完成下载。若想用wget下载到指定文件夹则输入wget的-P参数，示例wget -P /usr/lo

2021-12-28 00:35:38 719

原创 Linux组队学习（二）

Linux组队学习Task5-Task7任务5：在目录下创建py文件，并进行运行步骤1：学习python下os模块处理文件和目录的函数，https://www.runoob.com/python/os-file-methods.html步骤2：学习python下sys模块和传参函数，https://www.runoob.com/python3/python3-module.html步骤3：在home/datawhale目录下，在你英文昵称（中间不要有空格哦）的文件夹中，新建一个test5.py文

2021-12-22 22:58:53 698

原创 Linux组队学习（一）

最近参加的linux组队学习活动任务1-41 vscode配置远程连接环境在扩展市场搜索remote ssh扩展，然后左侧会出来一个图标，点击后出现下面界面左上角选择SSH Targets，点击设置按钮这个地方鼠标悬停后会出现一个设置按钮，点击后选择config文件，就进入上图的样式，输入用户名和IP地址，保存后左边就会出现datawhale字样，点击“+”即可连接成功。2.Task12.1 任务一：使用命令行登录指定的Linux环境按照上面步骤已完成2.2 任务二：在目录下创建文件

2021-12-17 13:57:57 590

原创贝叶斯 sklearn

sklearn上的全部贝叶斯类型https://sklearn.apachecn.org/#/docs/master/10

2021-10-18 16:26:19 128

原创 Logistic_Regression和神经网络训练中的提前终止

Logistic Regression 逻辑回归逻辑回归模型二项的逻辑回归模型是由如下条件概率分布组成：$$P(Y=1|X)=\frac{exp{(w \cdot x)}}{1+exp{(w \cdot x)}} \P(Y=0|X)=\frac{1}{1+exp{(w \cdot x)}}$$其中xxx是输入，YYY是输出，www是需要学习的参数。用极大似然估计来学习参数于给定的训练数据集T={(x1,y1),(x2,y2),⋯ ,(xN,yN)}T= \left \{(x_1, y_1)

2021-10-18 14:40:44 1104

原创 k邻近算法原理和sklearn函数的参数详解

kkkNNk近邻（k-Nearest Neighbor, kNN），kNN的一个特点是没有显式的训练过程，事实上，它是“懒惰学习”（lazy learning）的代表，那些在训练过程中就迫不及待学习处理样本的方法，称为“急切学习”（eager learning）。讨论最近邻算法（k=1）给定测试样本x，若其最近邻样本为z，则最近邻分类器出错的概率就是x和z类别标记不同的概率$$P(err)=1-\sum_{c\in \mathcal{Y}}P(c|x)P(c|z)$$假设样本独立同分布，且对任

2021-10-18 14:36:40 1942

原创神经网络常用和不常用损失函数

神经网络中常用损失函数汇总假设训练集有N个数据对，输入数据XXX：x1,x2,⋯ ,xNx_1, x_2, \cdots, x_Nx1,x2,⋯,xN，输入数据预测值为YpredictY_{predict}Ypredict：ypredict1,ypredict2,⋯ ,ypredictNy_{predict}^1, y_{predict}^2, \cdots, y_{predict}^Nypredict1,ypredict2,⋯,ypredictN，输入数据真实值为YtrueY_{true}

2021-10-18 14:34:26 302

原创排序算法汇总

排序算法汇总排序算法非常多，这里为方便查找，特此汇总。1 插入排序先给出插入排序的伪代码输入：无序的数组A 输出：排好序的数组Afor j=2 to A.length: key = A[j] i = j - 1 while i>0 and A[i]>key: A[i+1] = A[i] i = i - 1 A[i+1] = key插入排序算法的最坏情况的时间复杂度为O(n2)O(n^{2})O(n2)算法的代码实现def InsertSort(A

2021-09-24 16:54:22 102

原创岭回归与最小二乘法

#! https://zhuanlan.zhihu.com/p/406879862岭回归与最小二乘法对于过拟合我们有很多种处理方法，常用的有三种：增加数据、特征选择、正则化。岭回归即我们通常所述的 l2l2l2 正则,这里研究一下上一篇文章的最小二乘法的岭回归的形式。首先回顾一下最小二乘法，L=∑i=1N∥wTxi−yi∥2L=\sum_{i=1}^{N}\|w^Tx_i-y_i\|^2L=∑i=1N∥wTxi−yi∥2,得到w^=argminwL=(XTX)−1XTY\hat{w}=\und

2021-09-04 20:51:07 612

原创 DDQN与DQN算法用tensorflow2.0实现

深度强化学习Double Deep Q Learning算法和Deep Q Learning用tensorflow2.0实现DQN算法实现首先搭建网络结构，是一个很简单的三个全连接层。from keras import layers, modelsclass Q_Network: def __init__(self, observation_n, action_n): self.observation_n = observation_n self.acti

2021-09-04 14:34:04 2666

原创最小二乘法 ——白板推导系列（第三节）

最小二乘法及其几何意义最小二乘法介绍最小二乘法（又称最小平方法）是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据，并使得这些求得的数据与实际数据之间误差的平方和为最小。最小二乘法还可用于曲线拟合，其他一些优化问题也可通过最小化能量或最大化熵用最小二乘法来表达。假设有N个样本点X=(x1,x2,…,xN)TX=(x_1, x_2, \dots, x_N)^TX=(x1,x2,…,xN)T, xix_ixi是ppp维向量, 相应的观测数

2021-09-01 10:27:31 325

原创 EM算法学习

#! https://zhuanlan.zhihu.com/p/402301009EM算法详解1.1 EM算法概括我们从最大后验出发，根据最大后验的原理，我们求参数的方法为θMLE=argmaxaP(x∣θ)\theta_{MLE}=\underset{a}{argmax}P(x|\theta)θMLE=aargmaxP(x∣θ),EM算法的迭代格式为θ(t+1)=argmaxa∫zlog⁡P(x,z∣θ)⋅P(z∣x,θ(t))dz=argmaxaEz∣x,θ(t)[log⁡P(x,z∣θ

2021-08-22 11:20:36 240

原创变分推断学习

#! https://zhuanlan.zhihu.com/p/401456634变分推断1.变分推断的背景在机器学习中，有很多求后验概率的问题，求后验概率的过程被称为推断（Inference），推断分为精确推断和近似推断。精确推断一般主要是根据贝叶斯等概率公式推导出后验概率，但在一些生成模型中，如RBM, DBN, DBM很难应用精确推断，于是乎我们就有了近似推断，近似推断又分为确定性近似和随机性近似,确定性近似方法就是变分推断（Variance Inference， VI），随机性近似的方法

2021-08-19 15:33:06 475

原创白板推导系列（第二节）

白板推导系列（第二节）内容来源于b站up主shuhuai008高斯分布介绍正态分布（Normal distribution），也称“常态分布”，又名高斯分布（Gaussian distribution），最早由棣莫弗（Abraham de Moivre）在求二项分布的渐近公式中得到。C.F.高斯在研究测量误差时从另一个角度导出了它。P.S.拉普拉斯和高斯研究了它的性质。是一个在数学、物理及工程等领域都非常重要的概率分布，在统计学的许多方面有着重大的影响力。一元高斯分布的概率密度函数为：f(x)=12

2021-07-07 20:22:59 228

原创（B站）白板推导系列学习笔记（第一节）

（B站）白板推导系列学习笔记（第一节）频率派VS贝叶斯派机器学习中的统计问题频率派贝叶斯派总结频率派VS贝叶斯派该节介绍了频率派和贝叶斯派的异同和应用点，内容来源于b站up主shuhuai008。机器学习中的统计问题在一些典型的机器学习问题中，我们常常会遇到样本X和参数θ\thetaθ, 样本X作为观察到的信息，通常是一个矩阵形式：[x11x12⋯x1nx21x22⋯x2n⋮⋮⋯⋮xn1xn2⋯xnn]\begin{bmatrix} x_{11} &x_{12} &\cdots

2021-06-23 10:51:56 233

weixin_49708196的博客