侍伟-CSDN博客

原创有一千个读者就有一千个哈姆雷特——从文学作品解读视角探讨Attention机制的设计思想

由此可见，被误解是表达者的宿命，为什么会被误解呢？其实Attention的设计思想是根据Decoder的情况动态调整上下文信息，来使Target中的某些token与Source中的真正“有决定意义”的token关联起来，所以对于Target中的token来说，它们各自需要的上下文信息不再是共用的一样的，而是因token而异。注意：这里的上下文向量对于解码器来说是“固定”的，所谓“固定”就是这个上下文向量在解码过程中没有主动调整的过程，如果解码器是MLP，这个上下文向量直接作为MLP的输入，是一成不变的；

2025-01-16 01:07:22 1129

原创分类分析——作业

我们想知道银行贷款审批中是否存在种族歧视，这是一个非常典型的“推断”问题，于是可采用线性回归分类模型对该问题进行探究。本次习题使用数据loanapp.dta，所使用的变量解释如下：因变量：· approve：贷款是否被批准（0为不批准、1为批准）自变量：· white：种族哑变量（0为黑人，1为白人）· obrat：债务占比由于数据集含有缺失值，我们先去除含有缺失值的样本（非习题）（1）：先考虑一个线性概率模型approve=β0+β1whi。

2022-09-29 01:08:35 2245

原创回归分析与模型诊断——作业

我们想要探究婴儿出生的体重与何种因素相关，数据集为bwght2.dta，本次习题所使用的变量解释如下：因变量：· bwght：婴儿出生体重自变量：· npvis：母亲产前检查次数· mage：母亲年龄使用python进行实操并回答以下问题log(bwght)=β0+β1npvis+β2npvis2+u自变量npvis的二次项显著，自变量npvis对因变量有显著影响。

2022-09-24 23:38:34 1527

原创假设检验3

一个淘宝网购商家搜集了一年中每天的订单数，除去春节期间及双十一前后外，按330天记，数据如下请用卡方分布验证订单数是否泊松分布。已知：通过极大似然估计得知泊松分布参数λ=5.3p值约为0.767，不能拒绝原假设，因此我们可以认为样本的总体服从泊松分布。

2022-08-22 21:01:00 1832

原创假设检验2

为研究东、中、西部各省市规模以上的企业发展状况，我们收集了各城市企业的主要经济指标，包括：总资产贡献率、资产负债率、流动资产周转次数、工业成本费用利润率、产品销售率。我们用变量“类别”定义了各类城市，其中1为东部城市；2为中部城市；3为西部城市。数据文件为homework2.xlsx。假设显著性水平为α=0.01。

2022-08-21 00:20:26 452

原创假设检验1

三台车床生产同一种滚珠，我们从中各抽取13、14、16个产品，测得直径分别为：甲车床：15.0,14.5,15.2,15.5,14.8,15.1,15.2,14.8,13.9,16.0,15.1,14.5,15.2;乙车床：15.2,15.0,14.8,15.2,15.0,15.0,14.8,15.1,14.8,15.0,13.7,14.1,15.5,15.9;...

2022-08-19 00:40:55 253

转载 PyTorch生态简介

PyTorch的强大并不仅局限于自身的易用性，更在于开源社区围绕PyTorch所产生的一系列工具包（一般是Python package）和程序，这些优秀的工具包极大地方便了PyTorch在特定领域的使用。比如对于计算机视觉，有TorchVision、TorchVideo等用于图片和视频处理；对于自然语言处理，有torchtext；对于图卷积网络，有PyTorch Geometric ······。这里只是举例，每个领域还有很多优秀的工具包供社区使用。这些工具包共同构成了PyTorch的生态（EcoSyste

2022-03-24 22:05:46 444

转载 Pytorch进阶训练技巧

1. 自定义损失函数PyTorch在torch.nn模块为我们提供了许多常用的损失函数，比如：MSELoss，L1Loss，BCELoss… 但是随着深度学习的发展，出现了越来越多的非官方提供的Loss，比如DiceLoss，HuberLoss，SobolevLoss… 这些Loss Function专门针对一些非通用的模型，PyTorch不能将他们全部添加到库中去，因此这些损失函数的实现则需要我们通过自定义损失函数来实现。另外，在科学研究中，我们往往会提出全新的损失函数来提升模型的表现，这时我们既无法使

2022-03-19 21:41:36 376

转载 PyTorch模型定义

1. PyTorch基础知识Module 类是 torch.nn 模块里提供的一个模型构造类(nn.Module)，是所有神经⽹网络模块的基类，我们可以继承它来定义我们想要的模型；PyTorch模型定义应包括两个主要部分：各个部分的初始化（init）；数据流向定义（forward）基于nn.Module，我们可以通过Sequential，ModuleList和ModuleDict三种方式定义PyTorch模型。2. 通过Sequential定义PyTorch模型当模型的前向计算为简单串联各个

2022-03-16 15:30:51 1775

原创吃瓜任务5

支持向量机算法原理从几何角度，对于线性可分数据集，支持向量机就是找距离正负样本都最远的超平面，相比于感知机，其解是唯一的，并且不偏不倚，泛化性能更好。给定线性可分数据集XXX，支持向量机希望求得数据集XXX关于超平面的几何间隔γ\gammaγ达到最大的那个超平面，所以其本质和感知机一样，仍然是求一个超平面。策略：给定线性可分数据集XXX，设XXX中几何间隔最小的样本为(xmin,ymin)(\mathbf{x}_{min},y_{min})(xmin,ymin)，那么支持向量机求超平面的过程可以转

2022-01-26 00:21:55 185

原创吃瓜任务4

M-P 神经元M-P神经元：接收n个输入，并给各个输入赋予权重计算加权和，然后和自身特有的阈值θ\thetaθ进行比较，最后经过激活函数处理得到输出。y=f(∑i=1nwixi−θ)=f(wTx+b)y=f(\sum_{i=1}^{n}w_ix_i-\theta )=f(\mathbf{w} ^T\mathbf{x} +b)y=f(i=1∑nwixi−θ)=f(wTx+b)通用近似定理只需一个包含足够多神经元的隐层，多层前馈网络就能以任意精度逼近任意复杂度的连续函数。多层前馈网

2022-01-21 15:01:33 521

原创吃瓜任务3

决策树算法原理从逻辑角度，一堆if-else语句的组合从几何角度，根据某种和准则划分特征空间最终目的：将样本越分越纯将样本类别标记yyy视作随机变量，各个类别在样本集合DDD中的占比pk(k=1,2,…,∣y∣)p_k(k=1,2,\dots,|y|)pk(k=1,2,…,∣y∣)视作各个类别取值的概率，则样本集合DDD（随机变量yyy）的信息熵（底数b取2）为：Ent(D)=−∑k=1∣y∣pklog⁡2pkEnt(D)=-\sum_{k=1}^{|y|} p_k\log_{2}{p_k}

2022-01-20 22:10:15 943

原创吃瓜任务2

1.一元线性回归1.1 最小二乘估计基于均方误差最小化来进行模型求解的方法称为“最小二乘法”。E(w,b)=∑i=1m(yi−f(xi))2=∑i=1m(yi−(wxi+b))2=∑i=1m(yi−wxi−b)2\begin{aligned}E_{\left ( w,b \right ) } &=\sum_{i=1}^{m} \left ( y_i-f\left (x_i \right ) \right ) ^{2} \\ &=\sum_{i=1}^{m} \left ( y

2022-01-17 23:28:11 1142

原创吃瓜任务1

1.机器学习的基本术语机器学习的定义：假设用PPP来评估计算机程序在某任务TTT上的性能，若一个程序通过利用经验EEE在TTT中任务上获得了性能改善，则我们就说关于TTT和PPP，该程序对E进行了学习。模型指从数据中学得的结果。学习算法指从数据中产生模型的算法。数据集是记录的集合。示例或样本是每条记录关于一个事件或对象的描述。属性或特征反映事件或对象在某方面的表现或性质的事项。属性值是属性上的取值。属性空间、样本空间或输入空间是属性张成的空间。由于空间中的每个点对应一个坐标向量，因此我们也

2022-01-11 23:06:54 564

转载 matplotlib学习之五

1. matplotlib的绘图样式（style）在matplotlib中，要想设置绘制样式，最简单的方法是在绘制元素时单独设置样式。但是有时候，当用户在做专题报告时，往往会希望保持整体风格的统一而不用对每张图一张张修改，因此matplotlib库还提供了四种批量修改全局样式的方式1.1 matplotlib预先定义样式matplotlib贴心地提供了许多内置的样式供用户使用，使用方法很简单，只需在python脚本的最开始输入想使用style的名称即可调用。import matplotlib as

2021-12-27 00:20:52 941

转载 matplotlib学习之四

1. Figure和Axes上的文本Matplotlib具有广泛的文本支持，包括对数学表达式的支持、对栅格和矢量输出的TrueType支持、具有任意旋转的换行分隔文本以及Unicode支持。1.1 textpyplot API：matplotlib.pyplot.text(x, y, s, fontdict=None, **kwargs)OO API:Axes.text(self, x, y, s, fontdict=None, **kwargs)参数：此方法接受以下描述的参数：s:此参数是要

2021-12-24 23:59:18 1031

转载 matplotlib学习之三

1. 子图1.1 使用 plt.subplots 绘制均匀状态下的子图返回元素分别是画布和子图构成的列表，第一个数字为行，第二个为列figsize 参数可以指定整个画布的大小sharex 和 sharey 分别表示是否共享横轴和纵轴刻度tight_layout 函数可以调整子图的相对大小使字符不会重叠import numpy as npimport pandas as pdimport matplotlib.pyplot as pltplt.rcParams['font.sans-seri

2021-12-21 22:51:29 343

转载 matplotlib学习之二

1.概述1.1 matplotlib的三层apimatplotlib.backend_bases.FigureCanvas 代表了绘图区，所有的图像都是在绘图区完成的matplotlib.backend_bases.Renderer 代表了渲染器，可以近似理解为画笔，控制如何在 FigureCanvas上画图。matplotlib.artist.Artist 代表了具体的图表组件，即调用了Renderer的接口在Canvas上作图。前两者处理程序和计算机的底层交互的事项，第三项Artist就

2021-12-19 20:29:11 742

转载 Matplotlib学习之一

1.Matplotlib简介Matplotlib是一个Python 2D绘图库，能够以多种硬拷贝格式和跨平台的交互式环境生成出版物质量的图形，用来绘制各种静态，动态，交互式的图表。2.Matplotlib绘图示例Matplotlib的图像是画在figure（如windows，jupyter窗体）上的，每一个figure又包含了一个或多个axes（一个可以指定坐标系的子区域）。最简单的创建figure以及axes的方式是通过pyplot.subplots命令，创建axes以后，可以使用Axes.plot

2021-12-14 22:03:36 332

原创循环神经网络

循环神经网络的一般结构如果 sts_tst 的表达式中去除 Wst−1Ws_{t-1}Wst−1 项，则循环神经网络退化成MLP。循环神经网络本质上是在MLP基础上增加了 st−1s_{t-1}st−1，使得网络与前一时刻的状态隐变量有关系，从而适用于处理有时序关系的信息。最简单的RNN网络其实就是通过权重 WWW 来处理时序信息的。梯度剪裁迭代中计算 TTT 个时间步上的梯度，在反向传播过程中产生长度为 O(T)O(T)O(T) 的矩阵乘法链，导致数值不稳定。梯度剪裁能够有效预防梯度

2021-12-01 22:30:11 1421

转载卷积神经网络

卷积神经网络是深度学习领域最重要的概念之一。如果使用单隐藏层MLP对有36M个特征的图片进行处理，假设隐藏层的神经元为100个，模型参数将达到3.6B，保存这些模型参数将占用14GB，这是不可行的。感兴趣的对象满足两个特征，可以考虑卷积神经网络：平移不变性局部性二维卷积二维卷积运算：给定二维的图像I作为输入，二维卷积核K，卷积运算可表示为 S(i,j)=(I∗K)(i,j)=∑m∑nI(i−m,j−n)K(m,n)S(i, j)=(I * K)(i, j)=\sum_{m} \sum_{n}

2021-11-27 21:32:28 638

原创前馈神经网络

神经元模型神经元（M-P）1943 年，美国芝加哥大学的神经科学家沃伦·麦卡洛克和他的助手沃尔特·皮茨发表了论文《神经活动中思想内在性的逻辑演算》（A Logical Calculus of Ideas Immanent in Nervous Activity），首次提出了一种形式神经元模型，并命名为McCulloch-Pitts模型，即后来广为人知的M-P模型。在M-P模型中，神经元接受其他n个神经元的输入信号(0或1)，这些输入信号经过权重加权并求和，将求和结果与阈值(threshold) θ

2021-11-23 19:16:05 1320

原创机器学习基础

机器学习基本概念机器学习是计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析。根据训练数据是否具有标签信息，可以将机器学习的任务分成以下三类。监督学习：基于已知类别的训练数据进行学习；无监督学习：基于未知类别的训练数据进行学习；半监督学习：同时使用已知类别和未知类别的训练数据进行学习。数据集被描述的性质叫作属性，属性的取值称为属性值，不同的属性值有序排列得到的向量就是数据，也叫实例。数据的不同属性之间可以视为相互独立，因而每个属性都代表了一个不同的维度，这些维度共同张成了特征

2021-11-20 21:20:51 778

原创绪论与深度学习概述、数学基础

绪论与深度学习概述1.深度学习的起源深度学习的历史可以追溯到20世纪40年代。深度学习看似是一个全新的领域，其实并不是全新的概念，只不过很多原有的有关神经网络的概念被赋予了新的不同的名称，才成为众所周知的“深度学习”。2.深度学习的发展目前为止深度学习已经经历了三次发展浪潮：20世纪40年代到60年代深度学习的雏形出现在控制论中；20世纪80年代到90年代深度学习表现为联结主义；2006年，真正产生深度学习的概念并发展至今。3.深度学习的定义一般是指通过训练多层网络结构对未知数据进行分

2021-11-17 08:54:28 665

原创 ARMA 时间序列模型与预测

白噪声可以通过 Box-Ljung 检验来检验序列是否为白噪声：set.seed(100)data = rnorm(100)Box.test(data, type='Ljung', lag = log(length(data)))从结果中可以看见 p=0.09169>0.05p = 0.09169 > 0.05p=0.09169>0.05，因此无法拒绝序列为白噪声的假设。下面绘制一下该序列的图像以及 ACF 图像：set.seed(100)data = rnorm(100

2021-10-21 21:32:06 6025

原创常用时间序列模型

常用时间序列模型1.差分指数平滑法当时间序列的变动具有直线趋势时，用一次指数平滑法会出现滞后偏差，其原因在于数据不满足模型要求。因此，我们也可以从数据变换的角度来考虑改进措施，如运用差分方法先对数据作一些技术上的处理，使之能适合于一次指数平滑模型，以后再对输出结果作技术上的返回处理，使之恢复为原变量的形态。差分方法是改变数据变动趋势的简易方法。当时间序列呈直线增加时，可运用一阶差分指数平滑模型来预测。其公式如下:▽yt=yt−yt−1▽y^t+1=α▽yt+(1−α)▽y^ty^t+1=▽y^t

2021-10-17 22:19:04 1312

原创手算时间序列

手算时间序列简单移动平均手动实现一个计算简单移动平均的函数：mySMA <- function (x, n) { sma <- c() sma[1:(n-1)] <- NA for (i in n:length(x)) { sma[i] <- mean(x[(i-n+1):i]) } return(sma)}x = c(2, 3, 3, 4, 2, 3, 3, 5, 2, 3)mySMA(x, n = 4)R 语言中的 TTR 包提供的

2021-10-14 11:13:08 325

原创 R语言基础及统计与时间序列分析基础

R语言是一门常用于数据分析、统计建模的计算机语言，它与主流的C/C++、Java、Python等语言相比，支持更多的数据类型，例如向量、矩阵，同时提供了多种统计和数学计算方法。R语言解释器下载地址： https://www.r-project.org/Rstudio是R语言集成开发环境，下载地址：https://www.rstudio.com/四则运算R语言使用+, -, *, /, ^ 来表示加、减、乘、除和乘方。数值可以写成 123, -123, 123.45, 1.23E-5这样的形式。其中

2021-10-12 21:54:20 2654

原创模型的建立与评估

模型的建立与评估import pandas as pdimport numpy as npimport seaborn as snsimport matplotlib.pyplot as plt%matplotlib inlineplt.rcParams['font.sans-serif'] = ['SimHei'] # 用来正常显示中文标签plt.rcParams['axes.unicode_minus'] = False # 用来正常显示负号plt.rcParams['figur

2021-09-23 09:51:55 904

原创数据分析之数据可视化

数据可视化导入numpy、pandas包和数据%matplotlib inlineimport numpy as npimport pandas as pdimport matplotlib.pyplot as plt导入result.csv这个文件text = pd.read_csv(r'result.csv')text.head()

2021-09-20 16:50:19 618

原创数据分析之数据重构

数据重构# 导入基本库import numpy as npimport pandas as pd# 载入data文件中的:train-left-up.csvtext = pd.read_csv('train-left-up.csv')text.head()1. 数据的合并1.1 将data文件夹里面的所有数据都载入，与之前的原始数据相比，观察他们的之间的关系text_left_up = pd.read_csv("data/train-left-up.csv")text_left_d

2021-09-18 21:03:23 417

原创数据清洗及特征处理

数据清洗及特征处理导入numpy、pandas包和数据#加载所需的库import numpy as npimport pandas as pd#加载数据train.csvdf = pd.read_csv('train.csv')df.head(3)数据清洗概述我们拿到的数据通常是不干净的，所谓的不干净，就是数据中有缺失值和异常点等，需要经过一定的处理才能继续做后面的分析或建模，所以拿到数据的第一步是进行数据清洗，本次我们将学习缺失值、重复值、字符串和数据转换等操作，清洗数据为后续的数

2021-09-15 23:36:06 1782

原创数据载入、Pandas基础和探索性数据分析

1. 载入数据及初步观察1.1 载入数据数据集下载 https://www.kaggle.com/c/titanic/overview1.1.1 导入numpy和pandasimport numpy as npimport pandas as pd1.1.2 载入数据(1) 使用相对路径载入数据df = pd.read_csv('train.csv')df.head(5)(2) 使用绝对路径载入数据df = pd.read_csv('D:/Jupyter/train.csv')

2021-09-14 16:44:51 5706

转载 R语言之建模

模型前言为了帮助大家更好的使用R语言进行建模分析，本文将借助波士顿房价数据集来展示常见的模型。本章节学习的目的是帮助大家了解模型的适用范围以及如何建模，不会对模型的底层原理进行深入的研究。回归模型：回归模型是一种有监督的、预测性的建模技术，它研究的是因变量和自变量之间的关系。分类模型：分类模型也是一种有监督的机器学习模型。与回归模型不同的是，其标签(因变量)通常是有限个数的定类变量。最常见的是二分类模型。我们主要使用波士顿房价数据集来实现各种模型。因此我们使用2021作为种子值生成

2021-08-31 22:17:49 5754

转载 R语言之数据可视化

数据可视化ggplot2包介绍ggplot2包由Hadley Wickham编写，提供了一种基于Wilkinson所述图形语法的图形系统。ggplot2包的目标是提供一个全面的、基于语法的、连贯一致的图形生成系统，允许用户创建新颖的、有创新性的数据可视化图形。总的来说有以下几点：ggplot2的核心理念是将绘图与数据分离，数据相关的绘图与数据无关的绘图分离ggplot2保有命令式作图的调整函数，使其更具灵活性ggplot2将常见的统计变换融入到了绘图中。ggplot2是按图层作图ggpl

2021-08-28 23:37:58 9858 2

转载 R语言之基本统计分析

准备工作加载需要使用的库library(pastecs)library(psych)library(ggm)读取数据，使用H1N1流感数据集和波士顿房价数据集。flu <- read.table("./datasets/h1n1_flu.csv", header = TRUE, sep = ",")housing <- read.csv("./datasets/BostonHousing.csv", header = TRUE)多种方法获取描述性统计量基础方法通过summ

2021-08-25 23:09:51 3955 1

原创 R语言之数据清洗与准备

数据清洗与准备环境配置library(mlbench) # 将会使用到包中的BostonHousing数据集library(funModeling) # 探索性数据分析工具包，本节内容中将会使用到它的status()函数，打印整体数据质量library(tidyverse) # 数据转化工具包，本节内容中将会使用它包含的dplyr中的管道函数 %>%library(VIM) # 缺失值可视化工具包，本节内容中将会使用到它的aggr()函数library(mice) # 缺失值处理工具包，本

2021-08-22 22:44:00 14159

转载 R语言之数据结构

数据结构与数据集准备工作本文目的主要是帮助你上手R的基本编程逻辑，了解一些R编程的基本概念，包括各个数据类型和数据集的读取与保存。编码基础首先我们来了解一些基本的编码操作。在 R Studio 中想要运行代码可以在控制台 Console 中键入代码后点击回车。这样运行的代码会被保存在当前项目的 .Rhistory 文件中，也可以在 R Studio 界面右上角的 History 面板中找到，但是不会被明确地保存下来作为一个脚本文件。一般只有在我们想要运行一些简单的指令或者计算的时候才会采取这种方式。

2021-08-20 01:05:10 2702

原创深度学习阶段性总结

概述本月结合Datawhale的在线文档和B站的李宏毅机器学习视频，重新回顾并再学习了深度学习的一些基本概念和知识，收获很大。李宏毅老师对于深度学习的理解非常深刻，并且用通俗易懂的语言表达出来，真的非常适合深度学习的初学者。现结合具体章节，再梳理提炼出自己的新收获。机器学习介绍人工智能的本质就是尽量避免人为去设定规则；机器学习的目标就是通过数据资料去寻找一个函数；机器学习的步骤：确定一个函数集合；评价每一个函数；找出最好的函数。回归模型复杂的模型一般会在训练集上得到较好的结果，但不保证在

2021-07-25 13:55:08 555

原创卷积神经网络

CNN的动机图片处理如果使用普通的神经网络模型，将所有的像素点作为输入，输入的向量就会很长，需要的参数就会很多。希望每一个神经元都能成为一个基本的分类器，第一层神经元是最基本的分类器，比如探测有没有绿色出现或者有没有斜条纹。第二层的神经元根据第一层输出的结果探测更复杂的特征。再根据第二层的输出，第三层可以做更复杂的事情。如果我们直接用全连接网络来做图像处理往往需要更多的参数，比如像素大小为100×100的彩色图，输入具有30000个维度，假设隐藏层有1000个神经元，就会有30000×1000个

2021-07-25 00:06:02 782 1

空空如也

空空如也