![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
韩绘锦
苟有恒何必三更灯火五更鸡,最无益莫过一日曝十日寒。
展开
-
集成方法
套袋法自发聚集或者套袋法, 是一种能减少一个估计器方差的集成元算法。套袋法可以用于 分类任务和回归任务。当组件估计器为回归器时,集成将平均它们的预测结果。当组件估 计器为分类器时, 集成将返回模类。套袋法能在训练数据的变体上拟合多个模型。 训练数据的变体使用一种称为 自发重采样的流程来创建。通常来说,仅仅使用分布的一个样本来估计一个未知概率分布的参数是 很有必要的。 我们可以使用这个样本来计算一个统计数值,但是这个统计数值将会随我们 恰巧取到的样本而变化。自发重采样是一种估计统计数值不确定性的方法原创 2020-09-08 13:59:47 · 855 阅读 · 0 评论 -
特征提取
从类别变量中提取特征类别型特征( Categorical Feature ) 主要是指性别 (男、女)、血型( A 、 B、 AB 、 0 ) 等只在高限选I页内取值的特征。 类别型特征原始输入通常是字符串形式,除了决策树等少数模型能直接处理字符串形式的输入 3,对于逻辑回归、支持向量机等模型来说,类别型特征必须经过处理转换成数值型特征才能正确工作。one-hot编码独热编码通常用于处理类别间不具有大小关系的特征。例如血型,一共有4个取值(A型血、B型血、AB型血、O型血),独热编码会把血型变成-原创 2020-09-08 10:55:29 · 1816 阅读 · 0 评论 -
SVM
学习内容SVM 硬间隔原理SVM 软间隔SMO 求解SVM代码设计1、硬间隔本文是需要一定基础才可以看懂的,建议先看看参考博客,一些疑惑会在文中直接提出,大家有额外的疑惑可以直接评论,有问题请直接提出,相互交流。SVM-统计学习基础一开始讲解了最小间距超平面:所有样本到平面的距离最小。而距离度量有了函数间隔和几何间隔,函数间隔与法向量www和bbb有关,www变为2w2w2w则...原创 2020-05-01 20:25:18 · 342 阅读 · 0 评论 -
Task4 条件随机场
条件随机场马尔可夫过程定义假设一个随机过程中,tnt_ntn 时刻的状态xnx_nxn的条件发布,只与其前一状态xn−1x_{n-1}xn−1 相关,即:P(xn∣x1,x2,...,xn−1)=P(xn∣xn−1) P(x_n|x_1,x_2,...,x_{n-1}) = P(x_n|x_{n-1})P(xn∣x1,x2,...,xn−1)=P(xn∣xn−1...原创 2020-04-29 23:52:52 · 121 阅读 · 0 评论 -
Task3 EM
前言EM算法是机器学习十大算法之一,它很简单,但是也同样很有深度,简单是因为它就分两步求解问题,E步:求期望(expectation)M步:求极大(maximization)深度在于它的数学推理涉及到比较繁杂的概率公式等,所以本文会介绍很多概率方面的知识,不懂的同学可以先去了解一些知识,当然本文也会尽可能的讲解清楚这些知识,讲的不好的地方麻烦大家评论指出,后续不断改进完善。EM算法引...原创 2020-04-25 21:59:12 · 532 阅读 · 0 评论 -
Task2 bayes_plus
知识点梳理相关概念(生成模型、判别模型)先验概率、条件概率贝叶斯决策理论贝叶斯定理公式极值问题情况下的每个类的分类概率下溢问题如何解决零概率问题如何解决?优缺点sklearn参数详解,Python绘制决策树sklearn接口from sklearn.naive_bayes import GaussianNBfrom sklearn.datasets import loa...原创 2020-04-23 21:16:41 · 277 阅读 · 0 评论 -
爬虫~爬爬爬~task1
互联网、HTTP互联网互联网也叫因特网(Internet),是指网络与网络所串联成的庞大网络,这些网络以一组标准的网络协议族相连,连接全世界几十亿个设备,形成逻辑上的单一巨大国际网络。它由从地方到全球范围内几百万个私人的、学术界的、企业的和政府的网络所构成。通过电子、无线和光纤等一系列广泛的技术来实现。这种将计算机网络互相连接在一起的方法可称作“网络互联”,在此基础上发展出来的覆盖全世界的全球...原创 2020-04-21 19:08:20 · 3258 阅读 · 0 评论 -
第1章 Pandas基础
第1章 Pandas基础import pandas as pdimport numpy as npimport pandas as pdimport numpy as np查看Pandas版本pd.__version__'1.0.3'pd.__version__'1.0.3'一、文件读取与写入1. 读取(a)csv格式df = pd.read_csv('da...原创 2020-04-20 20:05:03 · 1681 阅读 · 0 评论 -
Task1 Linear_regression
线性回归的概念1、线性回归的原理2、线性回归损失函数、代价函数、目标函数3、优化方法(梯度下降法、牛顿法、拟牛顿法等)4、线性回归的评估指标5、sklearn参数详解1、线性回归的原理进入一家房产网,可以看到房价、面积、厅室呈现以下数据: 面积($x_1$) 厅室数量($x_2)$ 价格(万元)(y) ...原创 2020-04-20 01:30:16 · 206 阅读 · 0 评论 -
Datawhale 零基础入门数据挖掘-Task5 模型融合
Datawhale 零基础入门数据挖掘-Task5 模型融合五、模型融合Tip:此部分为零基础入门数据挖掘的 Task5 模型融合 部分,带你来了解各种模型结果的融合方式,在比赛的攻坚时刻冲刺Top,欢迎大家后续多多交流。赛题:零基础入门数据挖掘 - 二手车交易价格预测地址:https://tianchi.aliyun.com/competition/entrance/231784/int...原创 2020-04-04 20:57:29 · 285 阅读 · 0 评论 -
matlab实现的一个简易的svm用于演示四个点的两类分类问题
%%简单的SVM程序,用于演示四个点的两类分类情况%此例子为线性可分情况%课上PPT例程%clc; %关闭所有的变量和窗口clear all;close all;%定义各个点t=[0 0;0 1;1 0;1 1]; %输入y=[1 1 -1 -1]; %点的分类[m,n]=size(t); x=zeros(m,1);%解释quadprog(H,f...原创 2020-04-02 21:14:15 · 545 阅读 · 0 评论 -
Datawhale 零基础入门数据挖掘-Task4 建模调参
Datawhale 零基础入门数据挖掘-Task4 建模调参四、建模与调参Tip:此部分为零基础入门数据挖掘的 Task4 建模调参 部分,带你来了解各种模型以及模型的评价和调参策略,欢迎大家后续多多交流。赛题:零基础入门数据挖掘 - 二手车交易价格预测地址:https://tianchi.aliyun.com/competition/entrance/231784/introductio...原创 2020-04-01 19:53:46 · 324 阅读 · 0 评论 -
Datawhale 零基础入门数据挖掘-Task3 特征工程
Datawhale 零基础入门数据挖掘-Task3 特征工程三、 特征工程目标Tip:此部分为零基础入门数据挖掘的 Task3 特征工程 部分,带你来了解各种特征工程以及分析方法,欢迎大家后续多多交流。赛题:零基础入门数据挖掘 - 二手车交易价格预测地址:https://tianchi.aliyun.com/competition/entrance/231784/introduction?...原创 2020-03-28 20:09:18 · 2172 阅读 · 0 评论 -
Datawhale 零基础入门数据挖掘-Task2 数据分析
Datawhale 零基础入门数据挖掘-Task2 数据分析二、 EDA-数据探索性分析Tip:此部分为零基础入门数据挖掘的 Task2 EDA-数据探索性分析 部分,带你来了解数据,熟悉数据,和数据做朋友,欢迎大家后续多多交流。赛题:零基础入门数据挖掘 - 二手车交易价格预测地址:https://tianchi.aliyun.com/competition/entrance/23178...原创 2020-03-24 21:19:16 · 643 阅读 · 0 评论 -
Datawhale 零基础入门数据挖掘-Task1 赛题理解
Datawhale 零基础入门数据挖掘-Task1 赛题理解一、 赛题理解Tip:此部分为零基础入门数据挖掘的 Task1 赛题理解 部分,为大家入门数据挖掘比赛提供一个基本的赛题入门讲解,欢迎后续大家多多交流。赛题:零基础入门数据挖掘 - 二手车交易价格预测地址:https://tianchi.aliyun.com/competition/entrance/231784/introduc...原创 2020-03-21 20:12:24 · 2851 阅读 · 0 评论 -
卷积神经网络开放题
卷积神经网络开放题数据集本次开放题将与课程内容保持一致,将使用图像数据集Fashion-MNIST [1] 进行计算机视觉任务的设计,该数据集由衣服、鞋子等服饰组成,共10个类别。这里简介将此数据集转换成卷积神经网络所需要的输入格式的方法:加载数据集首先导入本作业需要的包或模块。import torchvisionimport torchfrom matplotlib import...原创 2020-03-01 22:29:17 · 2502 阅读 · 0 评论 -
梯度下降
梯度下降(Boyd & Vandenberghe, 2004)%matplotlib inlineimport numpy as npimport torchimport timefrom torch import nn, optimimport mathimport syssys.path.append('/home/kesci/input')import d2lzh...原创 2020-02-25 22:30:43 · 120 阅读 · 0 评论 -
凸优化
优化与深度学习优化与估计尽管优化方法可以最小化深度学习中的损失函数值,但本质上优化方法达到的目标与深度学习的目标并不相同。优化方法目标:训练集损失函数值深度学习目标:测试集损失函数值(泛化性)%matplotlib inlineimport syssys.path.append('/home/kesci/input')import d2lzh1981 as d2lfrom m...原创 2020-02-25 22:30:00 · 164 阅读 · 0 评论 -
Transformer
Transformer在之前的章节中,我们已经介绍了主流的神经网络架构如卷积神经网络(CNNs)和循环神经网络(RNNs)。让我们进行一些回顾:CNNs 易于并行化,却不适合捕捉变长序列内的依赖关系。RNNs 适合捕捉长距离变长序列的依赖,但是却难以实现并行化处理序列。为了整合CNN和RNN的优势,[Vaswani et al., 2017] 创新性地使用注意力机制设计了Transfo...原创 2020-02-25 22:29:12 · 225 阅读 · 1 评论 -
梯度消失、梯度爆炸
梯度消失、梯度爆炸以及Kaggle房价预测梯度消失和梯度爆炸考虑到环境因素的其他问题Kaggle房价预测梯度消失和梯度爆炸深度模型有关数值稳定性的典型问题是消失(vanishing)和爆炸(explosion)。当神经网络的层数较多时,模型的数值稳定性容易变差。假设一个层数为LLL的多层感知机的第lll层H(l)\boldsymbol{H}^{(l)}H(l)的权重参数为W(l)...原创 2020-02-18 22:16:06 · 203 阅读 · 0 评论 -
ModernRNN
GRURNN存在的问题:梯度较容易出现衰减或爆炸(BPTT)⻔控循环神经⽹络:捕捉时间序列中时间步距离较⼤的依赖关系RNN:Ht=ϕ(XtWxh+Ht−1Whh+bh)H_{t} = ϕ(X_{t}W_{xh} + H_{t-1}W_{hh} + b_{h})Ht=ϕ(XtWxh+Ht−1Whh+bh)GRU:Rt=σ(XtWxr+Ht−1Whr+br)Zt=σ(X...原创 2020-02-18 22:10:52 · 128 阅读 · 0 评论 -
过拟合欠拟合及其解决方案
过拟合、欠拟合及其解决方案过拟合、欠拟合的概念权重衰减丢弃法模型选择、过拟合和欠拟合训练误差和泛化误差在解释上述现象之前,我们需要区分训练误差(training error)和泛化误差(generalization error)。通俗来讲,前者指模型在训练数据集上表现出的误差,后者指模型在任意一个测试数据样本上表现出的误差的期望,并常常通过测试数据集上的误差来近似。计算训练误差和泛...原创 2020-02-17 00:16:22 · 223 阅读 · 0 评论 -
autograd自动求梯度、反向传播
import torchprint(torch.__version__)0.4.12.3 自动求梯度2.3.1 概念上一节介绍的Tensor是这个包的核心类,如果将其属性.requires_grad设置为True,它将开始追踪(track)在其上的所有操作。完成计算后,可以调用.backward()来完成所有梯度计算。此Tensor的梯度将累积到.grad属性中。注意在调用.b...原创 2020-02-17 00:12:12 · 389 阅读 · 0 评论 -
tensor基础操作及用法
2.2 数据操作import torchtorch.manual_seed(0)torch.cuda.manual_seed(0)print(torch.__version__)0.4.12.2.1 创建Tensor创建一个5x3的未初始化的Tensor:x = torch.empty(5, 3)print(x)tensor([[0.0000e+00, 1.0842e-...原创 2020-02-17 00:10:47 · 2842 阅读 · 0 评论 -
RecurrentNeuralNetwork
循环神经网络本节介绍循环神经网络,下图展示了如何基于循环神经网络实现语言模型。我们的目的是基于当前的输入与过去的输入序列,预测序列的下一个字符。循环神经网络引入一个隐藏变量HHH,用HtH_{t}Ht表示HHH在时间步ttt的值。HtH_{t}Ht的计算基于XtX_{t}Xt和Ht−1H_{t-1}Ht−1,可以认为HtH_{t}Ht记录了到当前字符为止的序列信息,利用HtH_{t}H...原创 2020-02-16 17:40:15 · 145 阅读 · 0 评论 -
LanguageModel
语言模型一段自然语言文本可以看作是一个离散时间序列,给定一个长度为TTT的词的序列w1,w2,…,wTw_1, w_2, \ldots, w_Tw1,w2,…,wT,语言模型的目标就是评估该序列是否合理,即计算该序列的概率:P(w1,w2,…,wT).P(w_1, w_2, \ldots, w_T).P(w1,w2,…,wT).本节我们介绍基于统计的语言模型,主要是nnn元语...原创 2020-02-14 22:52:40 · 182 阅读 · 0 评论 -
TextPrepare
文本预处理文本是一类序列数据,一篇文章可以看作是字符或单词的序列,本节将介绍文本数据的常见预处理步骤,预处理通常包括四个步骤:读入文本分词建立字典,将每个词映射到一个唯一的索引(index)将文本从词的序列转换为索引的序列,方便输入模型读入文本我们用一部英文小说,即H. G. Well的Time Machine,作为示例,展示文本预处理的具体过程。import collecti...原创 2020-02-14 22:32:45 · 226 阅读 · 0 评论 -
MultilayerPerceptron
多层感知机多层感知机的基本知识使用多层感知机图像分类的从零开始的实现使用pytorch的简洁实现多层感知机的基本知识深度学习主要关注多层模型。在这里,我们将以多层感知机(multilayer perceptron,MLP)为例,介绍多层神经网络的概念。隐藏层下图展示了一个多层感知机的神经网络图,它含有一个隐藏层,该层中有5个隐藏单元。表达公式具体来说,给定一个小批量样本X∈...原创 2020-02-14 22:26:24 · 3414 阅读 · 0 评论 -
SoftmaxClassify
softmax和分类模型内容包含:softmax回归的基本概念如何获取Fashion-MNIST数据集和读取数据softmax回归模型的从零开始实现,实现一个对Fashion-MNIST训练集中的图像数据进行分类的模型使用pytorch重新实现softmax回归模型softmax的基本概念分类问题一个简单的图像分类问题,输入图像的高和宽均为2像素,色彩为灰度。图像中的4像...原创 2020-02-14 22:05:26 · 141 阅读 · 0 评论 -
LinearRegression
线性回归主要内容包括:线性回归的基本要素线性回归模型从零开始的实现线性回归模型使用pytorch的简洁实现线性回归的基本要素模型为了简单起见,这里我们假设价格只取决于房屋状况的两个因素,即面积(平方米)和房龄(年)。接下来我们希望探索价格与这两个因素的具体关系。线性回归假设输出与各个输入之间是线性关系:price=warea⋅area+wage⋅age+bprice...原创 2020-02-14 21:49:30 · 277 阅读 · 0 评论 -
机器学习——回归问题(线性回归,岭回归,逐步回归)
线性回归那么对于给定的数据x1,即矩阵X的第一列数据,预测结果u1将会通过如下公式给出:现在的问题是,手里有数据矩阵X和对应的标签向量y,怎么才能找到w呢?一个常用的方法就是找出使误差最小的w。这里的误差是指预测u值和真实y值之间的差值,使用该误差的简单累加将使得正差值和负差值相互抵消,所以我们采用平方误差。平方误差和可以写做:为啥能这么变化,记住一个前提:若x为向量,则默认x为列向量...原创 2019-12-17 21:58:08 · 1774 阅读 · 0 评论 -
机器学习——adaboost
from numpy import *def loadSimpData(): datMat=matrix([1,2],[2,1],[1,1],[1,1],[2,1]) classLabels=[1,1,-1,-1,-1] return datMat,classLabelsdef loadDataSet(fileName): numFeat=len(open(f...原创 2019-12-08 21:11:39 · 154 阅读 · 0 评论 -
机器学习——支持向量机
1.关于SVM的推导,建议直接观看大佬的博客非常的写的非常好https://blog.csdn.net/c406495762/article/details/78072313https://blog.csdn.net/c406495762/article/details/780723132.下面是我的一些学习笔记还不懂的地方代码(其中包含两个例子)from numpy impor...原创 2019-12-03 23:00:57 · 135 阅读 · 0 评论 -
机器学习——逻辑回归
Logistic回归的一般过程(1) 收集数据:采用任意方法收集数据。(2) 准备数据:由于需要进行距离计算,因此要求数据类型为数值型。另外,结构化数据 格式则最佳。(3) 分析数据:采用任意方法对数据进行分析。(4) 训练算法:大部分时间将用于训练,训练的目的是为了找到最佳的分类回归系数。(5) 测试算法:一旦训练步骤完成,分类将会很快。(6) 使用算法:首先,我们需要输入一些数据,...原创 2019-11-25 18:39:06 · 165 阅读 · 0 评论 -
机器学习——朴素贝叶斯
贝叶斯决策理论要求计算两个概率p1(x, y)和p2(x, y):如果p(c1|x, y) > p(c2|x, y),那么属于类别1;如果p(c2|x, y) > p(c1|x, y),那么属于类别2。如果每个特征需要N个样本,那么对于10个特征将需要 N10个样本,对于包含1000个特征的词汇表将需要N1000个样本。可以看到,所需要的样本数会随 着特征数目增大而迅速增长。...原创 2019-11-24 22:31:57 · 169 阅读 · 0 评论 -
机器学习—KNN算法
工作原理:给定测试样本,基于某种距离度量找出训练集中于其最靠近的K个训练样本,然后基于这K个训练样本的信息进行预测。在分类任务中可以使用"投票法"在回归任务中可以使用"平均法"还可以根据距离远近进行加权平均或加权投票,距离越近样本的权重越大没有显式的训练过程例子一我的朋友海伦一直使用在线约会网站寻找适合自己的约会对象。尽管约会网站会推荐不同的 人选,但她并不是喜欢每一个人。经过一番总结...原创 2019-11-15 21:45:06 · 205 阅读 · 0 评论 -
机器学习—决策树
原理k-近邻算法可以完成很多分类任务,但是它最大的缺点就是无法给出数据的内 在含义,决策树的主要优势就在于数据形式非常容易理解。决策树的一个重要 任务是为了数据中所蕴含的知识信息,因此决策树可以使用不熟悉的数据集合,并从中提取出一 系列规则,在这些机器根据数据集创建规则时,就是机器学习的过程。专家系统中经常使用决策 树,而且决策树给出结果往往可以匹敌在当前领域具有几十年工作经验的人类专家。决...原创 2019-11-16 17:16:46 · 412 阅读 · 0 评论