Amihua Lau-CSDN博客

原创一起学深度学习系列——Softmax

动手学线性回归线性回归手撕[^1]构造数据集线性回归基于PyTorch实现python知识点补充python 的迭代器描述```iter()``````next()```python 的生成器描述线性回归手撕[^1]%matplotlib inlineimport randomimport torch from d2l import torch as d2l构造数据集y=Xw+b+ϵw=[2,−3.4]T b=4.2y = Xw+b+\epsilon\\w =

2021-11-03 19:45:35 691

原创组队学PyTorch Task2：数据结构基础

Task2：数据结构基础数据结构张量运算四则运算按元素计算所有元素求和逻辑运算线性代数广播机制降维点乘矩阵-向量积矩阵-矩阵乘法1−1-1−范数2−2-2−范数F-范数(矩阵范数)自动求导每次累计梯度时要记得清零实例import torch数据结构张量张量(tensor)表示由一个数值组成的数组，这个数组可能有多个维度。具有一个轴的张量对应数学上的向量（vector）。具有两个轴的张量对应数学上的矩阵（matrix）。具有两个轴以上的张量没有特殊的数学名称。行向量的创建x = torch.

2021-10-13 20:39:20 629

原创组队学PyTorch Task1 ： PyTorch 绪论

Task1 ： PyTorch 绪论深度学习 PyTorch or TensorFlow？什么是Torch ？又什么是PyTorchTorch是一个与Numpy类似的张量（Tensor）操作库PyTorch和Torch使用包含所有相同性能的C库PyTorch是一个基于Torch的Python开源机器学习库PyTorch是一个Python包，提供两个高级功能：安装PyTorchHello PyTorch深度学习 PyTorch or TensorFlow？PyTorch更有利于研究人员、爱好者、小规模

2021-10-10 00:38:41 367

原创 TASK11 XGBoost

XGBoost原理及其实战XGBoost的思想假设我们的数据集是D={(xi,yi)}(∣D∣=n,xi∈Rm,yi∈R)\mathcal{D}=\left\{\left(\mathbf{x}_{i}, y_{i}\right)\right\}\left(|\mathcal{D}|=n, \mathbf{x}_{i} \in \mathbb{R}^{m}, y_{i} \in \mathbb{R}\right)D={(xi,yi)}(∣D∣=n,xi∈Rm,yi∈R)STEP1：构造目标函数

2021-04-26 23:47:14 191

原创 Task10:GBDT

树算法的思想提升树利用加法模型和前向分步算法实现学习的优化过程。当损失函数时平方损失和指数损失函数时，每一步的优化很简单，如平方损失函数学习残差回归树。树算法最重要是寻找最佳的划分点，分类树用纯度来判断最佳划分点使用信息增益（ID3算法），信息增益比（C4.5算法），基尼系数（CART分类树）。但是在回归树中的样本标签是连续数值，可划分点包含了所有特征的所有可取的值。所以再使用熵之类的指标不再合适，取而代之的是平方误差，它能很好的评判拟合程度。事实上当损失函数时平方损失和指数损失函数时，每一步的优化很

2021-04-24 01:41:17 148

原创 TASK9 Boosting

BoostingPAC学习（概率近似正确学习）PAC总结理论同等条件下，模型越复杂泛化误差越大。同一模型在样本满足一定条件的情况下，其数量越大，模型泛化误差越小，因此还可以说模型越复杂越吃样本。某个训练样本对正确目标的映射，而称为‘概念’，用符号ccc表示，即存在一个映射，使得c(x)=yc(x)= yc(x)=y，这只是某一个结果，并不是集合。所有我们希望所有训练目标的映射集合为‘概念类’，用符号CCC表示。模型经过训练后得到的所有结果映射集合，称为‘假设空间’，用符号H表示。首先PAC学习

2021-04-19 20:12:56 494

原创 Task8 Bagging

Task8 Bagging 与 Random ForestsBagging想法来源在做集成学习时，我们的想法是要想集成后的模型泛化性能强，应当使个体学习器尽可能“独立”，尽管绝对独立在实际中没办法实现，但可以采取一些手段使得个体学习器尽可能具有较大差异。给定一个训练集，一种可达成的做法是对训练样本进行采样，产生出许多训练子集，再从每个训练自己中训练个体学习器。这样，由于训练的数据不同，获得的个体学习器就会具有较大的差异，比如说，某些学习器对“性别区分”敏感，而另外的学习器对“成绩”比较敏感，这样就可以

2021-04-17 21:53:41 295

原创 Task7 投票法

集成学习(中) Task7 投票法的思路投票法的思想来源来自于我们日常常见的“少数服从多数”，对于参与这次“研讨会”的每一个机器学习模型，对同一个“分类”问题都有有一个看法，我们统计所有模型的投票结果，被多次认同的结果，作为这个融合模型的最终结果。这就是集成学习中的投票法想法来源。对于回归模型来说，投票法最终的预测结果是多个其他回归模型预测结果的平均值。对于分类模型，硬投票法的预测结果是多个模型预测结果中出现次数最多的类别，软投票对各类预测结果的概率进行求和，最终选取概率之和最大的类标签。常见的投票

2021-04-14 00:39:43 567

原创集成学习(下)——Task6 分类模型

机器学习专题机器学习三要素模式识别贝叶斯推导机器学习训练的套路考试前千万不要背书你以为好好学习就可以考好了？分类模型你以为好好学习就可以考好了？机器学习专题进度条基于```fetch_lfw_people```人脸数据的分类实战[^1]构建管道(make_pipeline) 知识笔记(https://blog.csdn.net/weixin_43913783/article/details/114852227?spm=1001.2014.3001.5501)进度条Mon 15Mon 2

2021-03-29 21:39:17 272

原创集成学习(上)——Task5 分类模型

机器学习专题机器学习三要素模式识别贝叶斯推导机器学习训练的套路考试前千万不要背书你以为好好学习就可以考好了？你以为好好学习就可以考好了？机器学习专题进度条回归与分类的本质区别那么能否利用回归问题做分类任务呢？如何利用线性模型更好的做分类任务？如何确定www与bbb呢？多分类模型基于概率的多分类模型：线性判别分析：朴素贝叶斯支持向量机（SVM）SVM的核心思想Lagrange 乘子法KKT条件Hard-margin SVM(https://blog.csdn.net/weixin_439137

2021-03-27 22:12:04 400

原创集成学习(上)——Task4 你以为好好学习就可以考好了？

机器学习专题机器学习三要素模式识别贝叶斯推导机器学习训练的套路考试前千万不要背书你以为好好学习就可以考好了？机器学习专题进度条你以为学习可以“一招鲜吃遍天”？参数与超参数[^3]三种常见的调参贪心调参（坐标下降）[^1]网格调参贝叶斯调参随机搜索与常规的网格搜索或者随机搜索的区别是：代码实战[^2]贪心调参Grid Search 调参贝叶斯调参网格调参随机搜索(https://blog.csdn.net/weixin_43913783/article/details/114852227?spm

2021-03-25 00:04:07 889

原创集成学习(上)——Task3 考试前千万不要背书

机器学习专题机器学习三要素模式识别贝叶斯推导机器学习训练的套路考试前千万不要背书机器学习专题进度条考试前千万不要背书！我们要怎么学习？[^1]世界上难的不是无路可走，而是选择太多我们怎么解决过拟合？从统计的角度看模型选择[^2]偏差-方差的权衡：模型不能波动太大小结那究竟怎么学啊啊啊！！！正则化怎么机器学习这么多风险[^3]正则化的正确性交叉验证最优子集选择向前逐步选择[^4]降维(https://blog.csdn.net/weixin_43913783/article/details/114

2021-03-22 23:27:00 526

原创集成学习(上)——Task2 机器学习训练的套路

机器学习专题机器学习三要素模式识别贝叶斯推导机器学习训练的套路机器学习专题进度条从“应试”的角度，怎么做一个机器学习项目以回归为例，我们来做一个项目从线性回归开始如果画不出图了，我该怎么办？从多角度对线性回归进行理解代数运算几何解释概率角度其他的度量标准搞起来要是没那么线性怎么办？多项式回归怎么实现？广义可加模型(GAM)：怎么实现？回归树回归树与线性模型的对比怎么实现？(https://blog.csdn.net/weixin_43913783/article/details/114852227

2021-03-18 16:11:14 199

原创《模式识别》课本一个小推导

对于一个二分类{ω1\{ \omega_1{ω1,ω2}\omega_2\}ω2}问题,我们记将属于第一类ω1\omega_1ω1样本xxx误分类成ω2\omega_2ω2的概率为P1(e)=∫R2p(x∣ω1)dxP_1(e) = \int _{\R_2}p(x|\omega_1)dxP1(e)=∫R2p(x∣ω1)dx,同理，将属于第一类ω1\omega_1ω1样本xxx误分类成ω2\omega_2ω2的概率为P2(e)=∫R1p(x∣ω2)dxP_2(e) = \int _{\

2021-03-18 00:52:49 493

原创集成学习(上)——Task1 机器学习三要素

机器学习三要素进度条踩的小坑机器学习到底学习啥？文科生能搞定机器学习吗？常用的工具有哪些？[^1]回归具体过程数据导入数据概览模型训练——线性回归制作训练集和测试集的数据训练模型分类无监督学习进度条Mon 15Mon 22Mon 290 ML 回归偏差评估调参分类评估调参现有任务机器学习基础踩的小坑R

2021-03-16 00:16:23 958

原创 DCIC Task3

Table of Contents1 EDA1.1 导入常用库1.2 数据概览1.2.1 地图可视化1.2.2 对停车点的识别与聚合1.2.3 潮汐状态可视化1.2.4 停车点优化EDA导入常用库import os, codecsimport pandas as pdimport numpy as np%pylab inline '''

2021-02-24 17:58:33 201

原创 DCIC2021_task1

DCIC2021 共享单车潮汐分布预测赛题理解赛题目的赛题任务Baseline中一些特殊的库的了解```%pylab inline ``````Geohash``````hnswlib```库的导入与数据读取常见库的导入读取数据集共享的单车订单数据的聚合地图可视化按照经纬度聚合按照最近的经纬度潮汐统计方法1：Geohash匹配计算潮汐方法2：基于KNN密度匹配赛题理解赛题目的通过对车辆数据的综合分析，对厦门岛内早高峰阶段潮汐点进行有效定位，进一步设计高峰期群智优化方案，缓解潮汐点供需问题。赛题

2021-02-19 20:25:00 954 1

原创 485. 最大连续1的个数 Max Consecutive Ones

Table of Contents1 485. 最大连续1的个数1.1 题目：给定一个二进制数组，计算其中最大连续1的个数。1.2 我的解法：1.3 官方题解485. 最大连续1的个数这是我在leetcode上的第一个题目，嗯，我没做“两数之和”，而是直接来到了这里，题目：给定一个二进制数组，计算其中最大连续1的个数。输入: [1,1,0,1,1,1]输出: 3解释: 开头的两位和最后的三位都是连续

2020-12-02 22:43:11 222

原创图神经网络七日打卡营总结

图神经网络七日打卡营总结最近刚好做了一个项目是与GNN相关的，刚好看到有这种手把手教学的课程就果断报名了，当然小斯妹讲课的时候讲了很多我看论文时候还没有理解的东西，包括配合动图，让那些数学公式变得很好理解，官方也讲解的了很多很经典的主流模型，并且将作业复现魔改的很接地气，让我们这些小白操作起来很方便，当然还有很多东西需要学习，关于课程具体内容的总结，就需要留个坑稍后进一步总结啦，这周刚好在考试，所以下周补起来，赶课时干的有点疯狂。...

2020-11-29 16:20:45 143

原创金融风控数据挖掘 · Task 5 模型融合

一、模型融合常见方法模型融合是比赛后期上分的重要手段，特别是多人组队学习的比赛中，将不同队友的模型进行融合，可能会收获意想不到的效果哦，往往模型相差越大且模型表现都不错的前提下，模型融合后结果会有大幅提升，以下是模型融合的方式。平均：a. 简单平均法b. 加权平均法投票：a. 简单投票法b. 加权投票法综合：a. 排序融合b. log融合stacking:a. 构建多层模型，并利用预测结果再拟合预测。blending：a. 选取部分数据预测训练得到预测结果作为新特征，带入剩下的

2020-09-27 21:48:43 168

原创金融风控数据挖掘 · Task 4 建模与调参

金融风控数据挖掘 · Task 4 建模与调参一、常见的模型逻辑回归模型：1.优点a. 训练速度较快，分类的时候，计算量仅仅只和特征的数目相关；b. 简单易理解，模型的可解释性非常好，从特征的权重可以看到不同的特征对最后结果的影响；c. 适合二分类问题，不需要缩放输入特征；d. 内存资源占用小，只需要存储各个维度的特征值；2.缺点a. 逻辑回归需要预先处理缺失值和异常值【可参考task3特征工程】； b. 不能用Logistic回归去解决非线性问题，因为Logistic的决策面是线性的；

2020-09-24 22:34:56 242

原创金融风控数据挖掘 · Task 3 特征工程

金融风控数据挖掘 · Task 3 特征工程一、常见的特征工程包括：1.异常处理：通过箱线图（或 3-Sigma）分析删除异常值；BOX-COX 转换（处理有偏分布）；长尾截断；2.特征归一化/标准化：标准化（转换为标准正态分布）；归一化（抓换到 [0,1] 区间）；针对幂律分布，可以采用公式：log(1+x1+median)log(\frac{1+x}{1+median})log(1+median1+x)3.数据分桶：等频分桶；等距分桶；Best-KS 分桶（类似利

2020-09-21 16:50:16 346

原创金融风控数据挖掘 · Task 2 EDA 数据可视化

金融风控数据挖掘 · Task 2 EDA 数据可视化一、数据载入、存储及文件格式1. 文件格式的读写常用的数据处理用到的库二、数据总览一、数据载入、存储及文件格式1. 文件格式的读写常用的数据处理用到的库import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns import datetime利用PandasPandasPandas将表格型数据读取为

2020-09-18 21:08:46 393

原创广工大数协阿里云天池金融风控训练营 · Task 1 赛题理解与评分规则

金融风控数据挖掘 · Task 1 赛题理解与评分规则一、赛题理解一、赛题理解比赛地址：https://tianchi.aliyun.com/s/88d2efb10daf79a9aa69f9a79db4107d这一次新人赛的题目以金融风控中的个人信贷为背景，给所给的47列特征中，根据贷款申请人的数据信息预测其是否有违约的可能，以此判断是否通过贷款。这本质上是一个多分类问题，最简单的方法就是直接用单线性模型，因为之前的一些比赛经历，线性模型在多分类问题上有着不错的效果。进行优劣比较后，再

2020-09-15 23:27:47 451

原创 SVM 支持向量机

SVM 支持向量机SVM的核心思想Lagrange 乘子法KKT条件Hard-margin SVMSVM的核心思想支持向量机（SVM）算法在分类问题中有着重要地位，其主要思想是最大化两类之间的间隔。按照数据集的特点：线性可分问题，如之前的感知机算法处理的问题线性可分，只有一点点错误点，如感知机算法发展出来的 Pocket 算法处理的问题非线性问题，完全不可分，如在感知机问题发展出来的多...

2020-05-01 18:30:10 260

原创手推（不动）条件随机场

手推（不动）条件随机场Markov过程隐Markov算法实战代码所学之前，还望海涵！Markov过程隐Markov算法我们知道，分类问题可以分为硬分类和软分类两种，其中硬分类有 SVM，PLA，LDA 等。软分类问题大体上可以分为概率生成和概率判别模型，其中较为有名的概率判别模型有 Logistic 回归，生成模型有朴素贝叶斯模型。Logistic 回归模型的损失函数为交叉熵，这类模...

2020-04-29 18:00:06 309

原创手推不动 EM & 实验代码

手推不动 EM & 实验代码EM算法的引入EM的概率基础理解（三硬币问题）实验代码库的引入训练集EM高斯混合分布主函数Emm…太硬核了手推不动了EM的本质是解决具有隐变量的混合模型的参数估计（极大似然估计）。MLE 对 p(x∣θ)p(x|\theta)p(x∣θ)参数的估计记为θMLE=argmaxθlog(p(x∣θ)\theta_{MLE} = argmax_{\the...

2020-04-25 19:11:54 380

原创手推朴素贝叶斯

手推朴素贝叶斯&Sklearn 调库方法手推朴素贝叶斯**下溢问题****Sklearn调库实现**手推朴素贝叶斯下溢问题数值下溢问题：是指计算机浮点数计算的结果小于可以表示的最小数，因为计算机的能力有限，当数值小于一定数时，其无法精确保存，会造成数值的精度丢失.由上述公式可以看到，求概率时多个概率值相乘，得到的结果往往非常小；因此通常采用取对数的方式，将连乘转化为连加，...

2020-04-23 23:22:22 393

原创手推线性模型及最小二乘法（房价预测实例）

手推线性模型及最小二乘法（房价预测实例）线性模型及最小二乘法推导房价预测实例Reference线性模型及最小二乘法推导房价预测实例生成数据#生成数据import numpy as np#生成随机数np.random.seed(1234)x = np.random.rand(500,3)#构建映射关系，模拟真实的数据待预测值,映射关系为y = 4.2 + 5.7*x1 + 1...

2020-04-21 22:35:39 1593

原创 Task5 模型融合

Task5 模型融合5.1模型融合的方法5.2 Stacking的一些笔记5.3 代码5.3.1 简单线性加权5.3.2 Stacking融合(回归)：5.3.2 分类5.1模型融合的方法简单线性加权：回归（分类概率）：算术平均融合（Arithmetic mean），几何平均融合（Geometric mean）；分类：投票（Voting)综合：排序融合(Rank averaging)...

2020-04-04 21:39:34 223

原创 Task 4 机器学习模型推导

Task 5 机器学习模型推导1 线性回归模型线性回归是一种被广泛应用的回归技术，也是机器学习里面最简单的一个模型，它有很多种推广形式，本质上它是一系列特征的线性组合，在二维空间中，你可以把它视作一条直线，在三维空间中可以视作是一个平面。线性回归最普通的形式是其中x向量代表一条样本{x1,x2,x3…xn}，其中x1，x2，x3代表样本的各个特征，w是一条向量代表了每个特征所占的权重，b...

2020-04-01 21:46:33 153

原创 Task3 特征工程

Task3 特征工程一、数据预处理在这一块，比较常用的包是sklearn.Processing data,主要包括以下操作：异常值处理使用箱型图（或小提琴图）发现离群点（off-group points）之后，为了不干扰实验结果，我们通常将离群点处理掉： #from DW阿泽 import the code def outliers_proc(data, col_name, s...

2020-03-27 21:56:50 292

原创二手车售价预测赛题理解与EDA

二手车售价预测赛题理解与EDA一、赛题理解1.1讲座重难点赛题理解的关键（包括但不仅限）比赛的注意事项（数据源、特征说明、任务目标、评价指标（优化的方向））题目所给数据的隐藏条件实战的一般流程由自己写的或者官方的Baseline1.2对于本次题目的理解1.2.1题目介绍给了一堆脱敏后的德国二手车数据（超370，000条样本），训练集 ‘used...

2020-03-24 21:48:02 332

weixin_43913783的博客