Python数学算法
文章平均质量分 72
涉及一些数学的模型、算法
佐佑思维
在读博士传递自己在做科研和写论文时学到或整理的技巧和资料;其中Python的内容纯属为自己的研究做准备,希望大家多多指教
展开
-
Permutation Importance重要性
Permutation Importance 对模型的特征没有偏见,也不局限于特定的模型类别,适用性较广原创 2023-12-28 13:29:10 · 1212 阅读 · 0 评论 -
随机森林算法的超参数调优
超参数优化的RandomSearch方法原创 2022-11-20 21:44:21 · 3590 阅读 · 0 评论 -
多目标决策之熵权法
熵权法根据各指标的变异程度,利用信息熵计算出各指标的熵权,再通过熵权对各指标的权重进行修正,从而得到较为客观的指标权重。原创 2022-11-12 14:08:22 · 3047 阅读 · 0 评论 -
keras构建非堆叠模型
Keras实现多输入、输出模型原创 2022-09-13 18:21:18 · 230 阅读 · 0 评论 -
python的 取整 及 四舍五入方法(包含list元素取整)
取整原创 2022-06-10 11:16:50 · 13769 阅读 · 0 评论 -
一句话理解:过拟合和欠拟合
目录过拟合欠拟合理想情况: 找到偏差和方差都很小的情况,即收敛且误差较小目前在许多任务中仍经常会出现过拟合等问题,还没有找到一个十分通用、有效的解决方法。过拟合过拟合(over-fitting):所建的机器学习模型在训练集中表现得过于优越,而在验证集和测试集中表现不佳。过拟合就是训练的时候效果很好(除了有用的特征外,模型还学到了很多没用的特征),但是在测试样本上的效果就很差(没用的特征干扰了模型的预测)。为什么会产生过拟合?一般是因为参数过多,后者样本过少,为了降低loss所致。总之就是参数原创 2022-02-16 11:18:24 · 809 阅读 · 0 评论 -
VIF检验相关性
VIF可以用来度量多重共线性问题,VIFj=11−Rj2\quad \mathrm{VIF}_{j}=\frac{1}{1-R_{j}^{2}}VIFj=1−Rj21式子中,Rj2R_{j}^{2}Rj2是第jjj个变量在所有变量上回归时的确定系数。如果VIF过大(比如大于5或10),则意味着存在多重共线性问题。#数据df = pd.read_excel(io='数据.xlsx', sheet_name=0, usecols=range(1,5))# 务必注意:一定要加上常数项,#如果没原创 2021-09-19 21:44:00 · 4928 阅读 · 0 评论 -
验证利用numpy和sklearn方法进行标准化的结果是否一致
目录1 标准化公式2 利用`np.mean`,`np.std`进行计算3 利用`preprocessing.StandardScaler()`进行计算1 标准化公式(Sample−mean)std\frac{(Sample - mean)}{std}std(Sample−mean)计算时对每个属性/每列分别进行Sample是一个(n_samples, n_features) 的数组,行代表有几组样本,列表示属性特征2 利用np.mean,np.std进行计算对其中一列属性进行计算并对比:(S原创 2021-07-21 22:25:27 · 289 阅读 · 0 评论 -
决定系数sklearn.metrics.r2_score到底是什么?
目录1 `.whl`文件都是python 的包,可以用来安装的1 .whl文件原创 2021-08-05 17:02:11 · 5161 阅读 · 0 评论 -
多分类ROC曲线:macro和 micro
https://blog.zhujian.life/posts/48526d13.html通过ROC曲线能够有效评估算法的性能,默认情况下适用于二分类任务,在多分类任务中利用one vs rest方式计算各个类别的混淆矩阵,使用如下平均方式macro:分别求出每个类,再进行算术平均 优点:直观、易懂,并且方便实现 缺点:实际情况下可能不同类别拥有不同的重要性,宏平均会导致计算结果受不常用类别的影响weighted:加权累加每个类别micro:全局计算。将所有混淆矩阵累加在一起,然后计原创 2021-09-15 22:23:39 · 4073 阅读 · 0 评论 -
秒懂神经网络并利用一行Python代码建立——代码详细参数思维导图,个人见解,希望可以帮助小白
神经网络0、原理0.1、一个简单的例子0.2、神经网络的核心结构是什么呢?0.3、建立神经网络0.4、神经网络的计算原理——误差逆传播算法6、推荐书单《Python神经网络编程》 ★佐佑思维二维码★0、原理神经网络就是利用计算器的计算功能来实现一种预测!这个预测结果的本质就是数字0.1、一个简单的例子一台计算机对”3×4“的输入进行处理,它的处理也许就是将乘法转化为相对更简单的加法,如何输出结果”12“其实神经网络的核心就是在修改中间部分,将其按照一定的结构编写,最终输出预测的结果。原创 2020-08-01 15:33:33 · 648 阅读 · 0 评论 -
决策树、随机森林中的多重共线性问题
目录1、回答12、回答23、回答3对于线性回归模型,数据中是不能有多重共线性的。我想知道如果使用决策树或者随机森林或者其他一些基于树的模型,数据中的多重共线性的现象对模型有没有什么影响?1、回答1随机森林的预测能力不受多重共线性影响。但是数据的解释性会被多重共线性影响。随机森林可以返回特征的重要性(importantce),当有多重共线性时,importance会被影响。一些具体多重共线性的特征的重要性会被相互抵消,从而影响我们解释和理解特征。比如说,特征A和B完全一样,我们在用随机森林时,它们的原创 2021-06-09 10:19:32 · 7529 阅读 · 0 评论 -
图神经网络和常见的神经网络的区别
exec函数0 前言1 为什么需要图神经网络?2 图神经网络是什么样子的?3 图神经网络的几个经典模型与发展4 无监督的节点表示学习(Unsupervised Node Representation)5 Graph Pooling参考知乎:https://zhuanlan.zhihu.com/p/1365216250 前言图神经网络有很多比较好的综述:1、Graph Neural Networks: A Review of Methods and Applications.2、A Compre原创 2020-11-21 13:59:08 · 12962 阅读 · 1 评论 -
深度理解受试者工作特征(ROC)曲线
目录1、分类结果混淆矩阵举例:2、ROC举例:3、AUC4、Python代码我们通常使用ROC和AUC来衡量分类算法在二分类问题上表现的好坏。参考:https://zhuanlan.zhihu.com/p/464385281、分类结果混淆矩阵在二分类问题上,可将样例根据其真实类别和分类模型预测的类别分为如下四种(1表示类别为真,0表示类别为假):真正例TP(true postive):样本真实类别为1,学习模型预测的类别也为1;假正例FP(false postive):样本真实类别为0,学习模原创 2020-12-23 18:03:06 · 11492 阅读 · 0 评论 -
层次分析与一致性检验
目录1、层次分析法的基本步骤1.1、建立层次结构模型1.2、构造判断(成对比较)矩阵1.3、层次单排序及一致性检验1.4、 层次总排序及其一致性检验2、总结:层次分析法的4步3、实例:去哪儿旅游5、为什么层次分析法要进行一致性检验?1、层次分析法的基本步骤参考:https://zhuanlan.zhihu.com/p/382078371.1、建立层次结构模型将决策的目标、考虑的因素(决策准则)和决策对象按他们之间的相互关系分成最高层、中间层和最低层,绘制层次结构图。最高层(目标层):决策的原创 2020-12-20 17:19:25 · 48825 阅读 · 1 评论 -
PCA主成分分析
目录 方法一:自己按照原理编写 1.1 代码 1.2 可视化贡献率 方法二:调用库 2.1 导入库 2.2 标准化 2.3 按照原始维度进行一次PCA,得到贡献率进行筛选维度 2.4 使用PCA进行降维到2维, 并查看降维后的结果 2.5 检验使用x和转换系数相乘后是否是降维后的拟合数据值 2.6 转换系数的可视化 2.7 数据降维可视化 与因子分析(FA)比较 方法一:自己按照原理编写 1.1 代码## pca特征降维# 导入相关模块import numpy as npimport seabo原创 2021-01-12 23:52:24 · 906 阅读 · 1 评论 -
构建模型——用Python构建logit、负二项回归、决策树与随机森林机器学习模型
目录1、 请采用计数数据分析模型(Count Data Model),对Crash Frequency.xls文件的数据进行建模分析,并回答以下问题:1.1、首先导入相关数据1.2、描述性统计1.3、计算变量的方差膨胀因子,检查多重共线性问题1.4、采用负二项回归建模1.5、拟合泊松回归模型2、 Red light running.xls文件是研究人员对四个交叉口开展闯红灯调查的记录数据2.1、首先导入相关数据2.2、生成交叉口和年龄的哑变量2.3、描述性统计2.4、检查共线性2.5、建立二项logisti原创 2021-06-09 11:50:42 · 5308 阅读 · 8 评论 -
偏度和峰度存在的意义
目录1 代码2 为什么要处理偏斜数据3 处理偏斜数据的一些常用技术4 峰度的意义1 代码import scipy.stats as stst.skew(data) # 计算偏度st.kurtosis(data) # 计算峰度2 为什么要处理偏斜数据因为许多统计测试和机器学习模型都依赖于正态性假设。 因此,严重偏斜意味着数据不正常,并且可能会影响您的统计测试或机器学习预测能力。如果偏度在-0.5到0.5之间,则数据是相当对称的(正态分布);如果偏斜度在-1和-0.5之间(负偏度)或0.5和原创 2021-08-07 23:44:01 · 8144 阅读 · 0 评论 -
多重共线性详解
目录 1、多重共线性的现象 2、出现的原因 3、判别标准 4、检验方法 5、多重共线性有什么影响 6、多重共线性处理方法 7、其他说明 8、多重共线性识别-python代码8.1、vif检验8.2 相关系数8.3 聚类 9、宏观把握共线性问题9.1、共线性的一般性的影响9.2、共线性对线性回归、逻辑回归的影响 10、statsmodel库DF Residuals:残差的自由度Df Model:模型参数个数(不包含常量参数)R-squared:可决系数adj-R-squared:修正可决系数 1、多重共线性原创 2020-12-26 23:04:23 · 47059 阅读 · 6 评论 -
ROC曲线下面积的相关计算和检验
《ROC曲线下面积的计算方法》 1、ROC曲线的含义 2、ROC曲线下面积的估计:双正态参数法 3、AUC的最大似然估计 4、面积的置信区间估计 5、delta方法 6、AUC非参数检验结合实例理解检验过程ROC是受试者工作特征(Receiver Ope rating Characteristic)的缩写。ROC曲线及ROC曲线下面积可作为某一诊断方法准确性评价的指标;通过对同一疾病的多种诊断试验分析比较,这些指标可帮助临床医生筛选出最佳诊断方案。国内外许多学者通过对不同类型资料进行研究,相继提出了ROC原创 2020-12-28 17:50:19 · 16051 阅读 · 0 评论 -
相关性分析
相关性分析1、方差分析1.1、相关术语:1.2、方差分析基本假定:1.3、原理:1.4、实例:1.4.1、解题第一步:提出假设1.4.2、解题第二步:构造检验统计量1.4.3、解题第三步:统计决策1.4.4、解题第四步:关系强度测量2、相关与回归分析2.1、相关分析2.1.1 、散点图2.1.2、相关系数2.1.3、显著性校验2.1.3.1、提出假设:2.1.3.2、计算统计量:2.1.3.3、进行决策:2.2、回归分析2.2.1 、一元线性回归2.2.1.1 、估算回归方程2.2.1.2、直线的拟合优度2原创 2020-12-20 14:13:02 · 19775 阅读 · 0 评论 -
机器学习的误差包含偏差和方差
目录1 Bias(偏差)、Error(误差)、Variance(方差)作者:orangeprincehttps://www.zhihu.com/question/27068705https://zhuanlan.zhihu.com/p/448726861 Bias(偏差)、Error(误差)、Variance(方差)作者:orangeprince链接:https://www.zhihu.com/question/27068705/answer/35151681来源:知乎著作权归作者所有。商业转载原创 2021-08-13 16:25:06 · 316 阅读 · 0 评论 -
进行鲁棒的线性模型估计
目录1 参考2 代码输出:Estimated coefficients (true, linear regression, RANSAC):82.1903908407869 [54.17236387] [82.08533159]纯线性回归系数54.17236387去除干扰后的线性拟合系数82.08533159去除后更接近真实的系数82.19039084078691 参考https://mp.weixin.qq.com/s/QjBSf_6Dus4ltnrQKYxRZA2 代码impo原创 2021-06-09 22:24:45 · 241 阅读 · 0 评论