基本功&经典方法
文章平均质量分 72
常见模型、评价方法等
女青年学习日记
这个作者很懒,什么都没留下…
展开
-
[基本功]决策树
缺点:有些分支当前划分虽不能提升泛化性能,但在其基础上的后续划分却有可能导致性能显著提高,预剪枝基于贪心本质,带来了欠拟合风险。噪音数据可能影响决策树,在数据带有噪声的情况下,通过剪枝可将决策树的泛化性能提高25%预剪枝,若当前节点的划分不能带来泛化性能提升,则停止划分并将当前结点标记为叶结点。与离散属性不同,若当前结点划分属性为连续属性,该属性还可作为其后代结点的划分属性。后剪枝,生成决策树后,自底向上对非叶节点考察,用单一叶结点代替整个子树。对连续属性a,可考察包含n-1个元素的候选划分点集合。原创 2023-12-21 14:29:42 · 748 阅读 · 0 评论 -
[基本功]Adaboost简介
基本概念强可学习:在概率近似正确学习(PAC)的框架中,一个概念(类),如果存在一个多项式的算法能够学习它,并且正确率很高,则称这个概念是强可学习的。弱可学习:一个概念(类),如果存在一个多项式学习算法能够学习它,学习的正确率仅比随即猜测略好,则称这个概念是弱可学习的。在PAC学习的框架下,强可学习和弱可学习互为充分必要条件。Adaboost算法(分类)输入:训练数据集T=(x1,y1),(x2,y2),...,(xN,yN)T={(x_1,y_1),(x_2,y_2),...,(x_N,y_原创 2022-02-24 12:59:23 · 903 阅读 · 0 评论 -
[基本功]xgboost简介
简介XGBoost(eXtreme Gradient Boosting):极致梯度提升1、原理一堆CART树的集合,将每棵树的预测值加在一起得到最后的预测值。xgboost利用了损失函数二阶导的信息,并在目标函数之外加入了正则项,避免过拟合。2、优点高效、灵活、轻便在传统boosting的基础上,利用cpu的多线程,引入正则化项,控制了模型的复杂度。并且xgb可并行处理,并能对缺失值处理,还内置交叉验证。基础——GBDTXGBoost和GBDT的基本思想相同,但做出了一些优化,故先介绍GBD原创 2022-02-23 13:17:40 · 877 阅读 · 0 评论 -
[基本功]RFM模型
1、作用:根据客户活跃程度和交易金额的贡献,进行客户价值细分的一种方法。它能够识别优质客户;定制个性化的沟通和营销服务,为更多的营销决策提供有力支持;能够衡量客户价值和客户利润创收的能力。2、RFM解释:R(Recency):最近一次交易时间间隔F(Frequency):客户在最近一段时间内交易次数M(Monetray):客户在最近一段时间内交易金额3、如何建模:对于R\F\M三个维度,分别设定一个阈值,用来划分客户在该维度的价值是高还是低。这个阈值可以用中位数、平均数或经验数等等。令每个维度原创 2022-02-21 19:37:52 · 948 阅读 · 0 评论 -
[基本功]pytorch基本操作教程
文章目录数据加载DatasetDataloader可视化——TensorBoardTransformToTensorNomalizeResizeRandomCroptorch.nn:神经网络的基本架构Module:所有神经网络的基本类Convolution LayersPooling Layers非线性激活正则化层Recurrent LayersTransformer LayersLinear LayersDropout LayersSparse LayersDistance FunctionsLoss F原创 2022-02-15 14:26:03 · 985 阅读 · 0 评论 -
[基本功]卡方分布、卡方检验、卡方分箱
一、卡方分布定义:k个独立的标准正态随机变量的平方和服从自由度为k的卡方分布二、卡方检验:χk2=∑(A−E)2E,A为实际频数,E为期望频数\chi_k^2=\sum\frac{(A-E)^2}{E},A为实际频数,E为期望频数χk2=∑E(A−E)2,A为实际频数,E为期望频数拟合优度检验用来检验观测数与依照某种假设或分布模型计算得到的理论数之间一致性的假设检验。计算分类变量中各类别的期望频数与观察频数对比,判断是否有显著差异。独立性检验(列联分析)分析两个分类变量是否独立原创 2021-12-23 18:08:33 · 917 阅读 · 0 评论 -
[基本功]分类模型评价标准
混淆矩阵:预测阳性预测阴性总计实际阳性TPFNP实际阴性FPTNN总计XYntotaln_{total}ntotal准确率(accuracy)TP+TNntotal=TP+TNTP+TN+FP+FN\frac{TP+TN}{n_{total}}=\frac{TP+TN}{TP+TN+FP+FN}ntotalTP+TN=TP+TN+FP+FNTP+TN缺点:无法应对样本不均衡情况。当负样本占99%时,吧所有样本预测为负样本也能获原创 2021-12-22 19:18:25 · 493 阅读 · 0 评论 -
[基本功]回归模型评价标准
均方误差(MSE, Mean Square Error)预测值与真实值偏差的平方和的平均数。MSE(y,y^)=1n∑i=1n(yi−y^i)2MSE(y,\hat y)=\frac1n\sum_{i=1}^n(y_i-\hat y_i)^2MSE(y,y^)=n1i=1∑n(yi−y^i)2均方根误差(RMSE, Root Mean Squared Error)MSE的平方根。数量级与真实值相同。RMSE(y,y^)=1n∑i=1n(yi−y^i)2RMSE(y,\ha..原创 2021-12-22 17:56:42 · 535 阅读 · 0 评论 -
[基本功]SVM如何优化拉格朗日乘子——SMO算法
问题:在SVM原问题转化为对偶问题后,如何由下式求得最优解α∗\alpha^*α∗minα12∑i=1N∑j=1Nαiαjyiyj(xi⋅xj)−∑i=1Nαis.t. αi>=0 , ∑i=1Nαiyi=0 min_{\alpha}\frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_jy_iy_j(x_i·x_j)-\sum_{i=1}^N\alpha_i\\s.t.\;\alpha_i>=0\;,\;\\\sum_{i=1}^N\a原创 2021-12-22 11:21:40 · 364 阅读 · 0 评论 -
[基本功]辛普森悖论
辛普森悖论是指什么现象?当人们尝试探究两种变量(比如新生录取率与性别)是否具有相关性时,会分别对之进行分组研究。然而,在分组比较中都占优势的一方,在总评中有时反而是失势的一方。上表中,商学院女生录取率为49%<男生录取率75%,法学院女生录取率5%<男生录取率10%,但总体录取率女生42%>男生21%。因为实际上女生总体录取率的42%=49%∗100120+5%∗2012042\%=49\%*\frac{100}{120}+5\%*\frac{20}{120}42%=49%∗12..原创 2021-12-22 10:58:03 · 466 阅读 · 0 评论 -
[基本功]聚类方法:层次聚类&k均值聚类
本文参考李航的《统计学习方法》撰写文章目录一、聚类基本概念1.1 距离&相似度1.2 类&簇1.3 类与类的距离(连接)二、层次聚类2.1 聚合(自下而上)2.2 分裂(自上而下)三、k均值聚类一、聚类基本概念1.1 距离&相似度假设样本集合为矩阵X=[Xij]m∗nX=[X_{ij}]_{m*n}X=[Xij]m∗n,第i行表示第i个属性,第j列表示第j个样本。闵可夫斯基距离dij=(∑k=1m∣xki−xkj∣p)1p,p>=1d_{ij}=(\sum原创 2021-12-21 21:29:59 · 972 阅读 · 0 评论 -
[基本功]A/B test简要介绍
A/B test的含义含义:也称为分割测试或桶测试,是一种将网页或应用程序的两个版本相互比较以确定哪个版本的性能更好的方法。A/B test本质上是一个实验,其中页面的两个或多个变体随机显示给用户,统计分析确定哪个变体对于给定的目标效果更好操作:对同一个页面创建两个版本,一半流量显示页面原始版本(控件),一半流量显示页面修改版本(变体)目的:让个人、团队和公司通过用户行为结果数据不断对其用户体验进行仔细更改。举例:为提高销售质量和数量,尝试对标题、可视图像、表单字段、号召性用于和页面原创 2021-12-21 18:39:26 · 562 阅读 · 0 评论 -
[基本功]假设检验概念&统计量一览
基础概念第Ⅰ类错误:弃真错误,原假设是真的,但却被我们拒绝了,α\alphaα第Ⅱ类错误:取伪错误,原假设是假的,但却被我们接受了,β\betaβ显著性水平:当原假设正确时,检验统计量落在拒绝域的概率,也就是犯弃真错误的概率,事先确定好,一般取0.01,0.05,0.1等双侧检验:原假设形式为“≠”单侧检验:备择假设为“<”称为左侧检验,备择假设为“>”称为右侧检验双侧检验拒绝域:左侧检验拒绝域:右侧检验拒绝域:大样本:样本量>=30小样本:样本量<30一个总原创 2021-12-21 18:17:58 · 2562 阅读 · 1 评论 -
[基本功]逻辑回归(LR)理论知识
文章目录一、logistic分布二、二项逻辑斯蒂回归模型模型简介模型参数估计三、多项逻辑斯蒂回归模型一、logistic分布逻辑斯蒂分布分布函数:F(x)=P(X<=x)=11+e−(x−μ)/γF(x)=P(X<=x)=\frac{1}{1+e^{-(x-\mu)/\gamma}}F(x)=P(X<=x)=1+e−(x−μ)/γ1逻辑斯蒂分布密度函数:f(x)=F′(x)=e−(x−μ)/γγ(1+e−(x−μ)/γ)2f(x)=F'(x)=\frac{e^{-原创 2021-12-20 14:52:12 · 388 阅读 · 0 评论 -
[基本功]支持向量机(SVM)理论知识
本文参考李航的《统计学习方法》撰写文章目录SVM的主要特征硬间隔SVM(线性可分支持向量机)训练目标对偶算法进行学习软间隔SVM(线性支持向量机)训练目标对偶算法进行学习合页损失函数非线性SVM(线性不可分支持向量机)简要介绍常用核函数训练算法SVM的主要特征二分类模型定义在特征空间上的间隔最大的线性分类器(间隔最大使它有别于感知机)判别模型,与概率无关SVM有三宝,间隔、对偶、核技巧核技巧可以使SVM成为实质上的非线性分类器硬间隔SVM(线性可分支持向量机)训练目标假设给定一个训练原创 2021-12-17 17:09:02 · 580 阅读 · 1 评论 -
[基本功]jieba分词基本操作集合
jieba分词分词模式精确模式试图将句子最精确地切开,适合文本分析全模式把句子中所有可以成词的词语扫描出来,速度快,不能解决歧义搜索引擎模式在精确模式基础上,对长词再次切分,提高召回率,适合搜索引擎分词paddle模式利用PaddlePaddle深度学习框架,训练序列标注网络模型实现分词。支持词性标注pip install paddlepaddle-tiny==1.6.1jieba.enable_paddle()主要功能分词jieba.cut需要原创 2021-12-15 10:56:56 · 1407 阅读 · 0 评论 -
[基本功]MySQL基本操作集合
MySQL启动与停止计算机右击,管理,服务和应用程序,服务,mysql,右击可改手动改停止以管理员身份打开cmdnet stop mysql:停止net start mysql:启动登录与退出mysql自带客户端只适用root用户cmd管理员mysql -h localhost -P3306 -u root -p-h主机-P端口号-u用户-p输入密码mysql -u root -p连接本机退出exit或ctrl+c退出语法原创 2021-12-14 12:11:46 · 517 阅读 · 0 评论 -
[模型]CNN、Text-CNN、PCNN学习笔记
CNN卷积层池化层Dropout层Text-CNNPCNN原创 2021-12-06 14:59:21 · 357 阅读 · 0 评论 -
[基本功]模型评估方法
模型评估1、准确率的局限性准确率Accuracy=ncorrect/ntotalAccuracy=n_{correct}/n_{total}Accuracy=ncorrect/ntotal,指分类正确的样本占总样本个数的比例缺点:当负样本占99%时,把所有样本都预测为负样本也可以获得99%的准确率。当不同类别的样本比例非常不均衡时,占比大的类别往往成为影响准确率的最主要因素。改进:平均准确率(每个类别下的样本准确率的算术平均)其它问题:评估指标的选择、过拟合或欠拟合、测试集原创 2021-12-10 21:00:52 · 1293 阅读 · 0 评论 -
[基本功]常见特征工程
特征工程1、为什么要对数值类型的特征做归一化?为了消除数据特征之间的量纲影响。常用方法:(1)线性函数归一化:Xnorm=(X−Xmin)/(Xmax−Xmin)X_{norm}=(X-X_{min})/(X_{max}-X_{min})Xnorm=(X−Xmin)/(Xmax−Xmin)特点:将结果映射到[0,1]范围,实现对原始数据的等比缩放(2)零均值归一化:z=(x−μ)/σz=(x-\mu)/\sigmaz=(x−μ)/σ特点:将原始数据映射到均值为0、标准差为1的分布上原创 2021-12-10 11:23:33 · 1166 阅读 · 0 评论