机器学习算法
文章平均质量分 68
Code Wang
研究方向为机器学习与材料信息学。
展开
-
超参数优化
超参数优化,应该是所有机器学习模型都必须要经历的一个过程。很早以前训练模型,比如分类,认为精度达到90%或者自己觉得足够的精度就已经OK,但这其实是远远不够的。在Kaggle比赛中,寻找好的特征是一方面,有最佳的超参数也必不可少。尤其是现在使用集成学习比如随机森林、XGBoost等,超参数对模型的性能影响很大,必须要考虑。超参数优化超参数优化(Hyperparameter Optimization)主要存在两方面的困难:(1)超参数优化是一个组合优化问题,无法像一般参数那样通过梯度下降方法来优化原创 2021-07-02 22:08:06 · 5120 阅读 · 3 评论 -
模型评估
机器学习模型评估通常,我们需要对机器学习模型进行评估,量化其泛化能力,这里分为评估方法和评估指标。评估方法留出法(hold-out)直接将数据集划分为两个互斥的集合,划分时要尽可能保持数据分布的一致性,避免因数据划分过程引入额外的偏差而对最终结果产生影响。可以采用“分层采样”(stratified sampling)来保证数据的分布均匀。其次,留出法得到的结果往往不稳定,因此需要重复多次随机划分、独立实验,然后取平均值作为评估结果。交叉验证(cross validation)也是原创 2021-05-10 23:20:27 · 372 阅读 · 0 评论 -
sklearn解决回归问题
这里只是大致统计一下利用sklearn做回归的方法选择, 后续进行案例分析。方法:# 线性回归from sklearn.linear_model import LinearRegressionlinear_regression = LinearRegression()# 决策树回归from sklearn import treedecision_tree_regression...原创 2020-04-29 15:19:58 · 1107 阅读 · 0 评论 -
贝叶斯优化-matlab
当我们遇到的一个最优化问题,但是目标函数不知道,或者说目标函数是类似于黑盒子,很难用数学公式/程序写出来时,此时想要求得目标函数的极值,可以使用贝叶斯优化,其主要的适用的情景是维数不超过20维,目标是一个具体的数值时。这样的情景有很多,比如:我们想知道神经网络多少层、每层多少个节点时误差最小;支持向量机的数据集如何划分时交叉验证损失最小……这些就是超参数优化问题了。贝叶斯优化的...原创 2020-02-29 16:13:28 · 10293 阅读 · 1 评论 -
Logistic Regression
Logistic Regression又称逻辑回归,分类算法中的二分类算法,属于监督学习的范畴,算法复杂度低。1.模型Logistic Regression模型是广义线性模型的一种,属于线性的分类模型。找到一条直线,将两类区分开来,这样的直线成为超平面。可以用线性函数来表示:其中,是权重,是偏置。在多维的情况下,它们都是向量。在算法中,还要用到阈值函数,一般这里用到的sig...原创 2019-03-30 15:57:31 · 601 阅读 · 0 评论 -
Factorization Machine
Factorization Machine1.训练模型# coding:UTF-8'''Date:20180426@author: zhilongwang'''import numpy as npfrom random import normalvariate # 正态分布def loadDataSet(data): '''导入训练数据 in...原创 2019-04-26 19:48:48 · 280 阅读 · 0 评论 -
高斯混合模型GMM
这周突发兴致,拿起“西瓜书”啃了啃,没按照书上的目录来,结合目前正在做的,看到了高斯混合模型(Gaussian mixture model——GMM)。这个模型与原型聚类稍有区别,是采用概率模型来聚类。1.高斯分布既然有“高斯”两字,那就跟高斯分布有关吧~然而我连概率密度表达式都记不太清了,赶紧复习一下!一元高斯分布:多元高斯分布:我使用的是多元高斯分布,是均值...原创 2019-07-12 14:56:26 · 2383 阅读 · 1 评论