机器学习
文章平均质量分 91
秋男不吃牛肉豆制品牛奶小麦
这个作者很懒,什么都没留下…
展开
-
机器学习面经——LR、SVM相关问题
文章目录指数分布族与广义线性模型LRLogistic Regression推导多项Logistic回归从神经网络的角度看LRLR的优点LR的缺点LR与线性回归的区别与联系LR与SVM的区别MaxEnt模型Softmax模型与LR相关的模型:参考内容 指数分布族与广义线性模型 在概率统计中,如果某概率分布满足下式子,我们称之为指数分布族。p(y;η)=b(y)exp(ηT(y)−a(η))p...原创 2020-07-14 10:40:56 · 1095 阅读 · 0 评论 -
《统计学习方法》——奇异值分解(SVD)
奇异值分解(singular value decomposition,SVD)是矩阵因子分解方法。主成分分析、潜在语义分析都用到奇异值分解。矩阵的奇异值分解可以看作是方阵对角化的推广。 15.1 奇异值分解的定义与性质 15.1.1 定义与定理 定义15.1(奇异值分解)矩阵的奇异值分解是指,将一个非零的m×nm\times nm×n实矩阵AAA,A∈Rm×nA\in R^{m\times...原创 2020-07-14 10:37:50 · 596 阅读 · 0 评论 -
《统计学习方法》——隐马尔可夫模型
隐马尔可夫模型(hidden Markov model,HMM)是可用于标注问题的统计学模型,描述由隐藏的马尔可夫链生成观测序列的过程,属于生成模型。 10.1 隐马尔可夫模型的基本概念 10.1.1 隐马尔可夫模型的定义 定义10.1(隐马尔可夫模型) 隐马尔可夫模型是关于时序的概率模型,描述由一个隐藏的马尔可夫链随机生成不可观测的状态随机序列,再由各个状态生成一个观测从而产生观测随机序...原创 2020-07-14 10:37:03 · 166 阅读 · 0 评论 -
秋招面试准备——机器学习面经
统计学习方法部分: 推导LR 画LSTM的图、画CNN的图 介绍CNN 过拟合得解决方法 方差偏差分解的公式 一道贝叶斯公式的概率题 逻辑回归和svm。 说说逻辑回归怎么实现多分类 svm里什么时候用线性核和高斯核吧,比如样本数很多时,用哪种核? 决策树中信息增益的公式、解释信息增益代表什么意思,包括在哪些情况下信息增益中的H最大等问题; 随机森林整个相关的基础内容,比如决策树,随机森林是过...原创 2020-07-14 10:35:50 · 344 阅读 · 0 评论 -
Kaggle——‘LANL Earthquake Prediction‘
一. 项目介绍: 1. 训练输入数据由一个超过6.29亿行的声学信号组成。每个声信号值都与地震发生的时间有关,每个声学信号都与地震的发生时间有关;测试集含有15万个样本组成,与测试集不同的是这些样本是长期从地震中采集出来的,因此需要检查15万个测试样本中的数据; 2. 训练样本的采样频率是4MHz, 这意味着每个间隙中有46-48个丢失的数据样本,这取决于如何解释间隙。这些缺口的...原创 2020-07-14 10:35:15 · 293 阅读 · 0 评论 -
EM算法、GMM、K-means
EM算法是一种迭代算法,用于含有隐含变量的概率模型参数的极大似然估计,或者极大后验概率估计。EM算法的每次迭代由两步组成:E步,求expection;M步,求maximization. 此算法也成为期望极大算法(expection maximization),EM算法。 9.1 EM 算法的引入 9.1.1 EM 算法 将可观测数据表示为Y=(Y1,Y2,⋅⋅⋅,Yn)TY=(Y_1,...原创 2019-06-28 16:46:43 · 409 阅读 · 0 评论 -
李航《统计学习方法》——聚类方法
聚类方法有很多,下面叙述最常用的两种聚类方法:层次聚类和k均值聚类。层次聚类又有聚合和分裂两种方法。聚合法开始将每个样本各自分到一个类;之后将距离最近的两类合并,建立一个新的类;之后将已有类别中相聚最远的样本分到两个新的类,重复此操作直到满足停止条件,得到层次化的类别。 14.1 聚类的基本概念 14.1.1 相似度或距离 聚类的对象是观测数据或样本集合。 ...原创 2019-06-28 16:46:11 · 844 阅读 · 0 评论 -
李航《统计学习方法》——马尔可夫链蒙特卡罗法
蒙特卡罗法(也称为统计模拟方法)是通过从概率模型的随机抽样进行近似数据计算的方法。马尔可夫链蒙特卡罗(MCMC)法是以马尔可夫链为概率模型的蒙特卡罗法。 MCMC方法的基本思想是:通过蒙特卡罗法构建一个马尔可夫链,使其平稳分布就是要进行抽样的分布,首先基于该马尔可夫链进行随机游走,产生样本序列,之后使用该平稳分布的样本进行近似的数值计算。 19.1 蒙特卡罗法 19.1.1 随机抽样 ...原创 2019-06-28 16:45:33 · 1694 阅读 · 0 评论 -
第一次Kaggle比赛——Don't Overfit! II
这是新手小白的第一场比赛,写这篇博客也是为了整理比赛思路,以便应对即将到来的提前批招聘及秋招。 首先简单介绍一下这个比赛,这场比赛的训练集仅有250个样本,测试集有19750个样本,输入样本是300维数据x∈R300x\in R^{300}x∈R300,输出是二分类即y∈{0,1}y\in\lbrace0,1\rbracey∈{0,1},比赛没有模拟任何实际背景。公共训练数据集中含有197...原创 2019-07-12 19:18:53 · 1211 阅读 · 0 评论 -
kaggle新手第三场比赛——Instant-Gratification-top3%(1)
1.项目介绍 这场比赛中给出了二分类的数据集和一首藏头诗,这首诗中暗藏的玄机我们会在接下来的分析当中逐渐给出说明。比赛的数据集依旧是老三样:训练集(train.csv)、测试集合(test.csv)以及结果提交模版(submission.csv)。 Silly column names abound, but the test set is a mystery. Careful how y...原创 2019-06-23 18:07:32 · 903 阅读 · 0 评论 -
8.4 提升树
提升树 1 . 提升树模型 提升方法实际是采用加法模型与前向分布算法 ,以 决策树为基函数 的提升方法称为提升树(boosting tree)。对分类问题决策树是二叉分类树,对回归问题决策树是二叉回归树。提升树模型可以表示为决策树的加法模型: fm(x)=fm−1(x)+T(x;Θm) f_m(x)=f_{m-1}(x)+T(x;\Theta_m)fm(x)=fm−1(x)+T(x;Θm...原创 2019-05-09 21:37:58 · 182 阅读 · 0 评论