★机器学习
文章平均质量分 85
zhengjihao
这个作者很懒,什么都没留下…
展开
-
机器学习-Logistic Regression
逻辑斯蒂回归是统计学习中的经典分类方法。 逻辑回归可以分为二项逻辑回归和多项逻辑回归。我们主要讲解二项逻辑会回归。 假设输入x∈Rn,Y∈{0,1}x\in \mathbf{R}^{n},Y\in \{ 0,1\}, 则二项逻辑回归可以表示为 P(Y=1|x)=exp(w⋅x+b)1+exp(w⋅x+b)P(Y=1|x)=\frac{exp(w \cdot x + b)}{1 +exp(原创 2017-04-12 14:32:15 · 285 阅读 · 0 评论 -
推荐系统-基于隐语义模型(LFM)
在上一篇博客,我们大致讲解了《推荐系统实践》中基于邻域的算法和代码实现,在这一篇博客,我们继续讲解基于隐语义模型(Latent Factor Model)的推荐系统。隐语义模型是近几年推荐系统领域最为热门的研究话题,它的核心思想是通过隐含特征(Latent factor)联系用户兴趣和物品。 隐语义模型需要解决三个问题: 1 如何给物品进行分类 2 如何确定用户对哪些类的物品感兴趣以及感兴趣的原创 2018-01-06 13:22:11 · 3606 阅读 · 0 评论 -
推荐系统-基于邻域的算法
最近在看项亮的《推荐系统实践》,文章只有只有代码片段,没有完整的代码。所以在原有代码之上,根据书籍介绍的内容,还原了部分代码。 UserCF算法(基于用户的协同过滤算法): 令N(u)N(u)表示用户uu的正反馈的物品集合,令N(v)N(v)表示用户vv的正反馈物品集合。那么Jaccard相似度为: wuv=|N(u)∩N(v)||N(u)∪N(v)|w_{uv} = \frac{|N(u)原创 2018-01-03 17:39:56 · 1168 阅读 · 0 评论 -
朴素贝叶斯 后验概率最大化的含义
朴素贝叶斯法将实例分到后验概率最大化的类中。这等价与期望风险最小化。假设选取的是0-1损失函数, L(y,f(x))={10y≠f(x)y=f(x)L(y,f(x)) = \begin{cases}1 & y \neq f(x) \\0 & y = f(x)\end{cases} 这是期望风险函数为Rexp(f)=∫∫DXYL(y,f(x))P(x,y)dxdy=R_{exp}(原创 2017-09-22 16:15:24 · 4062 阅读 · 3 评论 -
奇异值分解(SVD)原理详解及推导
转载请声明出处http://blog.csdn.net/zhongkejingwang/article/details/43053513 在网上看到有很多文章介绍SVD的,讲的也都不错,但是感觉还是有需要补充的,特别是关于矩阵和映射之间的对应关系。前段时间看了国外的一篇文章,叫A Singularly Valuable Decomposition The SVD of a Matrix,转载 2017-09-20 12:14:18 · 453 阅读 · 0 评论 -
主成分分析(PCA)最大方差解释最小平方误差解释
原文链接:http://blog.csdn.net/han____shuai/article/details/50573066在这一篇之前的内容是《Factor Analysis》,由于非常理论,打算学完整个课程后再写。在写这篇之前,我阅读了PCA、SVD和LDA。这几个模型相近,却都有自己的特点。本篇打算先介绍PCA,至于他们之间的关系,只能是边学边体会了。PCA以前也叫做Princip转载 2017-09-20 10:48:15 · 3049 阅读 · 0 评论 -
协方差矩阵的向量表示推导
多维随机变量的协方差矩阵对多维随机变量X=[X1,X2,…,Xn]TX=[X_1,X_2,\dots,X_n]^T,我们往往需要计算各维度之间的协方差,这样协方差就组成了一个n×nn\times n的矩阵,称为协方差矩阵。协方差矩阵是一个对角矩阵,对角线上的元素是各维度上随机变量的方差。 我们定义协方差为Σ\Sigma, 矩阵内的元素Σij\Sigma_{ij}为 Σ=cov(Xi,Xj)=原创 2017-09-19 15:50:10 · 13184 阅读 · 0 评论 -
LDA线性判别分析
线性判别分析(Linear Discriminant Analysis)是一种经典的线性学习方法,在二分类问题上因为最早由Fisher提出,也称”Fisher判别分析”。 线性判别分析的思想朴素:给定训练数据集,设法将样本投影到直线上,使得同类样本的投影点尽可能接近、异类样本的投影点尽可能远离。在对新样本进行分类时,将其投影到同样的这条直线上,在根据投影点的位置来确定新样本的类别。 示意图如下原创 2017-04-19 18:00:52 · 882 阅读 · 0 评论 -
机器学习总结之第二章模型评估与选择
原文链接:点击打开链接2.1经验误差与过拟合错误率 = a个样本分类错误/m个样本精度 = 1 - 错误率误差:学习器实际预测输出与样本的真是输出之间的差异。训练误差:即经验误差。学习器在训练集上的误差。泛化误差:学习器在新样本上的误差。 过拟合:学习器把训练样本学的”太好”,把不太一般的特性学到了,泛化能力下降,对新样本的判别能力差。必然存在,无法彻底避免,只能够转载 2017-09-25 11:24:11 · 1037 阅读 · 1 评论 -
美团点评2017秋招笔试真题-算法工程师A 部分详解
3 一颗高度为4 的平衡二叉树,其最少节点数为()A. 5B. 6C. 7D. 8思路:假设高度为n的平衡二叉树至少有F(n)个节点,那么F(n)满足: F(n) = F(n-1) + F(n-2) + 1 (n >=2). 边界条件为: F(0) = 0,F(1) = 1,4 一共三个结点的二叉树可能出现多少种结构原创 2017-09-14 10:54:33 · 1193 阅读 · 0 评论 -
最小二乘 岭回归 lasso回归
线性回归适用于数值型数据,目的是对数据进行预测。线性回归的一般模型可以表示为: y=θ0+∑mi=1θixiy=\theta_0+\sum_{i=1}^{m}\theta_ix_i 令x=(1,x1,…,xn)T,θ=(θ0,θ1,…,θn)Tx=(1,x_1,\dots,x_n)^T,\theta=(\theta_0,\theta_1,\dots,\theta_n)^T,则上式可以重写为原创 2017-04-21 15:29:54 · 2722 阅读 · 0 评论 -
EM算法和GMM
最近在学习Andrew Ng 教授的机器学习课件。第7和第8章,主要讲解EM算法和GMM。论文讲解浅显易懂,但有些内容不完整。比如,没有写出来协方差Σ\Sigma的求解过程,没有具体的实例应用。本文在原论文的基础上,增加了协方差的求解过程,和使用GMM进行聚类的Python代码。1。Jensen不等式 回顾优化理论的一些概念。设f是定义域为实数的函数,如果对于所有实数x,f′′≥0f'' \原创 2018-01-17 22:06:03 · 631 阅读 · 2 评论