推荐系统&机器学习
文章平均质量分 86
candice廷
做一位出色的算法工程师
展开
-
Stanford-parser分解 分词后的数据
分解英文数据:原创 2014-04-09 15:30:57 · 2147 阅读 · 1 评论 -
浅说机器学习
我概念里面机器学习算法是这样一个步骤:1)对于一个问题,我们用数学语言来描述它,然后建立一个模型,例如回归模型或者分类模型等来描述这个问题;2)通过最大似然、最大后验概率或者最小化分类误差等等建立模型的代价函数,也就是一个最优化问题。找到最优化问题的解,也就是能拟合我们的数据的最好的模型参数;3)然后我们需要求解这个代价函数,找到最优解。这求解也就分很多种情况了: a原创 2015-03-06 13:44:01 · 577 阅读 · 0 评论 -
SVM支持向量机-拉格朗日,对偶算法的初解
许多地方得SVM讲得都很晦涩,不容易理解,最近看到一篇不错的博文写得很好,同时加上自己的理解,重新梳理一下知识要点http://blog.csdn.net/zouxy09/article/details/17291543一、引入SVM是个分类器。我们知道,分类的目的是学会一个分类函数或分类模型(或者叫做分类器),该模型能把数据库中的数据项映射到给定类别中的某一个,从而可原创 2015-03-09 18:32:44 · 14548 阅读 · 3 评论 -
EM算法结合k-means
在前一篇文章中,重点讲解了EM的推导过程,但是这里EM只是一个算法思想比如里面具体的参数θ还需要根据需要参数迭代的具体的模型进行确定。在EM中很重要的一个概念是隐含变量,也就是类别Z,那么在机器学习的算法中很重要的两个模型都是和Z不确定情况下求参数。聚类问题和GMM,其实GMM也是可以看成是类似聚类模型的一个算法。一 Kmean: http://www.cnblogs.com原创 2015-03-27 17:32:33 · 2445 阅读 · 0 评论 -
推荐算法—协同过滤
协同过滤(Collective Filtering)可以说是推荐系统的标配算法。在谈推荐必谈协同的今天,我们也来谈一谈基于KNN的协同过滤在实际的推荐应用中的一些心得体会。 我们首先从协同过滤的两个假设聊起。 两个假设:用户一般会喜欢与自己喜欢物品相似的物品用户一般会喜欢与自己相似的其他用户喜欢的物品上述假设分别对应了协同过滤的两种实现方式:转载 2015-03-12 13:50:43 · 646 阅读 · 0 评论 -
最大似然概率和后验概率的区别
极大似然估计和贝叶斯估计分别代表了频率派和贝叶斯派的观点。频率派认为,参数是客观存在的,只是未知而矣。因此,频率派最关心极大似然函数,只要参数求出来了,给定自变量X,Y也就固定了,极大似然估计如下所示:D表示训练数据集,是模型参数相反的,贝叶斯派认为参数也是随机的,和一般随机变量没有本质区别,正是因为参数不能固定,当给定一个输入x后,我们不能用一个确定的y表示输出结转载 2015-04-22 10:32:56 · 1548 阅读 · 0 评论 -
SVD理解和其在PCA,LSI的应用
首先确实是觉得这篇文章写得很好,后面的附录也是非常值得一看整体框架转自http://www.cnblogs.com/LeftNotEasy/archive/2011/01/19/svd-and-applications.html中间穿插一些自己的理解的部分前言: PCA的实现一般有两种,一种是用特征值分解去实现的,一种是用奇异值分解去实现的。在上篇原创 2015-04-10 13:17:43 · 2750 阅读 · 0 评论 -
LDA算法总结
主要是参考了文章http://www.cnblogs.com/LeftNotEasy/archive/2011/01/08/lda-and-pca-machine-learning.htmlhttp://www.cnblogs.com/jerrylead/archive/2011/04/21/2024384.htmlhttp://www.cnblogs.com/jerrylea原创 2015-04-13 15:04:30 · 5488 阅读 · 1 评论 -
广告推荐系统-CTR&LR背景
刚开始接触广告推荐系统,对理论知识还处在一个学习的阶段,看一些资料,这里主要是对看的一些知识点的总结和进一步理解:http://blog.csdn.net/mytestmy/article/details/18987247广告生态系统:这一系列中的博客主要介绍广告系统的生态环境,和广告推荐的流程主要描述广告业的发展,目前主要是将用户的需求进行统一在DSP(deman原创 2015-04-26 15:45:02 · 5821 阅读 · 0 评论 -
广告推荐系统-逻辑回归问题导出
在广告推荐系统中,利用用户和广告之间的信息作为预测的特征预测的过程其实就是一个二分类的问题,主要就是判定一个用户对这个广告点击或者是不点击的概率是多少而这个过程是一个伯努利函数,整个过程是一个伯努利分布而在逻辑回归中主要是在线性回归的基础上利用了一个逻辑函数sigmod,而为什么要用这个函数,逻辑回归与线性回归之间的关系:1 广义线性模型:指数家原创 2015-04-26 16:41:34 · 5022 阅读 · 0 评论 -
广告推荐系统—CTR&LR模型评价
“计算广告学”中重要的一个子集——转化率预估(Conversion Modeling)广告行业内常见的商业模式有四种(图1):1) CPM,按展现付费;2)CPC,按点击付费;3)CPA,按转化付费;4)CPS,按销售分成。容易理解,广告主最欢迎CPA模式,因为这种模式的广告投放效率最高,广告主不必为无效的展现和点击买单。然而,业内做CPA的广告网络(Ad Network)并不多,主要原因是转原创 2015-04-26 23:23:01 · 17122 阅读 · 0 评论 -
推荐广告系统—CTR在业务层面的意义
转自:http://www.yewen.us/blog/2013/05/why-predict-ctr/http://www.yewen.us/blog/category/machine-learning/介绍了在广告推荐系统中CTR的重要性,以及如何在CTR的基础上做到广告相关性用户体验,和广告收入最大化的方法。很明了,值得一看:背景从搜索广告开始转载 2015-04-26 23:59:15 · 4578 阅读 · 0 评论 -
广告特征离散化
有一段时间没有写博客了最近都在做一些和广告算法相关的工作,用的模型也是比较大众的lr,主要呃工作还是在特征提取的过程,下面纪录一些心得体会:在预估ctr的过程中,理论上是应该有这么几类特征信息:用户的信息(用户输入的query,包括用户的年龄,消费水平,历史操作行为)广告的特征(商品item的属性,item的流行度,广告商的评级等等)历史的反馈特征(利用历史记录中,已经原创 2015-06-11 23:55:47 · 2530 阅读 · 0 评论 -
推荐系统-实战总结
推荐系统实战这周看了推荐系统实战这本书,其中基本上介绍的比较全面,但是每一部分并没有十分深入,深入的精华全部都在下方的备注当中,备注中有很多的论文,可以进行进一步的学习。首先回顾一下一些框架信息,在专门思考其中几个重要的部分:3种联系用户和item的推荐方式:1 根据用户的历史行为,表达过反馈的item进行item的预测,传统的itemCF2 根据用户的历史原创 2015-07-05 22:17:19 · 3007 阅读 · 0 评论 -
BP神经网络-详解
学习是神经网络一种最重要也最令人注目的特点。在神经网络的发展进程中,学习算法的研究有着十分重要的地位。目前,人们所提出的神经网络模型都是和学习算 法相应的。所以,有时人们并不去祈求对模型和算法进行严格的定义或区分。有的模型可以有多种算法.而有的算法可能可用于多种模型。不过,有时人们也称算法 为模型。自从40年代Hebb提出的学习规则以来,人们相继提出了各种各样的学习算法。其中以在1986年转载 2015-08-28 11:33:53 · 2055 阅读 · 0 评论 -
机器学习算法与Python实践—k近邻(KNN)
机器学习算法与Python实践之(一)k近邻(KNN)参考http://blog.csdn.net/zouxy09/article/details/16955347一、kNN算法分析 K最近邻(k-Nearest Neighbor,KNN)分类算法可以说是最简单的机器学习算法了。它采用测量不同特征值之间的距离方法进行分类。它的思想很简单:原创 2015-03-05 14:56:41 · 980 阅读 · 1 评论 -
机器学习 python实例完成—决策树
决策树学习是应用最广泛的归纳推理算法之一,是一种逼近离散值目标函数的方法,在这种方法中学习到的函数被表示为一棵决策树。决策树可以使用不熟悉的数据集合,并从中提取出一系列规则,机器学习算法最终将使用这些从数据集中创造的规则。决策树的优点为:计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关特征数据。缺点为:可能产生过度匹配的问题。决策树适于处理离散型和连续型的数据。在决策树中原创 2015-03-05 16:02:42 · 4986 阅读 · 1 评论 -
机器学习—逻辑回归理论简介
下面是转载的内容,主要是介绍逻辑回归的理论知识,先总结一下自己看完的心得简单来说线性回归就是直接将特征值和其对应的概率进行相乘得到一个结果,逻辑回归则是这样的结果上加上一个逻辑函数这里选用的就是Sigmoid函数,在坐标尺度很大的情况下类似于阶跃函数在确认特征对应的权重值也就是回归系数的时候最常用的方法是最大似然法,EM参数估计,这个是在一阶导数能够有解的前提下如果一阶导数无法原创 2015-03-06 14:51:19 · 1879 阅读 · 1 评论 -
英文单词词干提取算法
Lucene里面的分词器里面有一个PorterStemFilter类,里就用到了著名的词干提取算法。所谓Stemming,就是词干,在英语中单词有多种变形。比如单复数加s,进行时加ing等等。在分词的时候,如果能够把这些变形单词的词根找出了,对搜索结果是很有帮助的。Stemming算法有很多了,三大主流算法是Porter stemming algorithm、Lovins stemming a转载 2014-04-10 11:03:55 · 2534 阅读 · 0 评论 -
天猫大数据总结1
在三月份的时候得知了天猫的比赛,因为是第一届,因此自己知道得也比较晚,原创 2014-09-01 22:14:30 · 3516 阅读 · 0 评论 -
天猫大数据3—回归模型
进入第二季之后,开始熟悉第二季的平台,原创 2014-09-03 21:31:50 · 994 阅读 · 0 评论 -
天猫大数据总结2
第一季的比赛我的成绩并不算原创 2014-09-01 22:50:18 · 1186 阅读 · 0 评论 -
推荐系统好的开源项目列表
我收集和整理的目前互联网上所能找到的知名开源推荐系统(open source project for recommendation system),并附上了个人的一些简单点评(未必全面准确),这方面的中文资料很少见,希望对国内的朋友了解掌握推荐系统有帮助陈运文 SVDFeature由上海交大的同学开发的,C++语言,代码质量很高 。去年我们参加KDD竞赛时用过,非常好转载 2015-01-04 21:59:17 · 3181 阅读 · 0 评论 -
深入理解EM推导过程
首先都有参考两篇文章:http://www.cnblogs.com/jerrylead/archive/2011/04/06/2006936.htmlhttp://blog.csdn.net/zouxy09/article/details/8537620觉得他们写的非常好,可以参考,下面的内容也是自己看完了之后的一个整理的过程:1 最大似然概率 例子是说测量校园原创 2015-03-26 19:36:17 · 4506 阅读 · 0 评论 -
理解迭代法和优化基础
后面介绍的时候结合另一个博客的内容:http://blog.csdn.net/zouxy09/article/details/8537872 个人理解因为其实无论什么机器学习算法,最终都要求助于计算机解决,它又表现为在特定函数空间按某优化目标去搜索一个解出来。衡量指标就有误差最小还是性能指标最大吧?那你怎么求它的最小还是最大呢?求导,有拉格朗日?是没错,但他们能使用的本原创 2015-03-25 18:37:18 · 11172 阅读 · 1 评论 -
机器学习Python实现AdaBoost
adaboost是boosting方法多个版本中最流行的一个版本,它是通过构建多个弱分类器,通过各个分类器的结果加权之后得到分类结果的。这里构建多个分类器的过程也是有讲究的,通过关注之前构建的分类器错分的那些数据而获得新的分类器。这样的多个分类器在训练时很容易得到收敛。本文主要介绍了通过单层决策树构建弱分类器,同理,也可以用其他的分类算法构建弱分类器。boost 算法系列的起源来自原创 2015-03-18 15:12:57 · 12873 阅读 · 0 评论 -
机器学习 Python实现逻辑回归
# -*- coding: cp936 -*-from numpy import *def loadDataSet(): dataMat = []; labelMat = [] fr = open('testSet.txt') for line in fr.readlines(): lineArr = line.strip().split()原创 2015-03-06 15:29:37 · 1915 阅读 · 1 评论 -
机器学习 Python实现 贝叶斯算法
[['my','dog','has','flea','problems','help','please'], 0 ['maybe','not','take','him','to','dog','park','stupid'], 1 ['my','dalmation','is','so','cute','I','love','him'], 0原创 2015-03-06 11:34:01 · 1918 阅读 · 1 评论 -
EM算法结合GMM混合高斯模型
这里主要将EM算法和混合高斯模型结合起来首先复习一下EM算法的关键步骤以及GMM的基础一 EM复习通过求对树操作和Jeson不等式之后: 这个就是最后的似然函数处理了,首先是参数对样本x 出现的似然函数,概率乘积后取对数,然后加入样本的类别参数z 形成了式子(1),为了利用Jeson不等式(就是对凹函数的公式: f(E[X]>=E[f(X)])引入了让表示该样例隐含变量原创 2015-03-27 19:46:49 · 2156 阅读 · 1 评论 -
Boosting与Gradient Boosting
版权声明: 本文由LeftNotEasy发布于http://leftnoteasy.cnblogs.com, 本文可以被全部的转载或者部分使用,但请注明出处,如果有问题,请联系wheeleast@gmail.com 前言: 本来上一章的结尾提到,准备写写线性分类的问题,文章都已经写得差不多了,但是突然听说最近Team准备做一套分布式的分类器,可能会使用R转载 2015-03-19 09:43:03 · 1737 阅读 · 0 评论 -
决策树模型组合之(在线)随机森林与GBDT
决策树模型组合之(在线)随机森林与GBDT前言:决策树这种算法有着很多良好的特性,比如说训练时间复杂度较低,预测的过程比较快速,模型容易展示(容易将得到的决策树做成图片展示出来)等。但是同时, 单决策树又有一些不好的地方,比如说容易over-fitting,虽然有一些方法,如剪枝可以减少这种情况,但是还是不够的。模型组合(比如说有Boosting,Bagging等)与决策树相关的算转载 2015-03-19 09:37:54 · 1254 阅读 · 0 评论 -
SVM-核函数
核函数 如果我们的正常的样本分布如下图左边所示,之所以说是正常的指的是,不是上面说的那样由于某些顽固的离群点导致的线性不可分。它是真的线性不可分。样本本身的分布就是这样的,如果也像样本那样,通过松弛变量硬拉一条线性分类边界出来,很明显这条分类面会非常糟糕。那怎么办呢?SVM对线性可分数据有效,对不可分的有何应对良策呢?是核方法(kernel trick)大展身手的时候了。转载 2015-03-09 18:59:01 · 1935 阅读 · 0 评论 -
深度解析京东个性化推荐系统演进史
在电商领域,推荐的价值在于挖掘用户潜在购买需求,缩短用户到商品的距离,提升用户的购物体验。京东推荐的演进史是绚丽多彩的。京东的推荐起步于2012年,当时的推荐产品甚至是基于规则匹配做的。整个推荐产品线组合就像一个个松散的原始部落一样,部落与部落之前没有任何工程、算法的交集。2013年,国内大数据时代到来,一方面如果做的事情与大数据不沾边,都显得自己水平不够,另外一方面京东业务在这一年开始飞转载 2017-12-07 11:45:05 · 949 阅读 · 0 评论