机器学习
文章平均质量分 93
yangxudong
全世界的色彩都在自己心中.
展开
-
推荐系统中的特征工程
摘要:深度学习时期,与CV、语音、NLP领域不同,搜推广场景下特征工程仍然对业务效果具有很大的影响,并且占据了算法工程师的很多精力。数据决定了效果的上限,算法只能决定逼近上限的程度,而特征工程则是数据与算法之间的桥梁。本文尝试总结一些在推荐场景下做特征工程的常用套路,包括常用的特征变换算子、Bin-Counting技术以及特征查漏补缺的方法。读者受益深入理解常用的特征变换操作。了解优质特征工程的判断标准。掌握推荐场景下构建高质量特征的一般方法。一、为什么要精做特征工程在完整的机器学习流水线中,特征原创 2022-09-03 23:50:16 · 450 阅读 · 0 评论 -
推荐模型离线评测效果好,线上效果却不佳的原因
在推荐算法领域,时常会出现模型离线评测效果好,比如AUC、准召等指标大涨,但上线后业务指标效果不佳,甚至下降的情况,比如线上CTR或CVR下跌。本文尝试列举一些常见的原因,为大家排查问题提供一点思路。原创 2022-09-05 11:00:00 · 645 阅读 · 0 评论 -
推荐算法效果不佳时的检查清单
有时候我们会遇到推荐算法上线之后,效果不如预期的情况。这种情况下,该如何改进呢?下面就尝试列出一些检查清单,按照重要性的顺序,建议从上往下依次检查。当然,这些清单还不全面,欢迎大家一起来补充!原创 2022-09-04 17:00:00 · 205 阅读 · 0 评论 -
推荐冷启动召回模型DropoutNet深度解析与改进
通常推荐系统通过协同过滤、矩阵分解或是深度学习模型来生成推荐候选集,这些召回算法一般都依赖于用户-物品行为矩阵。在真实的推荐系统中,会有源源不断的新用户、新物品加入,这些新加入系统的用户和物品由于缺乏足够丰富的历史交互行为数据,常常不能获得准确的推荐内容,或被准确推荐给合适的用户。这就是所谓的推荐冷启动问题。冷启动对推荐系统来说是一个挑战,究其原因是因为现有的推荐算法,无论是召回、粗排还是精排模块,都对新用户、新物品不友好,它们往往过度依赖系统收集到的用户行为数据,而新用户和新物品的行为数据是很少的。这就导原创 2022-09-03 18:02:10 · 968 阅读 · 0 评论 -
多任务学习算法在推荐系统中的应用
本文概要讲述了多任务学习的定义、动机和一般方法,概要介绍了目前主流的几种多目标排序模型。并结合电商平台商品详情页的业务场景具体介绍了如何构建样本,如何做特征工程。并且推荐基于开源的面向工业界的EasyRec推荐算法训练框架来构建做算法的训练和评估。至于模型服务的部署,每家公司的平台各不相同,就不详细介绍了。原创 2022-09-03 17:30:03 · 905 阅读 · 0 评论 -
【全网最浅显易懂】GBDT(xgboost)算法原理深入剖析
梯度提升(Gradient boosting)是一种用于回归、分类和排序任务的技术,属于Boosting算法族的一部分。Boosting是一族可将弱学习器提升为强学习器的算法,属于集成学习(ensemble learning)的范畴。。通俗地说,就是“三个臭皮匠顶个诸葛亮”的道理。梯度提升同其他boosting方法一样,通过集成(ensemble)多个弱学习器,通常是决策树,来构建最终的预测模型。Boosting、bagging和stacking是集成学习的三种主要方法。原创 2022-09-03 17:02:27 · 431 阅读 · 0 评论 -
GBDT算法的特征重要度计算
基于树的集成算法还有一个很好的特性,就是模型训练结束后可以输出模型所使用的特征的相对重要度,便于我们选择特征,理解哪些因素是对预测有关键影响,这在某些领域(如生物信息学、神经系统科学等)特别重要。本文主要介绍基于树的集成算法如何计算各特征的相对重要度。原创 2016-12-27 21:22:59 · 42405 阅读 · 4 评论 -
GBDT算法原理深入解析
本文对GBDT算法原理进行介绍,从机器学习的关键元素出发,一步一步推导出GBDT算法背后的理论基础,读者可以从这个过程中了解到GBDT算法的来龙去脉。对于该算法的工程实现,本文也有较好的指导意义,实际上对机器学习关键概念元素的区分对应了软件工程中的“开放封闭原则”的思想,基于此思想的实现将会具有很好的模块独立性和扩展性。原创 2016-12-25 20:34:46 · 48721 阅读 · 35 评论 -
机器学习完整过程案例分布解析,python代码解析
所谓学习问题,是指观察由n个样本组成的集合,并根据这些数据来预测未知数据的性质。学习任务(一个二分类问题):区分一个普通的互联网检索Query是否具有某个垂直领域的意图。假设现在有一个O2O领域的垂直搜索引擎,专门为用户提供团购、优惠券的检索;同时存在一个通用的搜索引擎,比如百度,通用搜索引擎希望能够识别出一个Query是否具有O2O检索意图,如果有则调用O2O垂直搜索引擎,获取结原创 2014-05-24 21:34:09 · 3871 阅读 · 0 评论 -
决策树ID3和C4.5算法Python实现源码
首先推荐李航的《统计机器学习》这本书,这个实现就是按照书上的算法来的。Python 用的是最新的3.3版的,和2.x不兼容,运行的时候需要注意。'''Created on 2012-12-18@author: weisu.yxd'''class Node: '''Represents a decision tree node. '原创 2012-12-23 22:48:40 · 11223 阅读 · 0 评论 -
用hadoop实现SimRank++算法(1)----权值转移矩阵的计算
本文主要针对广告检索领域的查询重写应用,根据查询-广告点击二部图,在MapReduce框架上实现SimRank++算法,关于SimRank++算法的背景和原理请参看前一篇文章《基于MapReduce的SimRank++算法研究与实现》。SimRank++的矩阵形式的计算公式为:算法主要步骤如下:Step1: 计算权值矩阵,并获取最大Query编号和最大广告编号;Step2:原创 2014-05-01 02:26:53 · 5158 阅读 · 3 评论 -
基于MapReduce的SimRank++算法研究与实现
一、算法应用背景计算广告学(Computational Advertising)是一门广告营销科学,以追求广告投放的收益最大化为目标,重点解决用户与广告匹配的相关性和广告的竞价模型问题,涉及到自然语言处理、数据挖掘以及竞价营销、创意设计等诸多学科的融合。计算广告是根据给定的用户和网页内容,通过计算得到与之最匹配的广告并进行精准定向投放的一种广告投放机制,其目的是为用户提供最易于接受的优原创 2014-04-30 14:14:28 · 6526 阅读 · 2 评论