自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(75)
  • 收藏
  • 关注

原创 tensorflow求分位点、中位数、第k大数

【代码】tensorflow求分位点、中位数、第k大数。

2022-10-14 20:33:49 795

原创 tensorflow 取上(下)三角矩阵 tf.linalg.band_part

提示:tensorflow 可从已有矩阵中取三角矩阵,也可用于生成为1的三角矩阵。

2022-10-14 15:56:10 698

转载 Deep Interest Network

作者 | 李宁宁来源 | 机器学习荐货情报局(ID:ML_CIA)编辑 | VincentAI 前线导读:Deep Interest Network(DIN) 是盖坤大神领导的阿里妈妈的精准定向检索及基础算法团队,在 2017 年 6 月提出的。它针对 电子商务领域 (e-commerce industry)的 CTR 预估,重点在于 充分利用 / 挖掘用户历史行为数据中的信息。本文将...

2020-03-18 14:39:48 608

转载 TensorFlow学习(四):梯度带(GradientTape),优化器(Optimizer)和损失函数(losses)

更新时间:2017.5.9 简化了很多不需要的内容,关注重点。2019.4.17 更新到tensorflow 2.x,添加自动求导和新版本的optimizer因为tensorflow 2.x相对于tensorflow 1.x的变动,API变更和思路也变化了,这节重点介绍的为梯度带(GradientTape)和优化器(Optimizer)因为大多数机器学习任务就是最小化损失,在损失定义的情...

2020-01-07 10:46:33 2022 1

原创 tensorflow

tensorflow virtualenv模式安装sudo easy_install pipsudo pip install --upgrade virtualenvvirtualenv --system-site-packages targetDirectorysource ~/tensorflow/bin/activatepip install --upgrade tensorf...

2020-01-05 10:04:22 123

转载 N问GBDT(1-12答案)

N问GBDT - 知乎专栏对其的部分答案,能力有限,非常希望各位博友指正1. 怎样设置单棵树的停止生长条件?答:A. 节点分裂时的最小样本数B. 最大深度C. 最多叶子节点数D. loss满足约束条件2. 如何评估特征的权重大小?答:a. 通过计算每个特征在训练集下的信息增益,最后计算每个特征信息增益与所有特征信息增益之和的比例为权重值。b.

2017-09-01 18:28:21 569

转载 数据挖掘(机器学习)面试--SVM面试常考问题

应聘数据挖掘工程师或机器学习工程师,面试官经常会考量面试者对SVM的理解。以下是我自己在准备面试过程中,基于个人理解,总结的一些SVM面试常考问题(想到会再更新),如有错漏,请批评指正。(大神请忽视)转载请注明出处:blog.csdn.net/szlcw1SVM的原理是什么?SVM是一种二类分类模型。它的基本模型是在特征空间中寻找间隔最大化的分离超平面的线性分类器。(间隔最

2017-07-14 20:21:12 819

转载 文本特征选择

在做文本挖掘,特别是有监督的学习时,常常需要从文本中提取特征,提取出对学习有价值的分类,而不是把所有的词都用上,因此一些词对分类的作用不大,比如“的、是、在、了”等停用词。这里介绍两种常用的特征选择方法:互信息  一个常用的方法是计算文档中的词项t与文档类别c的互信息MI,MI度量的是词的存在与否给类别c带来的信息量,互信息的基本定义如下:  应用到文本特征选择:

2017-07-11 18:53:18 441

转载 决策树、逻辑回归、线性回归使用时注意事项以及模型过拟合策略

决策树缺点和注意事项:决策树的最大缺点是原理中的贪心算法。因此它所做的选择只能是某种意义上的局部最优选择。若目标变量是连续变量,那么决策树就不使用了,改用回归模型若某些自变量的类别种类较多,或者自变量是区间型时,决策树过拟合的危险会增大。这种情况需要分箱或多次模型验证,确保其具有稳定性。对区间型变量进行分箱操作时,无论是否考虑了顺序因素,都有可能因为分箱丧失了某些重要信息,尤其是当分箱前的

2017-07-06 19:05:41 1964

转载 逻辑回归 vs 决策树 vs 支持向量机(II)

本文是该系列的第二篇,第一篇参见: 逻辑回归 Vs 决策树 Vs 支持向量机: Part I.在这篇文章,我们将讨论如何在逻辑回归、决策树和SVM之间做出最佳选择。其实 第一篇文章已经给出了很好的回答,不过在这里再补充一些。下面将继续深入讨论这个主题。事实上,这三个算法在其设计之初就赋予了一定的内部特性,我们将其分析透彻的主要目的在于:当你面临商业问题时,这些算法的特性可以让你在选择这些算

2017-07-06 19:03:31 813

转载 逻辑回归、决策树和支持向量机(I)

分类问题是我们在各个行业的商业业务中遇到的主要问题之一。在本文中,我们将从众多技术中挑选出三种主要技术展开讨论,逻辑回归(Logistic Regression)、决策树(Decision Trees)和支持向量机(Support Vector Machine,SVM)。上面列出的算法都是用来解决分类问题(SVM和DT也被用于回归,但这不在我们的讨论范围之内)。我多次看到有人提问,对于他的

2017-07-06 19:01:44 691

转载 实例详解机器学习如何解决问题

前言随着大数据时代的到来,机器学习成为解决问题的一种重要且关键的工具。不管是工业界还是学术界,机器学习都是一个炙手可热的方向,但是学术界和工业界对机器学习的研究各有侧重,学术界侧重于对机器学习理论的研究,工业界侧重于如何用机器学习来解决实际问题。我们结合美团在机器学习上的实践,进行一个实战(InAction)系列的介绍(带“机器学习InAction系列”标签的文章),介绍机器学习在解决工业

2017-07-05 11:52:28 537

转载 逻辑回归LR的特征为什么要先离散化

在工业界,很少直接将连续值作为特征喂给逻辑回归模型,而是将连续特征离散化为一系列0、1特征交给逻辑回归模型,这样做的优势有以下几点:1. 稀疏向量内积乘法运算速度快,计算结果方便存储,容易scalable(扩展)。2. 离散化后的特征对异常数据有很强的鲁棒性:比如一个特征是年龄>30是1,否则0。如果特征没有离散化,一个异常数据“年龄300岁”会给模型造成很大的干扰。3.

2017-07-05 11:47:45 771

转载 特征离散化解决非线性特征问题

在实际工作中,需要使用譬如LR这种线性分类器的时候,往往需要将特征离散化成0/1特征,之后再进行模型训练。下面举例说明原因:我们假设决策面为y=x^2,且模型是只具有一维特征x的线性模型,即模型的表达形式为:y=kx+b,如下图所示:显然,模型不能很好地拟合决策面,那么,假如将x离散化成多个0/1特征(one-hot编码):0

2017-07-04 13:04:25 601

转载 机器学习中的数据清洗与特征处理综述

背景随着美团交易规模的逐步增大,积累下来的业务数据和交易数据越来越多,这些数据是美团做为一个团购平台最宝贵的财富。通过对这些数据的分析和挖掘,不仅能给美团业务发展方向提供决策支持,也为业务的迭代指明了方向。目前在美团的团购系统中大量地应用到了机器学习和数据挖掘技术,例如个性化推荐、筛选排序、搜索排序、用户建模等等,为公司创造了巨大的价值。本文主要介绍在美团的推荐与个性化团队实践中的数据

2017-07-04 13:01:15 381

原创 关于机器学习应用的一些思考

----------------------------------------------------------------------------------------问1:基于成本定价是怎么做的?答1:1)背景:有些订单耗时长,成本高,但收取配送费少,配送这些订单是亏本的,这是不合理的。2)方案思路:主要是在高峰时段、低收入、高成本订单加配送费,一方面,减少其单量,调整订单分

2017-06-21 14:51:59 585

原创 关于恶意经销商模型的一些思考

问1:恶意经销商模型是怎么做的?答1:1)背景: 在618、双11、国庆、元旦等重要节⽇日,电商会进⾏大量的促销活动。⼀方⾯吸引⼤大量正常⽤用户购买;但另⼀方⾯大量经销商也在等待这个时机,进⾏行补货,经销商购买商品越多,电商损失越⼤大。2)策略思路:建立黑名单,进行订单拦截、降低优惠券中奖概率等3)具体方案:通过case分析和场景分析,识别出【候选恶意抢购商品】,在此基础上定义大单抢购

2017-06-21 11:52:22 551

原创 关于智能IVR系统的一些思考

问1:先知项目是怎么做的?答1:1)背景:在京东呼叫中⼼心,客户打通电话后,必须按相应数字键,会由匹配的POP客服或⾃自营客服对此客户进⾏行服务。⼀一⽅方⾯面操作繁琐,⽤用户体验差;另⼀一⽅方⾯面会有⼤大量的⽤用户选2)方案思路:据⽤用户的历史行为数据,预测⽤用户咨询问题类型,加⼊入智能IVR系统3)具体方案:定义单一规则,使用决策树进行规则选择及组合,使用bagging思路得到最优模

2017-06-21 11:45:24 4349

原创 关于看了还看推荐的一些思考

问1:看了还看是怎么推荐的?答1:1)数据过滤:对访问频次低于10次的url过滤,url数量减少到原来1/102)推荐产生:关联规则计算置信度3)优化1:关联规则容易进行热门推荐,使用jaccard相似度代替置信度进行推荐4)优化2:使用主题相关性,计算网页间内容相关性5)新点击数据10分钟拉取一次,模型每小时进行增量更新,兜底方案是使用前一天的推荐结果

2017-06-21 11:33:41 271

原创 关于关键词抽取的一些思考

问1:关键词提取是怎么做的?答1:1)topic主题词抽取(lda)、词位置信息的关键词抽取(KE)、标题中的词(title)、停用词2)按照策略选择5个候选关键词:主题词+标题中的词;KE+标题中的词;主题词+KE;主题词3)topic关键词抽取:分词、特征选择、主题词抽取4)分词:直接使用微博的分词工具,调用接口5)特征选择:卡方、互信息、特征停用词过滤问2:关

2017-06-21 10:46:50 478

原创 关于基于成本定价的一些思考

问1:基于成本定价是怎么做的?答1:1)背景:有些订单耗时长,成本高,但收取配送费少,这是不合理的。2)难度定价逻辑:主要是对高成本订单加价,一方面,减少其单量,调整订单分布;另一方面,增加其配送费收入3)难度定价方法:通过各种数据分析挖掘,定义一系列规则,通过仿真系统确定各规则权重,生成成本定义,从而在忙时对低客单价订单加价

2017-06-20 19:51:08 1473

原创 免费文献下载

https://www.researchgate.net/directory/publications百度学术

2017-06-17 07:49:30 1242 1

转载 非常好的理解遗传算法的例子

遗传算法的手工模拟计算示例为更好地理解遗传算法的运算过程,下面用手工计算来简单地模拟遗传算法的各    个主要执行步骤。       例:求下述二元函数的最大值:    (1) 个体编码           遗传算法的运算对象是表示个体的符号串,所以必须把变量 x1, x2 编码为一种       符号串。本题中,用无符号二进制整数来表示。          

2017-06-17 07:47:39 337

原创 关于单量预测和动态定价的一些思考

问1:简单介绍单量预测模型?答1:1)背景:对低敏感度的用户加配送费(单量损失少),对高敏感度的用户减配送费(单量增加多),在保证收入的前提下,提高单量2)具体这个模型构建其实经理了3个阶段2.1)第一个阶段,预测目标是每个配送区每天的单量,使用特征包括配送区优惠力度,是否工作日,使用的算法是线性回归。每个配送区一个模型2.2)第二个阶段,预测目标是每个配送区每天的单量,使用特征为

2017-06-15 20:19:03 4738 3

原创 关于特征选择的一些思考

问1:特征选择的常用方法有哪些?答1:信息增益、卡方、基尼系数、信息增益率问2:信息增益的公式是什么?答2:IG(T)=H(C)-H(C|T)H(C)=-∑p(Ci)log(p(Ci))H(C|T)=∑p(Ti)H(Ci|Ti)信息增益越大,特征相关性越大问3:卡方的公式是什么?答3:D=D11+D12+D21+D22D11=(A-E11)^2/

2017-06-14 16:43:57 430 1

转载 人工智能架构

人工智能

2017-06-07 21:12:55 5045 4

原创 关于LDA的一些思考

问1:LDA生成一个文档的过程是什么样的?答1:1)根据预料级参数α,生成文档d的主题分布Θ_d~p(Θ|α)2)对于文档d中每个位置i对应的单词,按如下方式生成2.1)根据主题分布Θ_d,按概率生成该位置i的主题z_i~p(z|Θ_d)2.2)根据主题z_i和语料级参数β,按概率生成该位置i的词w_i~p(z|z_i,β)3)生成一篇文档联合概率为:p(Θ,Z,W|α,β)=

2017-06-07 20:48:02 432

转载 推荐算法中的 相似度计算

对用户的行为进行分析得到用户的偏好后,可以根据用户的偏好计算相似用户和物品,然后可以基于相似用户或物品进行推荐。这就是协同过滤中的两个分支了,即基于用户的协同过滤和基于物品的协同过滤。      关于相似度的计算,现有的几种方法都是基于向量(Vector)的,其实也就是计算两个向量的距离,距离越近相似度越大。在推荐场景中,在用户-物品偏好的二维矩阵中,我们可以将一个用户对所有物品的偏好作为

2017-06-06 12:56:25 1155

转载 推荐系统的初体验(关联规则,协同过滤)

最近接触了一个推荐系统的建设项目,于是我顺便回顾了一下之前零星学到的推荐知识,把一些困惑很久的问题弄明白了,所以来总结一下。一般意义下的推荐系统是指个性化推荐,类似简单的排行榜推荐或者关联规则推荐被认为是不够个性化的。不过我困惑的问题也正在于这里,所以我来描述一下关联规则和协同过滤这两个典型的推荐方法。关联规则是数据挖掘中的典型问题之一,又被称为购物篮分析,这是因为传统的关联规

2017-06-03 16:37:43 5317

转载 特征选择-卡方检验

前文提到过,除了分类算法以外,为分类文本作处理的特征提取算法也对最终效果有巨大影响,而特征提取算法又分为特征选择和特征抽取两大类,其中特征选择算法有互信息,文档频率,信息增益,开方检验等等十数种,这次先介绍特征选择算法中效果比较好的开方检验方法。  大家应该还记得,开方检验其实是数理统计中一种常用的检验两个变量独立性的方法。(什么?你是文史类专业的学生,没有学过数理统计?那你做什么文本分类

2017-06-03 16:35:41 451

转载 特征抽取-信息增益

前文提到过,除了开方检验(CHI)以外,信息增益(IG,Information Gain)也是很有效的特征选择方法。但凡是特征选择,总是在将特征的重要程度量化之后再进行选择,而如何量化特征的重要性,就成了各种方法间最大的不同。开方检验中使用特征与类别间的关联性来进行这个量化,关联性越强,特征得分越高,该特征越应该被保留。在信息增益中,重要性的衡量标准就是看特征能够为分类系统带来多少信息,带

2017-06-03 16:33:44 869 1

转载 文本特征选择-互信息

在做文本挖掘,特别是有监督的学习时,常常需要从文本中提取特征,提取出对学习有价值的分类,而不是把所有的词都用上,因此一些词对分类的作用不大,比如“的、是、在、了”等停用词。这里介绍两种常用的特征选择方法:互信息  一个常用的方法是计算文档中的词项t与文档类别c的互信息MI,MI度量的是词的存在与否给类别c带来的信息量,互信息的基本定义如下:  应用到文本特征选择:

2017-06-03 16:30:59 1919

转载 2017 年深度学习 10 个趋势预测

原文链接:http://www.iteye.com/news/31989引用原文:10 Deep Learning Trends and Predictions for 2017 作者:Carlos E. Perez 译者:KK4SBB 欢迎技术投稿、约稿、给文章纠错,请发送邮件至[email protected] 本文作者曾经多次预测了技术发展的趋势,最近的一

2017-06-03 16:24:51 1547

原创 时间管理资源

http://www.mifengtd.cn/

2017-06-03 16:18:41 733

转载 自然语言处理如何入门

作者:陈见耸链接:https://www.zhihu.com/question/19895141/answer/167512928来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。大家回答的都挺不错了,只好来强答。一、独立实现一个小型的自然语言处理项目。要找一个合适的的自然语言处理相关的开源项目。这个项目可以是与自己工作相关的,也可以是自

2017-06-03 16:16:16 2355

转载 初学者如何查阅自然语言处理(NLP)领域学术资料

昨天实验室一位刚进组的同学发邮件来问我如何查找学术论文,这让我想起自己刚读研究生时茫然四顾的情形:看着学长们高谈阔论领域动态,却不知如何入门。经过研究生几年的耳濡目染,现在终于能自信地知道去哪儿了解最新科研动态了。我想这可能是初学者们共通的困惑,与其只告诉一个人知道,不如将这些Folk Knowledge写下来,来减少更多人的麻烦吧。当然,这个总结不过是一家之谈,只盼有人能从中获得一点点益处,

2017-06-03 11:43:25 377

转载 lda的吉布斯采样求解

2017-06-01 20:43:45 729

转载 主题模型-LDA浅析

上个月参加了在北京举办SIGKDD国际会议,在个性化推荐、社交网络、广告预测等各个领域的workshop上都提到LDA模型,感觉这个模型的应用挺广泛的,会后抽时间了解了一下LDA,做一下总结:(一)LDA作用        传统判断两个文档相似性的方法是通过查看两个文档共同出现的单词的多少,如TF-IDF等,这种方法没有考虑到文字背后的语义关联,可能在两个文档共同出现的单词很少甚至没有

2017-06-01 20:40:55 327

转载 TF-IDF及其算法

概念     TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜寻引擎应用,作

2017-06-01 20:38:55 377

原创 人工智能资源

kaggleKaggle由Goldbloom和Ben Hamner创建于2010年,目前平台聚集了大约50万数据科学家。在Kaggle 只面临着少数竞争者如DrivenData、TopCoder和HackerRankhttps://www.kaggle.com/

2017-06-01 13:07:39 2495

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除