人工智能
乖乖猪001
这个作者很懒,什么都没留下…
展开
-
tensorflow读取hdfs文件(parquet、csv)
tensorflow读取csv、parquet原创 2022-07-22 14:01:46 · 1908 阅读 · 1 评论 -
召回以后排序的目的
召回层一般都没用到标签信息的,一些简单召回使用的信息非常有限,即使用有监督训练得到的向量,也无法包含context的信息。一般情况,召回大都是协同过滤:物品基于用户互动行为所产生的相似性(Item based,user base同理)。那如果两个物品在这种行为上的相似性是相近的,就无法区分其推荐评分的高低了。召回主要作用还是大范围的减小候选集,使得后续的精排算法在计算压力上减轻很多,就获取信息能力而言,CF还是有其局限性。排序就比较多了。context信息,包括单特征的交叉信息(LR没法自动做交叉,需要手原创 2021-03-30 14:36:17 · 256 阅读 · 0 评论 -
tensorflow指定版本的安装
下载指定版本:pip install tensorflow-gpu==1.4.0pip install tensorflow-cpu==2.2.0升级到指定版本:pip install --upgrade tensorflow-gpu==1.4.0卸载:pip uninstall tensorflow-gpu==1.4.0原创 2021-03-03 15:10:19 · 1260 阅读 · 1 评论 -
keras-Embedding层
嵌入层(Embedding Layer)是使用在模型第一层的一个网络层,其目的是将所有索引标号映射到致密的低维向量中,比如文本集[[4],[32],[67]]被映射为[[0.3,0.9,0.2],[-0.2,0.1,0,8],[0.1,0.3,0.9]]。该层通常用于文本数据建模。输入数据要求是一个二维张量:(1个批次内的文本数,每篇文本中的词语数),输出为一个三维张量:(1个批次内的文本数, 每篇文本中的词语数,每个词语的维度)。用下图来描述数据经过该层的过程:上图中,1个批次内的文本数为32,每篇文原创 2021-03-03 15:07:16 · 349 阅读 · 0 评论 -
embedding层处理类别特征
类别特征在现实里十分常见,处理的方法也很多,最常见的思路是转为one-hot编码,当然这种处理方式比较粗暴,在许多算法里效果也不是很好。还有的处理方式寻找类别特征的最优切分,这个需要特定工具的支持,如LightGBM,细节见这篇文章。 本篇文章主要讲解如何利用神经网络的embedding层处理类别特征。可以说,本篇文章是目前讲解利用神经网络的embedding层处理类别特征的最清晰的文章,相信读者一定会有很多收获。 一、前言 Embedding的起源和火爆都是...转载 2021-02-25 14:58:30 · 1991 阅读 · 1 评论 -
深度长文 | 从FM推演各深度CTR预估模型
深度长文 | 从FM推演各深度CTR预估模型(附开源代码)深度学习在CTR预估中的应用转载 2021-01-05 15:20:29 · 122 阅读 · 0 评论 -
FM系列算法(FM/FFM/DeepFM)
综述 在计算广告中,CTR是非常重要的一环。对于特征组合来说,业界通用的做法主要有两大类:FM系列和Tree系列。这里我们来介绍一下FM系列。 在传统的线性模型中,每个特征都是独立的,如果需要考虑特征与特征之间的相互作用,可能需要人工对特征进行交叉组合。非线性SVM可以对特征进行核变换,但是在特征高度稀疏的情况下,并不能很好的进行学习。现在有很多分解模型可以学习到特征之间的交互隐藏关系,基本上每个模型都只适用于特定的输入和场景。推荐系统是一个高度系数的数据场景,由此产生了FM系列算法。 本文主要转载 2020-12-11 11:37:48 · 606 阅读 · 0 评论 -
Spark实现K-means
Q:无监督学习和有监督学习定义和区别A:有监督学习:提供数据并提供数据对应结果的机器学习过程。追要包括分类和回归。无监督学习:提供数据但是不提供数据对应结果的机器学习过程。主要应用在统计学中的密度估计和聚类分析。Q:K-means的聚类过程A:step1:首先选择k个类别的中心点step2:对任意一个样本,求其到各类中心的距离,将该样本归到距离最短的中心所在的类step3:聚好类后,重新计算每个聚类的中心点位置step4:重复2,3步骤迭代,直到k个类中心点的位置不变,或者达到一定的迭代次数原创 2020-09-25 11:15:20 · 601 阅读 · 0 评论 -
有监督学习、无监督学习和半监督学习的区别
一、基本概念1 特征(feature) 数据的特征。举例:书的内容2 标签(label) 数据的标签。举例:书属于的类别...转载 2019-10-24 11:27:39 · 7486 阅读 · 0 评论 -
SVM调参经验
转自http://www.cnblogs.com/pinard/p/6117515.html 在支持向量机(以下简称SVM)的核函数中,高斯核(以下简称RBF)是最常用的,从理论上讲, RBF一定不比线性核函数差,但是在实际应用中,却面临着几个重要的超参数的调优问题。如果调的不好,可能比线性核函数还要差。所以我们实际应用中,能用线...转载 2018-12-30 23:34:32 · 4000 阅读 · 0 评论 -
深度学习最全优化方法总结比较(SGD,Adagrad,Adadelta,Adam,Adamax,Nadam)
转自:https://zhuanlan.zhihu.com/p/22252270作者:ycszen https://www.zhihu.com/people/yu-chang-qian/activities有个博客总结的非常好。见http://ruder.io/optimizing-gradient-descent/前言 (标题不能再中二了)本文仅对...转载 2018-12-05 15:18:46 · 166 阅读 · 0 评论 -
线性回归和逻辑回归区别
线性回归和逻辑回归线性:y=a*x 是一次方的变化回归:回归到平均值线性回归用作回归预测逻辑回归用作二分类,也可以做多分类从数据上来讲,线性回归的样本的输出,都是连续值,而逻辑回归中y只能取0或者1。...原创 2018-11-27 15:02:51 · 813 阅读 · 0 评论