自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 Airbnb的实时个性化搜索排序

论文题目:Real-time Personalization using Embeddings for Search Ranking at Airbnb注:以下内容纯个人理解创新点实时个性化:之前的做法大多是训练得到user-item和item-item离线文件,然后线上实时读取这些文件。本文的做法是利用item的embedding,作为排序算法一部分特征。适应集合搜索:意思是用户只会在...

2020-03-23 21:45:46 244

原创 word2vec词向量原理及公式

word2vec原理概念一句话中,连续的词之前是有相关联系的,那么可以借助这种关系来学习出每个词的向量表示。把一个词用一个向量表示后的好处有:变成机器能理解的语言,降维(以前的做法是用tf-idf构造文本向量)可以加快计算速度,可以更好的利用先验知识。例子content=我/是/自然语言/工程师,‘自然语言’与‘我’、‘的’、‘工程师’三个词强相关,所以可以通过 我/是/x/工程师 来预...

2020-03-19 21:56:04 1066

原创 决策树作为分类器

思想通过训练数据构建一颗判别树(归纳法);新数据可通过判别树得到对应的类别;存在一个假设:如果能在足够大的训练集中很好的逼近目标函数,则它也能在测试样本中很好的逼近目标函数;优点易解释适合高维数据准确性高可以处理连续和离线数据例子给女孩介绍男朋友相关算法ID4– 使用信息增益来切分树,为熵与条件熵之差G(D,A)=H(D)−H(D∣A)G(D,A)=H(...

2020-03-17 21:12:20 547

原创 贝叶斯和贝叶斯网络分类器

贝叶斯基本思想已知类的条件概率密度参数表达式和先验概率利用贝叶斯公式转换成后验概率根据后验概率大小进行决策分类遵循数据的条件独立性假设条件概率和先验概率条件概率:已知类目的情况下,数据X的概率; 如果从训练语料里计算,需要应用极大似然估计方法得到,公式如下:设第j个特征xjx^{j}xj可能取值的集合为:{aj1,aj2,aj3,...,ajSja_{j1},a_{j2}...

2020-03-14 16:09:58 486

原创 KNN算法及其改进

KNN算法优缺点优点(1) 精度高(2) 对异常值不敏感:某个异常值对整个结果不造成影响;(3) 无数据输入假定:无数据的独立性等假设;缺点(1) 计算复杂度高:因为要计算的点需要与所有点计算距离,所以复杂度很高;(2) 空间复杂度高:因为需要加载所有的样本;适应的数据范围数值型和标称型(是或者否)算法原理K值选择如果选择较小的K值– 近似误差会减小(针对训练...

2020-03-11 21:13:08 5884

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除