自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 资源 (1)
  • 收藏
  • 关注

转载 【频繁项集挖掘】FP-growth算法原理

FP-growth,FP表示frequent pattern。它通过在内存中构建FP-tree,减少了描述数据库的次数,减少了候选频繁项集的个数。FP-tree主要通过前缀共享的树结构方式,寻找频繁项。FP-tree其实是一棵前缀树,按支持度降序排列,支持度越高的频繁项离根节点越近,从而使得更多的频繁项可以共享前缀。 1. 问题定义图1 购物篮数据的二元表示

2017-08-31 16:41:18 1769

转载 【推荐】基于Spark的ALS算法

ALS(alternating least squares ):交替最小二乘法1 含义在现实中用户-物品-评分矩阵是及其大的,用户消费有限,对单个用户来说,消费的物品的非常有限的,产生的评分也是比较少的,这样就造成了用户-物品矩阵有大量的空值。 假定用户的兴趣只受少数因素的影响,所以用户-物品矩阵可以分解为用户的特征向量矩阵和物品的特征向量矩阵(降维了)。用户的

2017-08-30 09:55:00 620

转载 文本挖掘的分词原理

1. 分词的基本原理    现代分词都是基于统计的分词,而统计的样本内容来自于一些标准的语料库。假如有一个句子:“小明来到荔湾区”,我们期望语料库统计后分词的结果是:"小明/来到/荔湾/区",而不是“小明/来到/荔/湾区”。那么如何做到这一点呢?    从统计的角度,我们期望"小明/来到/荔湾/区"这个分词后句子出现的概率要比“小明/来到/荔/湾区”大。如果用数学的语言来说说,如果

2017-08-29 20:07:41 502

转载 基于用户投票的排名算法:威尔逊区间

基于用户投票的排名算法:威尔逊区间1 威尔逊区间排名算法就比较清晰了:  第一步,计算每个项目的"好评率"(即赞成票的比例)。  第二步,计算每个"好评率"的置信区间(以95%的概率)。  第三步,根据置信区间的下限值,进行排名。这个值越大,排名就越高。1927年,美国数学家 Edwin Bidwell Wilson提出了一个修正公式

2017-08-23 16:28:30 1437

转载 【es】es避坑小餐

作者:小猫助手链接:https://www.zhihu.com/question/59957272/answer/170694929来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。大家好,我是黄歆,目前担任斗鱼数据平台部基础架构组Leader,主要负责斗鱼数据平台部基础环境建设(Hadoop、ELK、容器集群等)及基础服务开发(发布系统、监控告

2017-08-23 10:29:58 1013

转载 【算法】热度排行算法

1 Reddit从上面的代码级公式中我们可以了解到Reddit的排名算法主要与以下内容有关:1、文章的发表时间tt = 发表时间 – 2005 年 12 月 8 日7:46:43在上一篇 Hacker News的文章中,用来标注文章新旧程度的单位为小时,而Reddit的单位为秒,其使用Unix时间戳(从1970年1月1日到当前时间的秒数)进行的计算,代码

2017-08-22 12:46:51 14392

原创 【强化学习】DQN(Deep reinforcement learning) Basic

DQN(Deep reinforcement learning) Basic1 DQN’s architecture 【input】84*84*4 image pixels. The input to the neural network consists of an 84*84*4 image produced by the preprocessing map .  【h

2017-08-18 10:49:01 554

原创 Minimax准则

Minimax准则1 Minimax准则Minimax准则是指,在最大的风险函数中取最小。具体地说,考察两个策略,策略1产生的风险(损失)中会有一个最大的风险值M1;策略2产生的风险中也会有一个最大的风险值M2,如果M2minimax准则是一种保守的优良性准则。贝叶斯学派认为,只是人们对theta的先验分布很没把握的时候,作为一种替代,才使用minimax解。只要对先验分布

2017-08-17 16:45:27 2481

原创 【强化学习】MCTS (Monte Carlo Tree Search)

MCTS(Monte Carlo Tree Search) 1 MCTS基本概念1.1 Monte CarloMonte Carlo是指,随机、大量地从某个分布中生成采样数据,以此计算某一特定目标值。【举例】For example, consider a circle inscribed in a unit square. Given that the circle a

2017-08-17 14:11:05 5540

原创 查询语言模型

1 TFIDF 在一份给定的文件里,词频(term frequency,TF)指的是某一个给定的词语在该文件中出现的频率。这个数字是对词数(term count)的归一化,以防止它偏向长的文件。(同一个词语在长文件里可能会比短文件有更高的词数,而不管该词语重要与否。)对于在某一特定文件里的词语  来说,它的重要性可表示为:      以上式子中  是该词 在文件中的出现

2017-08-16 20:12:38 419

ik分词和ictclas分词两者结合

ik分词和ictclas分词两者结合,可使得分词结果更加精准。

2014-09-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除