- 博客(10)
- 资源 (1)
- 收藏
- 关注
转载 【频繁项集挖掘】FP-growth算法原理
FP-growth,FP表示frequent pattern。它通过在内存中构建FP-tree,减少了描述数据库的次数,减少了候选频繁项集的个数。FP-tree主要通过前缀共享的树结构方式,寻找频繁项。FP-tree其实是一棵前缀树,按支持度降序排列,支持度越高的频繁项离根节点越近,从而使得更多的频繁项可以共享前缀。 1. 问题定义图1 购物篮数据的二元表示
2017-08-31 16:41:18
1769
转载 【推荐】基于Spark的ALS算法
ALS(alternating least squares ):交替最小二乘法1 含义在现实中用户-物品-评分矩阵是及其大的,用户消费有限,对单个用户来说,消费的物品的非常有限的,产生的评分也是比较少的,这样就造成了用户-物品矩阵有大量的空值。 假定用户的兴趣只受少数因素的影响,所以用户-物品矩阵可以分解为用户的特征向量矩阵和物品的特征向量矩阵(降维了)。用户的
2017-08-30 09:55:00
620
转载 文本挖掘的分词原理
1. 分词的基本原理 现代分词都是基于统计的分词,而统计的样本内容来自于一些标准的语料库。假如有一个句子:“小明来到荔湾区”,我们期望语料库统计后分词的结果是:"小明/来到/荔湾/区",而不是“小明/来到/荔/湾区”。那么如何做到这一点呢? 从统计的角度,我们期望"小明/来到/荔湾/区"这个分词后句子出现的概率要比“小明/来到/荔/湾区”大。如果用数学的语言来说说,如果
2017-08-29 20:07:41
502
转载 基于用户投票的排名算法:威尔逊区间
基于用户投票的排名算法:威尔逊区间1 威尔逊区间排名算法就比较清晰了: 第一步,计算每个项目的"好评率"(即赞成票的比例)。 第二步,计算每个"好评率"的置信区间(以95%的概率)。 第三步,根据置信区间的下限值,进行排名。这个值越大,排名就越高。1927年,美国数学家 Edwin Bidwell Wilson提出了一个修正公式
2017-08-23 16:28:30
1437
转载 【es】es避坑小餐
作者:小猫助手链接:https://www.zhihu.com/question/59957272/answer/170694929来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。大家好,我是黄歆,目前担任斗鱼数据平台部基础架构组Leader,主要负责斗鱼数据平台部基础环境建设(Hadoop、ELK、容器集群等)及基础服务开发(发布系统、监控告
2017-08-23 10:29:58
1013
转载 【算法】热度排行算法
1 Reddit从上面的代码级公式中我们可以了解到Reddit的排名算法主要与以下内容有关:1、文章的发表时间tt = 发表时间 – 2005 年 12 月 8 日7:46:43在上一篇 Hacker News的文章中,用来标注文章新旧程度的单位为小时,而Reddit的单位为秒,其使用Unix时间戳(从1970年1月1日到当前时间的秒数)进行的计算,代码
2017-08-22 12:46:51
14392
原创 【强化学习】DQN(Deep reinforcement learning) Basic
DQN(Deep reinforcement learning) Basic1 DQN’s architecture 【input】84*84*4 image pixels. The input to the neural network consists of an 84*84*4 image produced by the preprocessing map . 【h
2017-08-18 10:49:01
554
原创 Minimax准则
Minimax准则1 Minimax准则Minimax准则是指,在最大的风险函数中取最小。具体地说,考察两个策略,策略1产生的风险(损失)中会有一个最大的风险值M1;策略2产生的风险中也会有一个最大的风险值M2,如果M2minimax准则是一种保守的优良性准则。贝叶斯学派认为,只是人们对theta的先验分布很没把握的时候,作为一种替代,才使用minimax解。只要对先验分布
2017-08-17 16:45:27
2481
原创 【强化学习】MCTS (Monte Carlo Tree Search)
MCTS(Monte Carlo Tree Search) 1 MCTS基本概念1.1 Monte CarloMonte Carlo是指,随机、大量地从某个分布中生成采样数据,以此计算某一特定目标值。【举例】For example, consider a circle inscribed in a unit square. Given that the circle a
2017-08-17 14:11:05
5540
原创 查询语言模型
1 TFIDF 在一份给定的文件里,词频(term frequency,TF)指的是某一个给定的词语在该文件中出现的频率。这个数字是对词数(term count)的归一化,以防止它偏向长的文件。(同一个词语在长文件里可能会比短文件有更高的词数,而不管该词语重要与否。)对于在某一特定文件里的词语 来说,它的重要性可表示为: 以上式子中 是该词 在文件中的出现
2017-08-16 20:12:38
419
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人