2017年08月_zkq_1986

12月 11月 10月 09月 08月 07月 05月 04月 03月 02月 01月

转载【频繁项集挖掘】FP-growth算法原理

FP-growth，FP表示frequent pattern。它通过在内存中构建FP-tree，减少了描述数据库的次数，减少了候选频繁项集的个数。FP-tree主要通过前缀共享的树结构方式，寻找频繁项。FP-tree其实是一棵前缀树，按支持度降序排列，支持度越高的频繁项离根节点越近，从而使得更多的频繁项可以共享前缀。 1. 问题定义图1 购物篮数据的二元表示

2017-08-31 16:41:18 1769

转载【推荐】基于Spark的ALS算法

ALS(alternating least squares ):交替最小二乘法1 含义在现实中用户-物品-评分矩阵是及其大的，用户消费有限，对单个用户来说，消费的物品的非常有限的，产生的评分也是比较少的，这样就造成了用户-物品矩阵有大量的空值。假定用户的兴趣只受少数因素的影响，所以用户-物品矩阵可以分解为用户的特征向量矩阵和物品的特征向量矩阵（降维了）。用户的

2017-08-30 09:55:00 620

转载文本挖掘的分词原理

1. 分词的基本原理　　　　现代分词都是基于统计的分词，而统计的样本内容来自于一些标准的语料库。假如有一个句子：“小明来到荔湾区”，我们期望语料库统计后分词的结果是："小明/来到/荔湾/区"，而不是“小明/来到/荔/湾区”。那么如何做到这一点呢？　　　　从统计的角度，我们期望"小明/来到/荔湾/区"这个分词后句子出现的概率要比“小明/来到/荔/湾区”大。如果用数学的语言来说说，如果

2017-08-29 20:07:41 502

转载基于用户投票的排名算法：威尔逊区间

基于用户投票的排名算法：威尔逊区间1 威尔逊区间排名算法就比较清晰了：　　第一步，计算每个项目的"好评率"（即赞成票的比例）。　　第二步，计算每个"好评率"的置信区间（以95%的概率）。　　第三步，根据置信区间的下限值，进行排名。这个值越大，排名就越高。1927年，美国数学家 Edwin Bidwell Wilson提出了一个修正公式

2017-08-23 16:28:30 1437

转载【es】es避坑小餐

作者：小猫助手链接：https://www.zhihu.com/question/59957272/answer/170694929来源：知乎著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。大家好，我是黄歆，目前担任斗鱼数据平台部基础架构组Leader，主要负责斗鱼数据平台部基础环境建设（Hadoop、ELK、容器集群等）及基础服务开发（发布系统、监控告

2017-08-23 10:29:58 1013

转载【算法】热度排行算法

1 Reddit从上面的代码级公式中我们可以了解到Reddit的排名算法主要与以下内容有关：1、文章的发表时间tt = 发表时间 – 2005 年 12 月 8 日7:46:43在上一篇 Hacker News的文章中，用来标注文章新旧程度的单位为小时，而Reddit的单位为秒，其使用Unix时间戳（从1970年1月1日到当前时间的秒数）进行的计算，代码

2017-08-22 12:46:51 14392

原创【强化学习】DQN(Deep reinforcement learning) Basic

DQN(Deep reinforcement learning) Basic1 DQN’s architecture 【input】84*84*4 image pixels. The input to the neural network consists of an 84*84*4 image produced by the preprocessing map . 【h

2017-08-18 10:49:01 554

原创 Minimax准则

Minimax准则1 Minimax准则Minimax准则是指，在最大的风险函数中取最小。具体地说，考察两个策略，策略1产生的风险（损失）中会有一个最大的风险值M1；策略2产生的风险中也会有一个最大的风险值M2，如果M2minimax准则是一种保守的优良性准则。贝叶斯学派认为，只是人们对theta的先验分布很没把握的时候，作为一种替代，才使用minimax解。只要对先验分布

2017-08-17 16:45:27 2481

原创【强化学习】MCTS (Monte Carlo Tree Search)

MCTS(Monte Carlo Tree Search) 1 MCTS基本概念1.1 Monte CarloMonte Carlo是指，随机、大量地从某个分布中生成采样数据，以此计算某一特定目标值。【举例】For example, consider a circle inscribed in a unit square. Given that the circle a

2017-08-17 14:11:05 5540

原创查询语言模型

1 TFIDF 在一份给定的文件里，词频（term frequency，TF）指的是某一个给定的词语在该文件中出现的频率。这个数字是对词数(term count)的归一化，以防止它偏向长的文件。（同一个词语在长文件里可能会比短文件有更高的词数，而不管该词语重要与否。）对于在某一特定文件里的词语来说，它的重要性可表示为：以上式子中是该词在文件中的出现

2017-08-16 20:12:38 419

ik分词和ictclas分词两者结合

ik分词和ictclas分词两者结合，可使得分词结果更加精准。

2014-09-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人