![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
算法相关
yongjian_luo
这个作者很懒,什么都没留下…
展开
-
几个有意思的算法题<转>
java算法目录(?)[-]题目标题 高斯日记题目标题 排它平方数标题 振兴中华标题 颠倒的价牌1.题目标题: 高斯日记 大数学家高斯有个好习惯:无论如何都要记日记。 他的日记有个与众不同的地方,他从不注明年月日,而是用一个整数代替,比如:4210 后来人们知道,那个整数就是日期,它表示那一天是高斯出生后的第几天。这或许也是个好转载 2013-11-11 16:57:34 · 777 阅读 · 0 评论 -
逻辑回归模型(Logistic Regression, LR)基础<转>
逻辑回归(Logistic Regression, LR)模型其实仅在线性回归的基础上,套用了一个逻辑函数,但也就由于这个逻辑函数,使得逻辑回归模型成为了机器学习领域一颗耀眼的明星,更是计算广告学的核心。本文主要详述逻辑回归模型的基础,至于逻辑回归模型的优化、逻辑回归与计算广告学等,请关注后续文章。1 逻辑回归模型 回归是一种极易理解的模型,就相当于y=f(x),表明自变转载 2014-11-05 15:07:20 · 899 阅读 · 0 评论 -
Libsvm和Liblinear的使用经验谈<转>
Libsvm和Liblinear都是国立台湾大学的Chih-Jen Lin博士开发的,Libsvm主要是用来进行非线性svm 分类器的生成,提出有一段时间了,而Liblinear则是去年才创建的,主要是应对large-scale的data classification,因为linear分类器的训练比非线性分类器的训练计算复杂度要低很多,时间也少很多,而且在large scale data上的性转载 2014-11-03 15:54:24 · 617 阅读 · 0 评论 -
微博推荐算法简述<转>
在介绍微博推荐算法之前,我们先聊一聊推荐系统和推荐算法。有这样一些问题:推荐系统适用哪些场景?用来解决什么问题、具有怎样的价值?效果如何衡量?推荐系统诞生很早,但真正被大家所重视,缘起于以”facebook”为代表的社会化网络的兴起和以“淘宝“为代表的电商的繁荣,”选择“的时代已经来临,信息和物品的极大丰富,让用户如浩瀚宇宙中的小点,无所适从。推荐系统迎来爆发的机会,变得离用户更近:转载 2014-08-25 09:45:47 · 1648 阅读 · 0 评论 -
主题模型-LDA浅析<转>
上个月参加了在北京举办SIGKDD国际会议,在个性化推荐、社交网络、广告预测等各个领域的workshop上都提到LDA模型,感觉这个模型的应用挺广泛的,会后抽时间了解了一下LDA,做一下总结:(一)LDA作用 传统判断两个文档相似性的方法是通过查看两个文档共同出现的单词的多少,如TF-IDF等,这种方法没有考虑到文字背后的语义关联,可能在两个文档共同出现的单词很少转载 2014-06-19 16:28:10 · 562 阅读 · 0 评论 -
利用word2vec对关键词进行聚类<转>
继上次提取关键词之后,项目组长又要求我对关键词进行聚类。说实话,我不太明白对关键词聚类跟新闻推荐有什么联系,不过他说什么我照做就是了。按照一般的思路,可以用新闻ID向量来表示某个关键词,这就像广告推荐系统里面用用户访问类别向量来表示用户一样,然后就可以用kmeans的方法进行聚类了。不过对于新闻来说存在一个问题,那就量太大,如果给你十万篇新闻,那每一个关键词将需要十万维的向量表示,随着新闻转载 2014-06-04 18:23:53 · 987 阅读 · 0 评论 -
Hadoop 的 TotalOrderPartitioner<转>
http://blog.oddfoo.net/2011/04/17/mapreduce-partition%E5%88%86%E6%9E%90-2/ Partition所处的位置patition类结构1. Partitioner是partitioner的基类,如果需要定制partitioner也需要继承该类。2. HashPartitioner是mapr转载 2014-03-04 14:38:13 · 813 阅读 · 0 评论 -
Hadoop中的Terasort算法2<转>
1、1TB(或1分钟)排序的冠军 作为分布式数据处理的框架,集群的数据处理能力究竟有多快?或许1TB排序可以作为衡量的标准之一。 1TB排序,就是对1TB(1024GB,大约100亿行数据)的数据进行排序。2008年,Hadoop赢得1TB排序基准评估第一名,排序1TB数据耗时209秒。后来,1TB排序被1分钟排序所取代,1分钟排序指的是在一分钟内尽可能多的排序。2009年,在一个14转载 2013-08-13 21:19:40 · 1031 阅读 · 0 评论 -
Hadoop二次排序<转>
Hadoop二次排序:import java.io.IOException; import org.apache.Hadoop.conf.Configuration; import org.apache.Hadoop.fs.Path; import org.apache.Hadoop.io.IntWritable; import org.apache.Hadoop.转载 2013-10-16 16:37:16 · 932 阅读 · 1 评论 -
信息检索(IR)的评价指标介绍 - 准确率、召回率、F1、mAP、ROC、AUC<转>
在信息检索、分类体系中,有一系列的指标,搞清楚这些指标对于评价检索和分类性能非常重要,因此最近根据网友的博客做了一个汇总。准确率、召回率、F1信息检索、分类、识别、翻译等领域两个最基本指标是召回率(Recall Rate)和准确率(Precision Rate),召回率也叫查全率,准确率也叫查准率,概念公式: 召回率(Recall) =转载 2014-11-05 15:19:29 · 628 阅读 · 0 评论