机器学习
文章平均质量分 83
silent狼
喜欢安静的思考...
展开
-
读书笔记:“集体智慧编程”之第三章:“发现群组”的 分级聚类
聚类这章的主旨是数据聚类:聚集关系紧密的人或者事物。聚类有什么好处呢?从推荐的角度来看,也是一种求相似用户的方式。此外,如果我们统计消费者此前购买的物品,再做一个聚类,就能分析出什么样的消费者会想要得到什么。如此抽象的描述非常不利于学习,不过下面本章第二个例子就能很好解释上面这句抽象的话。拭目以待吧。聚类属于无监督学习(unsupervised learning),这不知道为什么这个词原创 2014-01-21 23:26:59 · 1879 阅读 · 2 评论 -
Recommender Systems Handbook的目录
翻译:Recommender Systems Handbook的目录缘由就想翻译点东西,看完"集体智慧编程"之后对机器学习那块有点淡化了。总觉得自己不喜欢数学,更喜欢编程。今天随意翻译翻译 Recommender Systems Handbook的目录。虽然现在处于一个比较迷茫的阶段,不过昨晚写那段设计模式的代码的时候,还是深深的感受到了对编程的喜爱。废话不多说,上吧。目录原创 2014-04-18 22:12:45 · 1365 阅读 · 0 评论 -
推荐系统:Evaluating_collaborative_filtering_recommender_systems
论文名EvaluatingCollaborative Filtering Recommender Systems JONATHAN L. HERLOCKERSchool of Electrical Engineering & Computer Science, Oregon State University and JOSEPH A. KONSTAN, LOREN G. TER翻译 2013-12-10 19:19:24 · 1479 阅读 · 1 评论 -
书:游戏开发中的人工智能(P314):遗传算法的初步认识以及代码实现
1.算法的来源我感觉:遗传的来源就是达尔文的物种起源,由于适者生存这一准则。粗略来说,生存的好的物种就有好的基因,生存的不好没有好的基因,直接死亡,好的基因传给下一代,下一代就能更好的生存,因为对环境不适应的逐渐死亡了。再此过程中,还有基因突变,基因突变也许会使物种更适应环境,也许不会,不会的又会死亡。这样,逐渐形成对环境非常适应的物种。逐渐形成对环境非常适应的物种意味着这个算法是原创 2013-10-17 15:04:57 · 1475 阅读 · 1 评论 -
相似度计算方式的总结:java或python实现代码
缘由这是之前定了的方案:我想要对比由不同相似度计算出来的歌曲相似度表,再由不同的歌曲相似度表来产生推荐列表,比较推荐列表中出现的我随机删除了的本来就被用户收藏了的歌曲的数量肯定有一种相似度计算公式最优根据原理分析为什么这种相似度方案最优即可产生理论,有了论据所以,现在我目标是总结常见的几种相似度计算方式的原理,并且利用mahout找到其实现源代码,能够利用源代码做一些简答的实验原创 2014-02-12 21:51:55 · 9259 阅读 · 0 评论 -
读书笔记:“集体智慧编程”之第九章:高阶分类-核方法与SVM
我们已经学过的分类器包括:决策树贝叶斯分类器神经网络其中神经网络作为分类器的使用是第六章课后题的一个要求。本章继续研究分类器:线性分类器核方法和支持向量机(SVMs)本章使用一个小小的例子,用于分析得出,各种分类器优势和弱势。因此,我们要明白:将一个复杂的数据集扔给算法,然后希望算法直接产生精确的分类,这是不可能的。我们必须学会选原创 2014-02-09 15:05:16 · 2515 阅读 · 1 评论 -
读书笔记:“PRML”之Mathematical notation和Introduction
缘由PRML是机器学习的经典书籍。我想通过两步部分来大致了解这本书的核心所在,这两个部分也就是不可或缺。数学概念:为这本书的学习打好基础和ntroduction:了解这本书具体讲什么Mathematical notationIntroduction翻译 2014-02-21 16:36:57 · 1509 阅读 · 0 评论 -
读书笔记:“集体智慧编程”之第八章:对数值进行预测(构建价格模型)
在上一章节,我们接触到的决策树,比较适合对数据的分类进行预测,以及我们之前学过的分类器也是如此。但是当我们对数值型结果进行预测的时候应该怎么办呢?具体什么叫做对数值型结果进行预测首先需要明确一下。比如:我们要在拍卖行竞价购买一个笔记本电脑,这台笔记本电脑有一些参数:处理器的速度,RAM的容量,硬盘的大小,屏幕的分辨率以及其他因素。显然,我们最终对其的定价必然要考虑这些参数,而这些参数的重要性各原创 2014-02-04 22:59:22 · 1591 阅读 · 1 评论 -
读书笔记:“集体智慧编程”之第七章:决策树
什么是决策树?如果将决策树和上一章的分类器一起讲述,那么决策树这种算法也是用于对物品分类的,书有一个非常简单的例子,能帮助我理解什么是决策树。给你一个水果,你可以通过以下方式判断出这是一个什么水果。可以看出,决策树上就是一个又一个if-then的语句联系起来的。而且从最终结果,我们也能够看出整个推理的过程。而上一章讲述的贝叶斯分类器里每一个单词的重要性通过计算而得到的。原创 2014-02-02 01:54:30 · 2040 阅读 · 2 评论 -
读书笔记:“集体智慧编程”之第六章:文档过滤的基础和朴素贝叶斯分类器
开篇一听名字就很觉得意思明白了很多了吧。文档过滤是机器智能应用的一个方面。主要使用在:过滤垃圾邮件过滤论坛内垃圾帖子博客和维基的垃圾内容书中提示:本章所讲算法更具有一般性,也就是说不一定只能用来做垃圾过滤,还可以用来完成对邮件分类等等。早期用于过滤的分类器早期过滤垃圾的信息非常简单,使用:基于规则的分类器,规则就是人为事先设定好的,比如英文字母大写与医药品有原创 2014-01-25 16:04:02 · 1511 阅读 · 2 评论 -
读书笔记:“集体智慧编程”之第二章:推荐算法
什么是推荐?推荐,就是根据个人偏好,对某个人进行个性化推荐。在线购物的商品推荐热门网站的推荐音乐推荐电影、电视的推荐推荐的依据主要来自每个人过去的操作:购买、评分、评论。对这些过去的数据利用算法进行处理,就能得到这个人的偏好、甚至产生值得推荐的产品。通常,我们会询问朋友有什么好看的电影,当然正常人都会询问和自己有着相同爱好的人。那么有一种算法叫做协同过滤:就是找到和目标用户有着原创 2014-01-21 22:48:07 · 4823 阅读 · 2 评论 -
读书笔记:“集体智慧编程”之第三章:带偏好条件的聚类及聚类的展示方式
带偏好条件的聚类含义第五章讲求最优解的时候,也有一个涉及偏好的对宿舍分配人员的例子。我发现这个挺喜欢讲针对偏好的情况。然而,我个人认为这个针对偏好这一说法,还是比较复杂的,所以我认为最好不要试着去理解其词语背后深刻的含义,没有深刻的含义。举例子说明就很好办有一个网站:Zebo(www.zebo.com),允许人们列出自己有拥有的物品和希望拥有的物品。我们今天的例子就是针原创 2014-01-23 22:34:25 · 1626 阅读 · 2 评论 -
读书笔记:“集体智慧编程”之第五章:“求最优解”的算法
优化显然刚开始我并不太明白这一章要讲什么,因为根据“优化”这个词,我还以为是对函数进行优化之类的。后来,我才明白,这一章在要讲求最最优解的算法。由于我曾在老师的算法课上讲过遗传算法,遗传算法就是用来求最优解的算法,所以我忽然明白了这个优化具体是指什么。制定旅行计划的例子情况描述显然上述内容都是废话,对于这一章,关键还是要怎么学好那些优化算法。我自己是通过举例子才明白原创 2014-01-23 00:23:42 · 3776 阅读 · 2 评论 -
读书笔记:“集体智慧编程”之第三章:“发现群组”的 列聚类
什么是列聚类?对博客数据使用了分级聚类的方式分析,我们可以又学的一种聚类方式:列聚类。刚刚的分级聚类就是对行进行了一个聚类。行是什么?行就是一个又一个的博客名,列是什么?列就是一个又一个的单词,那么进行行聚类的时候,我们是根据单词的词频将不同的博客聚了一次类。当我们对单词进行聚类的时候,我们就称之为列聚类。意义何在正面回答,我们知道了哪些单词会时常一起使用。对于这个列子原创 2014-01-22 21:40:56 · 1635 阅读 · 0 评论 -
读书笔记:“集体智慧编程”之第三章:“发现群组”的 k均值聚类
分级聚类的缺点此前学习的分级聚类、与列聚类,有二个缺点:计算量大的惊人,数据越大运行非常缓慢。没有确切的将数据分成不同的组,只是形成了树状图。虽然我倒觉得如果写过多的代码这一点还是可以搞定的。k均值聚类可以应对上述两种缺点,我们会预先告诉算法生成的聚类数量,也就是我要产生几个类。原理如下图所示,对于5个数据项和两个聚类过程是这样的,先随机产生两个聚类点,原创 2014-01-22 22:22:26 · 1434 阅读 · 1 评论 -
数据挖掘、数据分析、海量数据处理的面试题(总结july的博客)
缘由由于有面试通知,现在复习一下十道和海量数据处理相关的题。两篇博客已经讲的非常完备了,但是我怕读懂了并非真的懂,所以必须自己复述一遍。教你如何迅速秒杀掉:99%的海量数据处理面试题海量数据处理:十道面试题与十个海量数据处理方法总结MapReduce技术的初步了解与学习面试归类下面6个方面覆盖了大多数关于海量数据处理的面试题:分而治之/hash映射 + hash统计 + 堆原创 2014-06-28 21:37:34 · 4311 阅读 · 0 评论