![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
集体智慧编程
文章平均质量分 87
xiaopihaierletian
这个作者很懒,什么都没留下…
展开
-
“集体智慧编程”之第六章:文档过滤的基础和朴素贝叶斯分类器
开篇一听名字就很觉得意思明白了很多了吧。文档过滤是机器智能应用的一个方面。主要使用在:过滤垃圾邮件过滤论坛内垃圾帖子博客和维基的垃圾内容书中提示:本章所讲算法更具有一般性,也就是说不一定只能用来做垃圾过滤,还可以用来完成对邮件分类等等。早期用于过滤的分类器早期过滤垃圾的信息非常简单,使用:基于规则的分类器,规则就是人为事先设定好的,比如英原创 2017-05-23 16:30:08 · 796 阅读 · 0 评论 -
集体智慧学习编程——自我改编应用
学习目标:1、利用博客资源自我创建数据集;2、利用皮尔逊相关度描述单个数据之间的紧密度;3、对从新浪博客爬取的博客进行分类;4、绘制树状图。一、利用博客资源创建数据集:我这里选取的是新浪博客,例如http://roll.finance.sina.com.cn/blog/blogarticle/cj-bkks/inde_1.shtml, 其原创 2017-05-20 21:33:09 · 400 阅读 · 0 评论 -
集体智慧编程第四章[搜索引擎与排名]总结
爬虫程序我们打开一个url,返回一个html文件,它的格式类似下面的内容:"-//W2C//DTD XHTML 1.0 Transitioln//EN""http://www.w2.org/TR/xhtml/DTD/xhtml1-transtitional.dtd"> "http://www.w3.org/1999/xhtml"> 1原创 2017-05-20 21:30:35 · 699 阅读 · 0 评论 -
中文分词原理和实现
三大主流分词方法:基于词典的方法、基于规则的方法和基于统计的方法。1、基于规则或词典的方法定义:按照一定策略将待分析的汉字串与一个“大机器词典”中的词条进行匹配,若在词典中找到某个字符串,则匹配成功。按照扫描方向的不同:正向匹配和逆向匹配按照长度的不同:最大匹配和最小匹配1.1正向最大匹配思想MM从左向右取待切分汉语句的m个字符作为匹配字段,m为大机原创 2017-05-20 16:39:38 · 2417 阅读 · 2 评论 -
中文分词技术介绍
随着需求的变化和技术的发展,互联网企业对数据的分析越来越深入,尤其是自然语言处理处理领域,近几年,在搜索引擎、数据挖掘、推荐系统等应用方面,都向前迈出了坚实的步伐。自然语言处理领域涉及的技术非常多,为了让对此领域感兴趣的同学能够快速入门,在这里介绍一下中文信息处理的基本技术:中文分词。 说分词是中文处理的基本技术,是由汉语的特点决定的。汉语的有些单字没有意义,多字合起来才有意义,比原创 2017-05-20 20:43:42 · 2597 阅读 · 0 评论 -
“集体智慧编程”之第三章:带偏好条件的聚类及聚类的展示方式
带偏好条件的聚类含义第五章讲求最优解的时候,也有一个涉及偏好的对宿舍分配人员的例子。我发现这个挺喜欢讲针对偏好的情况。然而,我个人认为这个针对偏好这一说法,还是比较复杂的,所以我认为最好不要试着去理解其词语背后深刻的含义,没有深刻的含义。举例子说明就很好办有一个网站:Zebo(www.zebo.com),允许人们列出自己有拥有的物品和希望拥有的物品。我们原创 2017-05-19 20:17:14 · 431 阅读 · 0 评论 -
“集体智慧编程”之第三章:“发现群组”的 k均值聚类
分级聚类的缺点此前学习的分级聚类、与列聚类,有二个缺点:计算量大,数据越大运行越缓慢。没有确切的将数据分成不同的组,只是形成了树状图。虽然我倒觉得如果写过多的代码这一点还是可以搞定的。k均值聚类可以应对上述两种缺点,我们会预先告诉算法生成的聚类数量,也就是我要产生几个类。原理如下图所示,对于5个数据项和两个聚类过程是这样的,先随机产生原创 2017-05-19 18:56:14 · 390 阅读 · 0 评论 -
“集体智慧编程”之第三章:“发现群组”的 列聚类
什么是列聚类?对博客数据使用了分级聚类的方式分析,我们可以又学的一种聚类方式:列聚类。刚刚的分级聚类就是对行进行了一个聚类。行是什么?行就是一个又一个的博客名,列是什么?列就是一个又一个的单词,那么进行行聚类的时候,我们是根据单词的词频将不同的博客聚了一次类。当我们对单词进行聚类的时候,我们就称之为列聚类。意义何在正面回答,我们知道了哪些单词会时常一起使用。对于原创 2017-05-19 18:55:15 · 800 阅读 · 0 评论 -
“集体智慧编程”之第三章:“发现群组”的 分级聚类
聚类这章的主旨是数据聚类:聚集关系紧密的人或者事物。聚类有什么好处呢?从推荐的角度来看,也是一种求相似用户的方式。此外,如果我们统计消费者此前购买的物品,再做一个聚类,就能分析出什么样的消费者会想要得到什么。如此抽象的描述非常不利于学习,不过下面本章第二个例子就能很好解释上面这句抽象的话。拭目以待吧。聚类属于无监督学习(unsupervised learning),这不知道为什原创 2017-05-19 17:42:08 · 739 阅读 · 0 评论 -
【集体智慧编程】第三章、发现群组
一、前言本章中,我们将学习到如下内容:从各种不同的来源中构造算法所需的数据;两种不同的聚类算法;更多有关距离度量(distance metrics)的知识;简单的图形可视化代码,用以观察所生成的群组;最后,我们还会学习如何将异常复杂的数据集投影到二维空间中。聚类时常被用于数据量很大(data-intensive)的应用中。跟踪消费者购买行为的零售商们,除了利用常规的消费原创 2017-05-19 15:24:50 · 546 阅读 · 0 评论 -
“集体智慧编程”之第二章:推荐算法
什么是推荐?推荐,就是根据个人偏好,对某个人进行个性化推荐。在线购物的商品推荐热门网站的推荐音乐推荐电影、电视的推荐推荐的依据主要来自每个人过去的操作:购买、评分、评论。对这些过去的数据利用算法进行处理,就能得到这个人的偏好、甚至产生值得推荐的产品。通常,我们会询问朋友有什么好看的电影,当然正常人都会询问和自己有着相同爱好的人。那么有一种算法叫做协同过滤:就是找到和原创 2017-05-19 10:30:26 · 1104 阅读 · 0 评论 -
音乐推荐数据集Million Song Dataset
最近在看《集体智慧编程》,打算做音乐推荐相关的研究。几经探索,终于找到一个满足自己需求的公开数据集:Million Song Dataset(MSD)。Million Song是一个开放组织,它致力于音乐信息检索领域的研究,旨在为音乐信息检索相关的研究提供高质量和高可用的公开数据集。一些国外高校如哥大以及国际音乐信息检索组织ISMIR和MSD都有密切的联系和相互支持。MSD简介原创 2017-05-19 09:47:36 · 5823 阅读 · 0 评论 -
python3.4 安装pydelicious 错误解决
开发环境:Windows 7 ,python3.53 , IDLE在学习《集体智慧编程》(《Programming Collective Intellegence》)第二章Making Recommendations第六节Building a del.icio.us Link Recommender时,需要安装一个Library库——pydelicious。安装过程中遇到了些问题,后来解原创 2017-05-17 15:43:44 · 1220 阅读 · 1 评论 -
“集体智慧编程”之第九章:高阶分类-核方法与SVM
分类这一章讲高阶分类,自然我们还学过其他一些分类器,无论是高阶还是低阶的,它们是:决策树贝叶斯分类器神经网络(作为分类器的使用是第六章课后题的一个要求)。本章继续研究分类器:线性分类器核方法和支持向量机(SVMs)例子本章使用一个小小的例子,用于分析得出,各种分类器优势和弱势。因此,我们要明白:将一个复杂的数据集扔给算法,然后希望算法直接产生精确的分原创 2017-05-24 11:13:05 · 1109 阅读 · 1 评论 -
“集体智慧编程”之第七章:决策树
什么是决策树?如果将决策树和上一章的分类器一起讲述,那么决策树这种算法也是用于对物品分类的,书有一个非常简单的例子,能帮助我理解什么是决策树。给你一个水果,你可以通过以下方式判断出这是一个什么水果。可以看出,决策树上就是一个又一个if-then的语句联系起来的。而且从最终结果,我们也能够看出整个推理的过程。而上一章讲述的贝叶斯分类器里每一个单词的重要性通过计算而原创 2017-05-24 11:11:58 · 724 阅读 · 0 评论 -
“集体智慧编程”之第五章:“求最优解”的算法
优化显然刚开始我并不太明白这一章要讲什么,因为根据“优化”这个词,我还以为是对函数进行优化之类的。后来,我才明白,这一章在要讲求最最优解的算法。由于我曾在老师的算法课上讲过遗传算法,遗传算法就是用来求最优解的算法,所以我忽然明白了这个优化具体是指什么。制定旅行计划的例子情况描述显然上述内容都是废话,对于这一章,关键还是要怎么学好那些优化算法。我自原创 2017-05-22 16:34:58 · 4070 阅读 · 0 评论