机器学习
文章平均质量分 89
小拳头
“女生,平时要好好护肤,保持身材,多看书,多旅行,有自己的想法,去做自己喜欢的事,培养自信。不要把精力全部用在一个男人身上,成天胡思乱想,像个怨妇,等你变得更好的时候,你会发现所有的事情都会变得很容易了,包括爱情”
展开
-
python初步实现word2vec
一、前言一开始看到word2vec环境的安装还挺复杂的,安了半天Cygwin也没太搞懂。后来突然发现,我为什么要去安c语言版本的呢,我应该去用python版本的,然后就发现了gensim,安装个gensim的包就可以用word2vec了,不过gensim只实现了word2vec里面的skip-gram模型。若要用到其他模型,就需要去研究其他语言的word2vec了。 二、语料准备有原创 2016-12-12 16:08:38 · 48066 阅读 · 44 评论 -
文本聚类算法之K-means算法的python实现
一、算法简介算法接受参数k,然后将事先输入的n个数据对象划分为k个聚类以便使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得的一个“中心对象”来进行计算的。 基本思想:以空间中k个点为中心进行聚类,对最靠近他们的对象归类。通过迭代的方法,逐次更新各聚类中心的值,直至得到最好的聚类结果。 算原创 2016-12-08 11:52:24 · 9232 阅读 · 2 评论 -
文本聚类算法之一趟聚类(One-pass Cluster)算法的python实现
一、算法简介一趟聚类算法是由蒋盛益教授提出的无监督聚类算法,该算法具有高效、简单的特点。数据集只需要遍历一遍即可完成聚类。算法对超球状分布的数据有良好的识别,对凸型数据分布识别较差。一趟聚类可以在大规模数据,或者二次聚类中,或者聚类与其他算法结合的情况下,发挥其高效、简单的特点; 算法流程:1. 初始时从数据集读入一个新的对象2. 以这个对象构建一个新的簇3. 若达到数原创 2016-12-08 11:57:14 · 11999 阅读 · 4 评论 -
文本聚类算法总结
文中的概念和定义部分摘自于百度百科和一些论文中,把我觉得写的不错的解释和语句放上来供大家参考。 一、文本聚类定义 文本聚类主要是依据著名的聚类假设:同类的文档相似度较大,而不同类的文档相似度较小。作为一种无监督的机器学习方法,聚类由于不需要训练过程,以及不需要预先对文档手工标注类别,因此具有一定的灵活性和较高的自动化处理能力,已经成为对文本信息进行有效地组织、摘要和导航的重原创 2016-12-08 17:30:13 · 9424 阅读 · 0 评论 -
【集体智慧编程】第三章、发现群组
一、前言本章中,我们将学习到如下内容:从各种不同的来源中构造算法所需的数据;两种不同的聚类算法;更多有关距离度量(distance metrics)的知识;简单的图形可视化代码,用以观察所生成的群组;最后,我们还会学习如何将异常复杂的数据集投影到二维空间中。聚类时常被用于数据量很大(data-intensive)的应用中。跟踪消费者购买行为的零售商们,除了利用常规的消费者统计消息外原创 2016-10-04 12:47:17 · 2760 阅读 · 3 评论 -
【集体智慧编程】第二章、提供推荐
一、前言本章即将告诉大家,如何根据群体偏好来为人们提供推荐。有许多针对于此的应用,如:在线购物中的商品推荐、热门网站的推荐,以及帮助人们寻找音乐和影片的应用。本章将告诉你如何构筑一个系统,用以寻找具有相同品味的人,并根据他人的喜好自动给出推荐。也许在使用如Amazon这样的在线购物网站之前,你已经接触过某些推荐类引擎了。Amazon会对所有购物者的购买习惯进行追踪,并在你登陆网站时原创 2016-09-29 17:54:22 · 740 阅读 · 0 评论