Machine Learning
文章平均质量分 91
mmい
这个作者很懒,什么都没留下…
展开
-
NBA球员总得分预测——K近邻算法
Dataset本文的数据集nba_2013.csv是2013到2014赛季的NBA球员信息:player – name of the playerpos – the position of the playerg – number of games the player was ings – number of games the player startedpts – total poi原创 2016-05-02 11:16:55 · 3107 阅读 · 0 评论 -
NBA控卫聚类——K-Means详解
Dataset 在NBA的媒体报道,体育记者通常会集中在少数几个球员身边。为什么这个球员与其他球员不一样?使用数据挖掘可以探索这个问题。本文的数据集nba_2013.csv是2013-2014赛季的NBA球员的表现。下面是数据集的一些属性描述:player – name of the playerpos – the position of the playerg – number of ga原创 2016-04-26 11:14:16 · 5261 阅读 · 5 评论 -
鸢尾花分类——神经网络详解
神经元的广泛互联与并行工作必然使整个网络呈现出高度的非线性特点。在客观世界中,许多系统的输入与输出之间存在着复杂的非线性关系,对于这类系统,往往很难用传统的数理方法建立其数学模型。设计合理地神经网络通过对系统输入输出样本对进行自动学习,能够以任意精度逼近任何复杂的非线性映射。神经网络的这一优点能使其可以作为多维非线性函数的通用数学模型。该模型的表达式非解析的,输入输出数据之间的映射规则由神经网络在学原创 2016-04-26 19:16:34 · 41401 阅读 · 2 评论 -
高尔夫距离精度数据拟合——梯度下降法详解
Dataset 本文的数据集pga.csv包含了职业高尔夫球手的发球统计信息,包含两个属性:accuracy 和 distance。accuracy 精确度描述了命中球道( fairways hit)的比例,Distances 描述的是发球的平均距离。我们的目的是用距离来预测命中率。在高尔夫中,一个人发球越远,那么精度会越低。对于很多机器学习算法来说,输入数据会先进行一些预处理,比如规范化,因为原创 2016-04-26 16:30:27 · 3723 阅读 · 3 评论 -
比萨斜塔——统计显著性检验
Dataset 比萨斜塔是意大利最大的旅游景点之一。几百年来这座塔慢慢靠向一边,最终达到5.5度的倾斜角度,在顶端水平偏离了近3米。年度数据pisa.csv文件记录了从1975年到1987年测量塔的倾斜,其中lean代表了偏离的角度。在这个任务,我们将尝试使用线性回归来估计倾斜率以及解释其系数和统计数据。# 读取数据import pandasimport matplotlib.pyplot原创 2016-04-26 09:35:20 · 3540 阅读 · 1 评论 -
汽车分类——多元分类
Dataset 本文的数据集包含了各种与汽车相关的信息,如点击的位移,汽车的重量,汽车的加速度等等信息,我们将通过这些信息来预测汽车的来源:北美,欧洲或者亚洲,这个问题中类标签有三个,不同于之前的二元分类问题。由于这个数据集不是csv文件,而是txt文件,并且每一列的没有像csv文件那样有一个行列索引(不包含在数据本身里面),而txt文件只是数据。因此采用一个通用的方法read_table()来原创 2016-04-25 21:06:14 · 6845 阅读 · 0 评论 -
大学生录取预测——逻辑回归
Dataset 每年高中生和大学生都会申请进入到各种各样的高校和事业单位中去。每个学生都有一组独一无二的考试分数,成绩,和背景。录取委员会根据这个决定接受或拒绝这些申请者。在这种情况下一个二进制分类算法可用于接受或拒绝申请。逻辑回归是一个合适的方法,我们将在这个任务中解决这个问题数据集admissions.csv包含了1000个申请者的信息,特征如下: gre - Graduate Recor原创 2016-04-25 17:14:51 · 9231 阅读 · 5 评论 -
银行信用卡批准——模型评估ROC&AUC
Dataset本文的数据集credit.csv提供了关于信用卡信誉信息总共有两列 paid:is the label, whether someone has paid or not paid their credit card in the past. (以前的信用卡是否有还) model_score:is the probability of being approved.(被奇准贷款原创 2016-04-24 15:38:39 · 3281 阅读 · 0 评论 -
股价S&P预测——线性回归
Dataset本文的数据集是美国股票市场指数sp500.csv,这个指数显示了市整个股票市场的情况,数据集包含了从2005年到2015年每天收盘价格(价格市场关闭时):如果你只看一只股是得不到太多信息的,但是看这个指数可以得到一个整体的信息,若降,表示整个股票市场都不好了。 date – the date of the price. In the format yyyy-mm-dd (2015-原创 2016-04-24 11:26:23 · 7727 阅读 · 0 评论 -
自然语言处理——简单词袋模型
What Is Natural Language Processing? 本文将学习自然语言处理,当给予计算机一篇文章,它并不知道这篇文章的含义。为了让计算机可以从文章中做出推断,我们需要将文章转化为数值表示。这个过程使得计算机能够凭语法规则去识别它。那么首先就要学会如何将文章变为数值表示。Looking At The Data Hacker News网站是一个可以提交文章的社区网站,并且原创 2016-05-03 16:12:00 · 9792 阅读 · 0 评论 -
Dataquest用户流失预测
上一篇做了一些简单的数据分析,现在我们做一个预测任务,预测一下哪些用户有可能会离开Dataquest这个学习平台。我们利用逻辑回归来做这件事。我们不想知道某人正好要离开所做的事,而是关心他们在离开之前的一些屏幕中所做的事,因此我们提取每个session的最后5个events.Remove Columns对于预测来说,event中的id这个属性是没有意义的,因此需要将其剔除: '''colum原创 2016-05-03 14:57:02 · 2566 阅读 · 0 评论 -
Dataquest用户数据分析
Thinking Through Analytics Data本文将介绍如何从头到尾对数据进行分析。我们将探索Dataquest这个网站上用户的匿名化分析数据。我们将探索用户是如何进行学习的,数据源主要有两个:数据库网站前端的收集的数据A Quick Look At Dataquest首先需要明确Dataquest这个网站是怎样构造的:当前处在一个任务中,任务是由远程数据库,以及一些知识点组成原创 2016-05-03 10:18:26 · 4500 阅读 · 1 评论 -
电影评论分类——朴素贝叶斯
Before We Classify给定一个电影的评论(文本信息),我们想要知道这个评论的语气是积极(+1)的还是消极的(-1)。本文利用 naive bayes分类模型来解决这个问题。朴素贝叶斯的原理是计算某个样本属于某个类的概率。计算公式是基于贝叶斯理论:P(A∣B)=P(B∣A)/P(A)P(B),意思是给定B,计算A的概率。# Here's a running history for t原创 2016-05-02 10:49:09 · 4513 阅读 · 1 评论 -
集成模型——随机森林
本文的数据集和上一篇一样,是美国个人收入信息。在上一篇末尾提到了随机森林算法,这一篇就介绍随机森林。Ensemble Models 随机森林是一种集成模型(Ensemble Models),集成模型结合了多个模型然后创建了一个精度更高的模型下面我们创建两个决策树,他们的参数不相同,然后计算他们的预测精度:from sklearn.tree import DecisionTreeClassifi原创 2016-04-28 10:19:11 · 5062 阅读 · 1 评论 -
决策树——过/欠拟合
本文的数据集和上一篇一样,是美国个人收入信息。Using Decision Trees With Scikit-Learnscikit-learn中实现了 DecisionTreeClassifier分类算法以及DecisionTreeRegressor回归算法。from sklearn.tree import DecisionTreeClassifier# A list of columns to原创 2016-04-27 16:19:57 · 8555 阅读 · 2 评论 -
个人收入预测——决策树详解
Dataset 决策树的一个优点是它可以处理变量之间有非线性关系的数据,而这种数据用前面的线性回归是不能做的。本文的数据集是美国1994年的个人收入信息,这个数据还包含了婚姻状况,年龄以及工作类型等等。目标是要预测他们每年的收入与50k的关系{<=50:0,>50:1}import pandasincome = pandas.read_csv("income.csv")print(inco原创 2016-04-27 11:07:14 · 11900 阅读 · 3 评论 -
kdTree
什么是K近邻法K近邻(k-nearest neighbor,k-NN)算法简单、直观:给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最近邻的k个实例,这k个实例的多数属于某个类,就把该输入实例分为这个类。因此,k近邻法不具有显示的学习过程。K近邻法实际上利用训练数据集对特征向量空间进行划分,并作为其分类的“模型”。K值的选择、距离度量及分类决策规则是k近邻法的三个基本要素。kd树原创 2017-03-03 16:28:39 · 658 阅读 · 0 评论