数据分析
钟鸣_
这个作者很懒,什么都没留下…
展开
-
一位有效编码(独热编码)
简单介绍有一组数据,其中有个特征是性别。既然是性别,那它的值显然只有两个选择,要么男性(用1表示)要么女性(用0表示)。 独热编码就是将这一个特征变成两个特征:是男性、是女性。 我是男的,我的特征就变成了 [1, 0],1代表我是男的,0代表我不是女的。同样,女性的特征变为[0, 1]。用处为什么用独热编码? 假设一个特征是颜色,选项有:黄色、红色、绿色等等。如果我们不采用独热编码,用0表示黄原创 2017-10-18 21:10:03 · 4302 阅读 · 0 评论 -
数据分析(一)
以Kaggle上的一道经典题Titanic为例,总结一下数据分析的一些方法。题目说明RMS泰坦尼克号的沉没是历史上最著名的沉船事件之一。 1912年4月15日,泰坦尼亚号在首次航行中与冰山相撞后沉没,在2224名乘客和船员中有1502人死亡。 虽然在幸存的人有一些运气成分在,但确实有些人比其他人有更大的生存机会,如妇女,儿童和上层阶级。 在这个挑战中,我们要求你完成对可能活下来的人进行分析,应原创 2017-10-20 22:33:17 · 600 阅读 · 0 评论 -
数据分析(二)
数据清洗做完特征分析后,先来看一下train表变成什么样子,再看看还需要做些什么train.head(10)Cabin因为缺失值太多,暂且不考虑这一个特征。Ticket没看出有多大作用,也忽略掉。Age有一些缺失值,需要补上。还有一些特征已经提取过信息了,像SibSp, Parch已经归纳出IsAlone,就可以删除了。等等还有一些操作,得一步一步来。首先先填补年龄, 前面说过年龄和称呼应该有很大原创 2017-10-21 20:18:48 · 258 阅读 · 0 评论 -
数据分析(三)
这篇将前面的内容写成.py文件,对各个机器学习算法的正确率进行评估,然后选择具有较高正确率的算法生成模型。 这篇只是作者对sklearn库学习过后的简单的应用,之后会更深入的去学习。第一个代码主要是将数据进行整理,变成前文说的形式。titanic1.pyimport pandas as pdimport numpy as npimport redef get_title(name):原创 2017-11-08 23:13:41 · 512 阅读 · 0 评论 -
数据分析(四)从K近邻算法入门
K最近邻(k-Nearest Neighbor,KNN)分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。该方法的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。举例来说,我们要根据三角形更像什么(跟哪种图形离得更近),预测三角形的类别。我们找到三个离它最近的邻居:两个菱形和一个圆。菱形的数量多于圆,因此我们原创 2017-11-16 22:17:10 · 672 阅读 · 0 评论