机器学习
文章平均质量分 55
沐婉清
每一天,都要努力前行~~~~
展开
-
Udacity机器学习入门笔记——朴素贝叶斯
这里比较简单就不多说了,主要记一下使用的代码吧GaussianNB(高斯朴素贝叶斯)链接: http://scikit-learn.org/stable/modules/generated/sklearn.naive_bayes.GaussianNB.html>>> import numpy as np>>> X = np.array([[-1, -1], [-2, -1], [-3, -2],原创 2017-11-13 19:44:12 · 569 阅读 · 0 评论 -
优达(Udacity)-机器学习基础-交叉验证
交叉验证(Cross-validation)在sklearn中训练/测试分离sklearn链接:http://scikit-learn.org/stable/modules/cross_validation.html让我们加载数据集以适应线性svm:>>> import numpy as np>>> from sklearn.model_selection import train_test_原创 2017-11-24 16:55:37 · 526 阅读 · 0 评论 -
Udacity机器学习(进阶)P3用到的函数笔记
pandas.DataFrame.dropDataFrame.drop(labels=None, axis=0, index=None, columns=None, level=None, inplace=False, errors='raise')示例:>>> df = pd.DataFrame(np.arange(12).reshape(3,4), c原创 2017-12-14 12:31:23 · 947 阅读 · 0 评论 -
sklearn 精确率、召回率
精确率sklearn.metrics.precision_score(y_true, y_pred, labels=None, pos_label=1, average=’binary’, sample_weight=None)[source]Examples>>> from sklearn.metrics import precision_score>>> y_true = [0, 1, 2原创 2017-11-27 14:26:59 · 9384 阅读 · 1 评论 -
优达(Udacity)-机器学习基础-评估指标
评估指标由要解决的问题选择性能指标,然后测试模型表现。 准确度:某特定类别中我们正确标记并正确识别为此类别的项目或数据点的数量,除以该类别中全部项目或数据点的数量。准确度的缺陷 准确度会在出现偏斜类时出现问题 有时你宁可猜测某人是无辜的以免被误关进监狱 有时你宁可假设某人是有罪的再进行排除混淆矩阵 左边矩阵上方是实际分类,左方是预测的分类。决策树混淆矩阵召回率(Recall)原创 2017-11-27 09:04:51 · 720 阅读 · 0 评论 -
优达(Udacity)-机器学习基础-误差原因
误差原因模型预测中,模型可能出现的误差来自两个主要来源:因模型无法表示基本数据的复杂度而造成的偏差(bias) 数据足够,模型不够复杂(过度简化),欠拟合因模型对训练它所用的有限数据过度敏感而造成的方差(variance)。 预测结果对于任何给定的测试样本会出现多大的变化 对训练集高度敏感——过拟合(overfitting) 可通过更多的数据进行训练,以降低模型预测结果的原创 2017-11-27 17:47:46 · 579 阅读 · 0 评论 -
Udacity机器学习入门-主成分分析(PCA)
PCA是一套全面应用于各类数据分析的分析方法,这些分析包括特征集压缩 每当你需要将数据直观化的时候,都可以采用它数据维度判断下列数据的维度(一维还是二维): 二维 一维 这个也是一维的哦~! 数据很容易地映射到两个变量中的一个变量上,符合一维的定义,所以也是一维的。 所以在这里我们可以更加好的理解一维的含义 我们可以看到,如果重新定义x、y坐标轴,就可以得到上图原创 2017-12-06 23:55:31 · 801 阅读 · 0 评论 -
高斯混合模型聚类算法和K-Means聚类算法
高斯混合模型聚类算法概念:混合高斯模型就是指对样本的概率密度分布进行估计,而估计的模型是几个高斯模型加权之和(具体是几个要在模型训练前建立好)。每个高斯模型就代表了一个类(一个Cluster)。对样本中的数据分别在几个高斯模型上投影,就会分别得到在各个类上的概率。然后我们可以选取概率最大的类所为判决结果。SKlearn链接:Gaussian Mixture Model Ellipsoids优点原创 2017-12-18 12:56:22 · 4875 阅读 · 0 评论 -
anaconda pygame安装
搭建环境windows可以通过navigator直接创建环境linux和macOS可以通过命令行创建(参考链接)安装pygame注意:以下命令都要在你要调用pygame的环境下执行!这里按照很多给出的方法都不行,列出几条能够安装的命令:pygame官方文档:conda install -c cogsci pygamestackoverflow某条解决方案:...原创 2018-04-27 11:54:50 · 2009 阅读 · 0 评论 -
Fedora使用anaconda安装TensorFlow
TensorFlow有好多种安装方式,这里我采用了anaconda的方式,是因为这样可以和其他环境互不影响,也不干扰计算机的性能。(此处我使用的是单位的Fedora27系统,纯属从官网搬运,找起来方便)安装anaconda创建环境:$ conda create -n tensorflow pip python=2.7 # or python=3.3, etc.激活环境(因为...原创 2018-04-28 11:10:11 · 1589 阅读 · 0 评论 -
futureWarning: Conversion of the second argument of issubdtype from `float` to `np.floating` is
完整报错:FutureWarning: Conversion of the second argument of issubdtype from float to np.floating is deprecated. In future, it will be treated as np.float64 == np.dtype(float).type. from ._conv impo...原创 2018-05-15 15:39:43 · 1064 阅读 · 0 评论 -
Udacity-机器学习入门-特征缩放
给出这三个人的身高和体重:按照我们的理解,明显Chris应该穿L码,但是根据身高+体重的结果,Chris却应该穿S。这是为什么呢? 因为在这里,体重完全主导了结果,身高的影响微乎其微。 而我们应该尽量让两者对结果有同等重要的影响。 这就引来了特征缩放——把特征都限制在[0,1]之间。 解释:X’是你要构建的新特征X(max)和X(min)是原始特征再被缩放前所取的最小值和最大值原创 2017-12-04 15:39:28 · 847 阅读 · 0 评论 -
优达(Udacity)-机器学习基础-异常值
回归中的异常值选出下面的最好的线性回归(考虑到异常值,并假设线性回归将最小平方误差减到最低) 答案: 这一条线会获得最小的平方误差,可以看到异常值对预测的影响是很大的。产生异常的原因第三种情况是不会考虑的前两种情况是应该被忽略的异常值最后一点是应该被重视的异常值(如金融诈骗)选择异常值第二行第一个存在争议= =其实我认为他不属于异常值 但是老师说,这里可能是双重错误——标签分类也错了原创 2017-11-24 11:49:33 · 805 阅读 · 0 评论 -
Anaconda环境管理
包管理conda install numpy scipy pandasconda remove numpyconda list创建环境,在需要环境的目录下创建conda create -n env_name python=3conda create -n env_name python=2conda create -n env_name numpy scipy激活和退出环境acti原创 2017-11-18 16:28:13 · 571 阅读 · 0 评论 -
numpy库矩阵信息的获取(最大值最小值、平均值、中值、方差标准差、求和)
最大值、最小值获得整个矩阵、行或列的最大最小值。 获得元素最大值的函数:max获得元素最小值的函数:min示例代码:import numpy as npa = np.array([[1,2,3],[4,5,6]])print(a.max()) #获取整个矩阵的最大值 结果: 6print(a.min()) #结果:1# 可以指定关键字参数axis来获得行最大(小)值或列最大(小)值# a原创 2017-11-29 13:50:12 · 87255 阅读 · 3 评论 -
Udacity机器学习入门笔记——决策树(Decision Tree)
决策树原理:使用计算机算法根据数据自动找出决策边界参考下图: 决策树的python代码(sklearn)链接:http://scikit-learn.org/stable/modules/tree.html >>> from sklearn import tree>>> X = [[0, 0], [1, 1]]>>> Y = [0, 1]>>> clf = tree.DecisionTreeC原创 2017-11-15 11:16:44 · 685 阅读 · 0 评论 -
Udacity机器学习入门笔记——Random Forest
机器学习入门第五节课,三个算法自选一个,这里我先选择了Random Forest参数调整链接: http://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.htmlRandomForestClassifier(n_estimators=10, criterion=’gini’, m原创 2017-11-15 14:59:32 · 547 阅读 · 0 评论 -
Udacity监督学习——决策树
分类任务 回归任务分类任务和回归任务的不同,不在于输入,而在于输出 分类(Classification):输出来自(小的)离散集 回归(Regression):输出来自连续值 分类学习 实例(input):值和属性的向量输入 概念:描述一个事物集合的东西。世界上物体之间的映射,以及一个集合中的成员关系。 目标概念:实际的答案 假设类(Hypythsis Cl原创 2017-11-30 16:52:48 · 581 阅读 · 0 评论 -
Udacity机器学习入门笔记——支持向量机(SVM)
原则对他涉及的分类均最大化了最近点的距离——Margin那么下面这个图应该是哪条线呢? 应该是下方的线 诚然,上方的线分割的更好,但是它犯了分类方面的错误 支持向量机总是将正确分类标签作为第一考虑要素,然后再对间隔进行最大化 如果我们不关注分类正确,那么会得到很多比这两个线更能使间隔最大化的线~ 比方说在无穷远处~ 所以对于支持向量机,你必须尽力保证分类正确。在此前提下,对间隔进行原创 2017-11-13 17:05:13 · 673 阅读 · 0 评论 -
Udacity机器学习进阶—监督学习之神经网络迷你项目
1.创建感知def activate(self,inputs): """ Takes in @param inputs, a list of numbers equal to length of weights. @return the output of a threshold perceptron with given inputs based o原创 2017-12-10 16:17:34 · 954 阅读 · 3 评论 -
优达(Udacity)-机器学习基础-数据集与问题(安然数据集)
写在前面: python2对于中文的处理能力很弱,所以使用中文注解的时候会报错 解决方案: 在.py文件前加编码注释, 选用utf-8编码即可使用中文.# -*- coding: utf-8 -*-附上用到的一些python方法:dict.items( ) Python 字典(Dictionary) items() 函数以列表返回可遍历的(键, 值) 元组数组。实例:#!/usr/b原创 2017-11-23 16:37:12 · 2720 阅读 · 2 评论 -
Udacity-机器学习入门-聚类
点与聚类匹配(K均值算法)步骤: 分配 将点按照离聚类中心的距离分好 优化 移动使聚类中心到这些点的总二次距离降到最小 3.重复上述步骤 可视化工具中来看具体操作:随机放中心,对点按距离分类移动中心至其点的总二次距离最小的位置,再次对点分类 再次移动中心至点的总二次距离最小的位置原创 2017-12-03 17:41:36 · 975 阅读 · 0 评论 -
优达(Udacity)-机器学习基础-回归
from sklearn.linear_model import LinearRegressionreg = LinearRegerssion()reg.fit(ages_train , net_worths_train)print "Katie's net worth prediction: ", reg.predict([27])print "slope:", reg.coef_prin原创 2017-11-24 09:36:28 · 1027 阅读 · 0 评论 -
State Farm Distracted Driver Detection Proposal
State Farm Distracted Driver DetectionSummaryIntroductionBackground to the researchBenchmark ModelInceptionXceptionVGG16 & VGG19Project DesignProject Confirmation and solutionsFinding InformationD...原创 2018-10-01 08:34:01 · 2498 阅读 · 2 评论