机器学习
Anaconda_
懒死了 不想写
展开
-
机器学习算法——支持向量机(SVM)
机器学习算法——支持向量机(SVM)0 前序本人是生物类的一名研究生,学习Python也有一段时间了,从数据处理到人工智能,机器学习, Python几乎是无所不能的,用其处理生信数据想必也是很好的工具。这是本人写的第一篇博客,某法则曾说:能把问题清楚地写下来,就已解决了一半。所以打算把学习过程中遇到问题记录下来,以便日后回顾解决,同时打算把最近几天的学习心得写下来,也算是对期间学习的一个总结。...原创 2019-03-08 20:22:20 · 840 阅读 · 0 评论 -
吴恩达机器学习总结(三)——神经网络的反向传播
神经网络的反向传播在上一篇博客中,利用神经网络对手写数字数据进行分类的结果虽然已经很高了,但和测试样本本身的输出值进行比较还是存在着一定的误差。这时我们需要使用这个误差值来调整神经网络本身,进而改变神经网络的输出值。误差传递我们知道在前向传播中,每个节点向下一层传递的信号所占权重不同。若只有一个节点的信号传递到输出节点,那调整神经网络输出值的方式将简单的多,只需要更新这个节点的权重即可。假如...原创 2019-05-30 08:47:51 · 589 阅读 · 0 评论 -
吴恩达机器学习总结(二)——Logistic回归和简单的神经网络(附作业)
在线性回归模型中,输入和输出一般都是连续的,对于每个输入x,都有一个对应的输出y,模型的定义域和值域都可以是(−∞,+∞)(-∞, +∞)(−∞,+∞)。而对于分类模型来说,其输入可以是连续的,但它的输出是离散的,即只有有限个输出y。例如,其值域可以只有两个值{0, 1},这两个值可以表示对样本的某种分类,高/低、患病/健康、阴性/阳性等,这就是最常见的二分类问题。二、Logistic回归逻辑...原创 2019-05-20 17:48:41 · 484 阅读 · 0 评论 -
吴恩达机器学习总结(一)线性回归和梯度下降
吴恩达这个机器学习课程是值得像我这样的初窥人工智能领域的同学们来学习的,该课程涉及的数学公式较少,很多结论都是直接呈现在屏幕上了,所以在看视频学习的过程中是很容易理解Ng所讲的内容的。不过课后作业相比于视频就比较的深入了,很多时候需要自己写代码来构造算法。整体课程大致分为三个部分:监督学习、无监督学习、以及如何优化机器学习系统。其中监督学习包括:线性回归、Logistics回归、神经网络和支持向...原创 2019-05-14 21:46:58 · 708 阅读 · 0 评论 -
练习——随机森林分类毒、可食用蘑菇数据集
假如我们在山上采蘑菇,为了避免食物中毒,需要采集那些有较大的置信度认为可食用的蘑菇,虽然这种办法会遗漏掉许多我们难以判断的蘑菇(实际是可食用的)。对此,我们希望能找到那种能很好区分的特征,或者说区分度很大的特征,来避免危险,保证安全,所以我采用随机森林算法来实现目的。毒蘑菇数据集是一个包含8123个样本的数据集,有22个特征,为菌盖颜色、菌盖形状、菌盖表面形状、气味、菌褶等,下图是网上找的示意...原创 2019-04-12 22:23:20 · 16451 阅读 · 10 评论 -
练习(三)——乳腺肿瘤(良、恶性)数据分类
该数据集来自威斯康星医院,由WIlliam H. Wolberg博士提供。这个数据集,将肿瘤细胞分为两类,为良性肿瘤和恶性肿瘤,根据肿瘤细胞的外观特征以及细胞核的特征来划分的。这些特征有十个,分别为:1.Sample code number id number(患者编号)2. Clump Thickness 1 - 10(肿瘤厚度)3. ...原创 2019-03-29 01:34:38 · 7834 阅读 · 8 评论 -
【笔记】几个常见评价指标:Accuracy、Precision、Recall、F-measure和ROC曲线
在之前的练习中,评价模型的好坏我都采用了准确率(accuracy),准确率即分类正确的样本数占总样本数的比例。与准确率对应的还有错误率,即分类错误的样本数占总样本数的比例。以下引用西瓜书(《机器学习》)中的例子。准确率和错误率就是在一车西瓜中,有多少比例的瓜被判断正确或判断错误。假如我们的关注点不仅仅在分类是否正确,而是要知道有多少瓜是好瓜,好瓜有多少被正确的分类出来,那么用准确率是不太直观的,所...原创 2019-03-26 00:09:18 · 3461 阅读 · 0 评论 -
练习(一)——决策树与随机森林分析Titanic数据集船员生还情况
数据描述Titanic数据集包含11个特征,分别是:Survived:0代表死亡,1代表存活Pclass:船舱类别,3类别最高Name、Sex、Age分别为姓名、性别、年龄,其中年龄有缺失SibSp:乘客的兄弟姐妹/配偶的个数(整数值)Parch:乘客的父母/孩子的个数(整数值)Ticket:船票号码Fare:船票价格Cabin:乘客所在船舱(数据大量缺失)Embark:乘客登...原创 2019-03-17 16:49:58 · 2675 阅读 · 1 评论 -
练习(二)——威斯康辛乳腺癌数据集
该数据集来自南斯拉夫卢布尔雅那大学医疗中心肿瘤研究所,由M. Zwitter 与M. Soklic 二者提供,感谢。该数据集可在UCI数据库中找到。该数据库是加州大学欧文分校提出的用于机器学习的数据库,是一个常用的标准测试数据集。该数据集有2大类,9个属性,共286个实例。class:类别,分别是乳腺癌复发(recurrence-events)和未复发(no-recurrence-eve...原创 2019-03-20 16:55:03 · 38200 阅读 · 21 评论 -
机器学习算法——决策树
决策树是一种常见的机器学习算法,既能做分类,也能做回归,不过大多数情况用决策树来解决分类问题。决策树算法是以树状结构来表示数据的分类结果。一般来说,一颗决策树包含一个根节点,若干个非叶子节点和若干个叶子节点。我们这里用泰坦尼克号数据集来举例,根节点、非叶子节点和叶子结点如图所示:【图】其思想就和基础的语法if…else…类似,就图看来也比较直观。但是这里为什么要把【性别】作为根节点的判断条件呢...原创 2019-03-14 22:34:27 · 760 阅读 · 0 评论 -
np.linalg.norm(...)求范数的函数用法
x_norm=np.linalg.norm(x, ord=None, axis=None, keepdims=False)x:为要进行计算的向量ord:范数类型,如下:axis:处理类型axis=1表示按行向量处理,求多个行向量的范数axis=0表示按列向量处理,求多个列向量的范数axis=None表示矩阵范数。keepdims:是否保持二维矩阵的特征T...原创 2019-06-01 09:20:16 · 519 阅读 · 1 评论