Python 机器学习进阶第一节
Python 机器学习进阶第一节
我是小白呀
吾本布衣, 出自纽约, 四周大山. 箪瓢屡空, 环堵萧然, 不弊风日. 吾好读书, 滴水石穿, 笨鸟先飞, 求知不断, 方能立足. 不羡孔北海之座上客常满, 但求吾辈架上书常在. 涸辙遗鲋, 暮成枯, 人而无志, 与彼何殊. Self-study Computer Science. 愿为 open source 自效微力. 天高地阔,欲往观之.
因为啥也不会, 默默做一只小白
展开
-
机器学习进阶 第一节 第十七课
分类算法之随机森林概述学习算法sklearn.ensemble (集成方法模块)属性方法泰坦尼克号乘客数据案例完整代码概述在机器学习中, 随机森林是一个包含多个决策树的分类器. 并且其输出的类别是由个别树输出的类别的众数而定. 利用相同的训练数搭建多个独立的分类模型, 然后通过投票的方式, 以少数服从多数的原则作出最终的分类决策. 例如, 如果你训练了 5 个树, 其中有 4 个树的结果是 True, 1 个树的结果是 False, 那么最终结果会是 True.在前面的决策当中我们提到, 一个标准的决原创 2020-12-14 11:54:41 · 1876 阅读 · 0 评论 -
机器学习进阶 第一节 第十六课
分类算法之决策树概述特征选择信息的度量和作用信息增益信息增益的计算概述决策树是一种基本的分类方法, 当然也可以用于回归. 我们一般只讨论用于分类的决策树. 决策树模型呈树形结构. 在分类问题中, 表示基于特征对实例的分类过程, 它可以认为是 if-then 规则的集合. 在决策树的结构中, 每一个实例都被一条路或者一条规则所覆盖. 通常决策树学习包括三个步骤: 特征选择, 决策树的生成和决策树的修建.优点: 计算复杂度不高, 输出结果易于理解, 对中间值的缺失不敏感. 可以解决处理逻辑回归等不能解决的原创 2020-12-14 05:24:54 · 2196 阅读 · 0 评论 -
机器学习进阶 第一节 第十四课
逻辑回归算法案例二级目录三级目录二级目录三级目录原创 2020-12-13 10:55:07 · 1338 阅读 · 0 评论 -
机器学习进阶 第一节 第十五课
分类器性能评估概述sklearn.metrics.classification_report概述在许多实际问题中, 衡量分类器任务的成功程度是通过固定的性能指标来获取. 一般常见使用的是准确率, 即预测结果正确的百分比. 然而有时候, 我们关注的负样本是否被正确诊断出来. 例如, 关于肿瘤的判定, 需要更加关心多少恶性肿瘤被正确的诊断出来. 也就是说, 在二类分类任务下, 预测结果 (Predicted Condition) 与正确标记 (True Condition) 之间存在不同的组合, 构造混淆矩原创 2020-12-13 10:29:24 · 1805 阅读 · 2 评论 -
机器学习进阶 第一节 第十三课
分类算法之逻辑回归概述逻辑回归sklearn.linear_model.LogisticRegression属性coef_Cs_特点分析概述逻辑回归 (Logistic Regression). 简称 LR. 它的特点是能够是我们的特征输入集合转化为 0 和 1 这个两类的概率. 一般来说, 回归不用在分类问题上, 因为回归是连续型模型, 而且受噪声影响比较大. 如果非要应用进入, 可以使用逻辑回归. 了解线性回归之后再来看逻辑回归可以更好的理解.优点: 计算代价不高, 易于理解和实现缺点: 容易欠原创 2020-12-12 13:11:19 · 1396 阅读 · 0 评论 -
机器学习进阶 第一节 第十二课
朴素贝叶斯概论概率论基础联合概率与条件概率联合概率条件概率贝叶斯公式词袋法的特征值计算TF 计算方法拉普拉斯平滑sklearn.naive_bayes.MultinomialNB朴素贝叶斯算法案例读取 20 类新闻文本的数据细节20 类新闻文本数据分割文本转换为特征向量进行 TF 特征抽取完整代码性能特点概论朴素贝叶斯 (Native Bayes) 是一个非常简单, 但是实用性很强的分类模型. 朴素贝叶斯分类器的构造基础是贝叶斯理论.概率论基础概率定义为一件事情发生的可能性. 事情发生的概率可以通过原创 2020-12-11 13:52:56 · 1404 阅读 · 0 评论 -
机器学习进阶 第一节 第十一课
k-近邻算法案例分析概述代码实现读入 Iris 数据集细节资料对 Iris 数据集进行分割对特征数据进行标准化完整代码概述本案例使用最著名的 “鸢尾” 数据集, 该数据集曾经被 Fisher 用在经典论文中, 目前作为教科书的数据样本预存在 Scikit-learn 的工具包中.代码实现读入 Iris 数据集细节资料from sklearn.datasets import load_iris# 使用加载器读取数据并且存入变量 irisiris = load_iris()# 查验数据规模原创 2020-12-10 14:47:50 · 1646 阅读 · 1 评论 -
机器学习进阶 第一节 第十课
k-近邻概述例子欧式距离二级目录三级目录概述k-近邻算法采用测量不同特征值之间的距离来进行分类.优点: 精度高, 对异常值不敏感, 无数据输入假定缺点: 计算复杂度高, 空间复杂度高使用数据范围: 数值型和标称型例子电影可以按照题材分类, 那每个题材又是如何定义的呢?假如两种类型的电影, 动作片和爱情片. 我们发现动作片中打斗镜头次数较多, 而爱情片中接吻镜头相对更多. 当然动作片中也有一些接吻镜头, 爱情片中也有一些打斗镜头. 所以不能单纯通过是否存在打斗镜头或者接吻镜头来判断影片的类原创 2020-12-10 08:25:23 · 1408 阅读 · 0 评论 -
机器学习进阶 第一节 第九课
模型校验-交叉验证概述训练集与测试集holdout methodk-折交叉验证estimator 的工作流程概述一般在进行模型的测试是, 我们会将数据分为训练集合测试集. 在给定的样本空间中, 拿出大部分样本作为训练集来训练模型, 剩余的小部分样本使用刚建立的模型进行预测.训练集与测试集训练集与测试集的分割可以使用 cross_validation 中的 train_test_split 方法. 大部分的交叉验证迭代器都内建一个划分数据前进行数据索引打散的选项, train_test_split 方原创 2020-12-10 06:02:57 · 1486 阅读 · 0 评论 -
机器学习进阶 第一节 第八课
模型的选择概述如何选择合适的算法模型监督学习中三类问题的解释分类问题回归问题标注问题概述算法是核心, 数据和计算是基础. 这句话很好的说明了机器学习中算法的重要性. 那么我们开看下机器学习的几种分类:监督学习分类 k-近邻算法, 决策树, 贝叶斯, 逻辑回归 (LR), 支持向量机 (SVM)回归 线性回归, 岭回归标注 隐马尔可夫模型 (HMM)无监督学习聚类 k-means如何选择合适的算法模型在解决问题的时候, 必须考虑下面两个问题: 1. 使用机器学习算法的目的, 想要算法完原创 2020-12-08 13:00:56 · 1391 阅读 · 0 评论 -
机器学习进阶 第一节 第七课
sklarn-learn 数据集概述sklearn.datasetsdatasets.load_()datasets.fetch_()datasets.make_()返回类型数据集目录获取小数据集数据集进行分割获取大数据集概述我们将介绍 sklearn 中的数据集类, 模块包括用于加载数据集的实用程序, 包括假造和获取流行参数集的方法. 它还具有一些人工数据生成器.sklearn.datasetsdatasets.load_()获取小规模数据集, 数据包含在 datasets 里.dataset原创 2020-12-08 06:44:14 · 1568 阅读 · 0 评论 -
机器学习进阶 第一节 第六课
机器学习简介机器学习组成表示 (模型): Representation评价 (策略): Evalution开发应用程序的步骤收集数据准备输入数据分析输入数据训练算法测试算法使用算法机器学习组成机器学习 = 模型 + 策略 + 算法其实机器学习可以表示为: Learning = Representation + Evalution + Optimzation. 机器学习主要由三部分组成, 即: 表示 (模型), 评价 (策略) 和优化 (算法).表示 (模型): Representation表示主要原创 2020-12-07 14:47:54 · 1392 阅读 · 0 评论 -
机器学习进阶 第一节 第五课
降维案例案例一步骤步骤一步骤二步骤三案例一探究: 用户对物品类别的喜好细分降维.数据:products.csv 商品信息order_products__prior.csv 订单与商品信息orders.csv 用户的订单信息aisles.csv 商品所属具体物品类别步骤合并各张表到一张表当中: pd.merge()建立一个类似行, 列数据使用 PCA 分析步骤一import pandas as pdfrom sklearn.decomposition import PCA原创 2020-12-07 14:06:18 · 1480 阅读 · 1 评论 -
机器学习进阶 第一节 第四课
特征选择概述主要方法VarianceThreshold 语法流程噪点其他特征选择方法sklearn 主成分分析 APIPCA 是什么PCA 语法PCA 流程 (代码演示)概述特征选择 (future selection): 目的是剔除不相关 (irrelevant) 或冗余 (redundant) 的特征, 从而达到减少特征个数.特征选择就是单纯地从提取到的所有特征中选择部分特征作为训练集特征. 特征在选择在选择前和选择后可以改变值, 也不该变值. 但是选择后的特征维数肯定比选择前小, 毕竟我们只选择原创 2020-12-07 03:32:50 · 1606 阅读 · 0 评论 -
机器学习进阶 第一节 第二课
Scikit-learn 库概述安装特征抽取sklearn 特征抽取 API字典特征抽取DictVectorizer 语法流程文本特征抽取CountVectorizer 语法流程案例TF-IDFTfIdf公式TfidfVectorizer 语法流程概述Scikit-learn 库是 Python 语言的机器学习工具, 包括许多知名的机器学习算法的实现. Scikit-learn 文档完善, 容易上手, 有丰富的 API, 使其在学术界颇受欢迎. 目前稳定版本 0.23.安装创建一个机遇 Python原创 2020-12-06 13:25:17 · 1611 阅读 · 0 评论 -
机器学习进阶 第一节 第三课
特征预处理概述数值型数据标准缩放归一化sklearn 归一化 APIMinMaxScaler 语法归一化步骤归一化案例概述特征处理: 通过特定的统计方法 (数学方法)将数据转换成算法要求的数据.sklearn 特征处理 API: sklearn.preprocessing数值型数据标准缩放归一化归一化: 通过对原始数据进行变换把数据映射到 (默认为 [0,1] ) 之间.注: 作用于每一列, max 为一列的最大值, min 为一列的最小值. 那么 X’’ 为最终结果. mx, mi 分别为原创 2020-12-07 02:49:12 · 1509 阅读 · 0 评论 -
机器学习进阶 第一节 第一课
什么是机器学习概述机器学习的价值机器学习的数据数据集的结构可用数据集结构组成特征工程概述机器学习是从数据中自动分析获得规律 (模型). 并利用规律对位置数据进行预测.机器学习的价值领域: 医疗, 航空, 物流, 电商…目的: 让机器学习程序替换手动的步骤, 减少企业的成本也提高企业的效率.例子: 一个汽车零售商将客户按照对汽车的喜好划分成不同的类, 这样营销人员就可以将新型汽车的广告手册直接邮寄到有这种喜好的客户手中, 从而大大增加了商业机会.机器学习的数据使用 csv 文件为什么不能使原创 2020-12-06 02:25:28 · 1607 阅读 · 0 评论