机器学习
曾鸿举
没有话说
展开
-
欠拟合与过拟合
欠拟合与过拟合机器学习中的泛化,泛化即是,模型学习到的概念在它处于学习的过程中时模型没有遇见过的样本时候的表现。在机器学习领域中,当我们讨论一个机器学习模型学习和泛化的好坏时,我们通常使用术语:过拟合和欠拟合。我们知道模型训练和测试的时候有两套数据,训练集和测试集。在对训练数据进行拟合时,需要照顾到每个点,而其中有一些噪点,当某个模型过度的学习训练数据中的细节和噪音,以至于模型在新的数据上表现很...原创 2020-04-11 12:28:20 · 668 阅读 · 0 评论 -
cifar10数据集的读取
cifar10数据集----加载数据# 由于数据是被序列化以后存储的,因此我们需要使用Python中的pickle包将它们读进来# https://www.cnblogs.com/fmgao-technology/p/9078918.htmlimport pickle# 定义load_cifar10_batch函数来获取batch中的features和labelsdef load_c...原创 2020-04-10 20:40:21 · 3419 阅读 · 0 评论 -
用Python对案例进行Ridge算法和Lasso算法的比较
文章目录1. 加载数据2.数据处理3.划分数据4.搭建管道5.数据分割6. 画图7. 特别说明1. 加载数据import numpy as npimport matplotlib as mplimport matplotlib.pyplot as pltimport pandas as pdimport warnings # 警告处理from sklearn.linear_mod...原创 2020-04-07 20:55:03 · 1272 阅读 · 0 评论 -
Python----Linear regression
回归算法之线性回归线性回归的定义是:目标值预期是输入变量的线性组合。线性模型形式简单、易于建模,但却蕴含着机器学习中一些重要的基本思想。线性回归,是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,运用十分广泛。优点:结果易于理解,计算不复杂缺点:对非线性的数据拟合不好适用数据类型:数值型和标称型对于单变量线性回归,例如:前面房价例子中房子的大小...原创 2020-04-06 21:05:43 · 8261 阅读 · 1 评论 -
机器学习中分类器的性能评估
分类器性能评估在许多实际问题中,衡量分类器任务的成功程度是通过固定的性能指标来获取。一般最常见使用的是准确率,即预测结果正确的百分比。然而有时候,我们关注的是负样本是否被正确诊断出来。例如,关于肿瘤的的判定,需要更加关心多少恶性肿瘤被正确的诊断出来。也就是说,在二类分类任务下,预测结果(Predicted Condition)与正确标记(True Condition)之间存在四种不同的组合,构成...原创 2020-04-02 21:14:34 · 1161 阅读 · 0 评论 -
求解逻辑回归----梯度下降
文章目录案例简介数据可视化建立分类器(求解出三个参数θ0、θ1、θ2)[sigmoid : 映射到概率的函数](http://pengfoo.com/post/machine-learning/2016-08-07)model : 返回预测结果值cost : 根据参数计算损失gradient : 计算每个参数的梯度方向descent : 进行参数更新精度案例简介https://www.jian...原创 2020-04-01 20:37:29 · 631 阅读 · 1 评论 -
Logistic回归----葡萄酒案例
import numpy as npimport matplotlib as mplimport matplotlib.pyplot as pltimport pandas as pdimport warningsfrom sklearn.linear_model import LogisticRegressionCV # 逻辑回归模型from sklearn.linear_mod...原创 2020-03-31 21:14:04 · 4658 阅读 · 1 评论 -
分类算法学习(三)决策树
文章目录分类算法之决策树特征选择信息的度量和作用信息增益信息增益的计算method决策树本地保存决策树优缺点分析集成方法(分类)之随机森林学习算法属性方法波士顿房屋租赁价格预测完整代码分类算法之决策树决策树是一种基本的分类方法,当然也可以用于回归。我们一般只讨论用于分类的决策树。决策树模型呈树形结构。在分类问题中,表示基于特征对实例进行分类的过程,它可以认为是if-then规则的集合。在决策树...原创 2020-03-30 20:19:21 · 1785 阅读 · 0 评论 -
分类算法学习(二)逻辑回归
文章目录分类算法之逻辑回归逻辑回归属性特点分析案例----乳腺癌分类第一步:导入需要的各种包第二步:设置显示中文字体和正常显示符号第三步:拦截异常第四步:读取数据第五步:异常数据处理第六步:数据提取以及数据分割第七步:数据分割第八步:数据归一化第九步:模型训练第十步:模型评估第十一步:数据预测第十二步:画图分类算法之逻辑回归逻辑回归(Logistic Regression),简称LR。它的特点...原创 2020-03-29 19:29:36 · 533 阅读 · 0 评论 -
机器学习分类算法中的朴素贝叶斯算法
文章目录朴素贝叶斯概率论基础互联网新闻分类性能测试朴素贝叶斯算法进行分类朴素贝叶斯朴素贝叶斯(Naive Bayes)是一个非常简单,但是实用性很强的分类模型。朴素贝叶斯分类器的构造基础是贝叶斯理论。概率论基础概率定义为一件事情发生的可能性。事情发生的概率可以 通过观测数据中的事件发生次数来计算,事件发生的概率等于改事件发生次数除以所有事件发生的总次数。举一些例子:扔出一个硬币,结果头...原创 2020-03-28 21:15:25 · 501 阅读 · 0 评论 -
用案例来实现决策树
import operatorfrom math import log# 计算给定数据集的香农熵# H(x) = -sum{p(i)log[p(i)]}def calcShannonEnt(dataSet): numEntries = len(dataSet) # 计算数据集的数目 labelCounts = {} # 创建空字典,key为标签,value为数据集中为key标签...原创 2020-03-25 21:07:01 · 314 阅读 · 0 评论 -
k近邻算法---理解
import numpy as np # 科学计算包Numpyimport operator # 运算符模块"""对未知类别属性的数据集中的每个点依次执行一下操作:(1)计算已知类别数据集中的点与当前点之间的距离 (2)按照距离递增次序排序 (3)选取与当前点距离最小的k个点 (4)确定前k个点所在类别的出现频数 (5)返回当前k个点出现频数最高的类别作为当前点的预测分类...原创 2020-03-24 19:37:37 · 414 阅读 · 0 评论 -
k近邻案例(二)
文章目录第一步:导入模块第二步:导入数据及数据预处理第三步:创建训练集和测试集第四步:创建模型效果验证第五步:调用模型设置实际值进行预测第一步:导入模块# 导入Pandas进行数据处理import pandas as pd# 导入机器学习库中的K近邻回归模型from sklearn.neighbors import KNeighborsRegressor# 导入机器学习库中的均方误差回...原创 2020-03-20 15:27:30 · 1123 阅读 · 0 评论 -
k-近邻算法案例分析
文章目录读入Iris数据集细节资料对Iris数据集进行分割对特征数据进行标准化读入Iris数据集细节资料from sklearn.datasets import load_iris# 使用加载器读取数据并且存入变量irisiris = load_iris()# 查验数据规模iris.data.shape# 查看数据说明print(iris.DESCR)Iris Plants D...原创 2020-03-05 20:53:39 · 1073 阅读 · 0 评论 -
python学习笔记第二十四天--------sklearn与特征工程
文章目录1. sklearn与特征工程1.1 数据的特征工程1.2 特征工程的意义1.3 特征工程之特征处理1.4 特征工程之特征抽取与特征选择2. 数据2.1 数据的类型2.2 数据的特征抽取2.2.1 分类特征变量提取2.2.2 文本特征提取2.3 数据的特征预处理2.3.1 单个特征2.3.2 多个特征2.4 数据的特征选择3. sklearn数据集与机器学习组成3.1 scikit-le...原创 2020-03-05 20:37:43 · 683 阅读 · 0 评论 -
案例--------数据降维
数据来源:https://www.kaggle.com/c/instacart-market-basket-analysis/data数据下载:https://pan.baidu.com/s/1wr8caSCkTW8RKuO1YfK6Pw提取码:1zf7import pandas as pdfrom sklearn.decomposition import PCAfrom sklearn...原创 2020-03-03 13:18:02 · 713 阅读 · 0 评论 -
python学习笔记第二十三天--------特征抽取实例
文章目录1. 特征1.1 特征抽取1.2 字典特征抽取1.3 文本特征抽取1.4 TF-IDF2. 数据的特征处理2.1 归一化2.2 标准化2.3 缺失值处理2.4 特征选择2.5 特征降维1. 特征# 特征抽取,特征抽取针对非连续型数据和对文本等进行特征值化# 1. 导入Scikit-learn库# sklearn特征抽取API--------sklearn.feature_extr...原创 2020-03-02 16:00:52 · 706 阅读 · 0 评论