机器学习_志存高远脚踏实地的博客-CSDN博客

机器学习

关注

机器学习

关注数：文章数：23 文章阅读量：178201 文章收藏量：663

作者: 志存高远脚踏实地

性格处事方面： 1.吃苦耐劳，在校期间，除了大一的寒假，假期都没有离校，在校期间除正常上课休息时间外一直在老师的课题组，日均学习时间13小时左右。 2.执行力强，大事匀着做，小事及时完成。 3.抗压能力较强，能够不断自我激励。 4.能够对自己的工作积极负责，能够及时和老师或上级沟通交流，提出自己的见解和想法，及时给与反馈，汇报自己的工作进度以及遇到的问题和解决办法 技能方面： 1.熟悉TensorFlow，sklearn等常用框架，熟悉逻辑回归、线性回归、SVM、决策树、随机森林等常用机器学习算法算法。 2.熟悉RNN，CNN等常用神经网络算法。 3.能够阅读英文文献。 4.工程经验有待提高

展开

决策树预剪枝与后剪枝的区别和优缺点

预剪枝与后剪枝的区别和优缺点为什么要进行剪枝？预剪枝和后剪枝的方法和策略参考我的博文预剪枝预剪枝会使得决策树的很多分支没有展开，也就是没有继续分类下去，这不仅降低了过拟合的风险，还显著减少了决策树的训练时间开销和测试时间开销。但是另一方面，有些分支的当前划分虽不能提升泛化性能、甚至可能导致泛化性能暂时下降，但是在其基础上进行的后续划分有可能导致性能显著提升。预剪枝基于’贪心’本质，也就是...

原创 2019-08-24 19:14:23 · 10857 阅读 · 1 评论
决策树为什么要进行剪枝处理和决策树的剪枝策略，以及后剪枝方法——代价复杂度(CCP)算法剪枝系数的计算

决策树的剪枝处理为什么要进行决策树的剪枝处理呢？决策树的过拟合的风险很大，因为理论上来说可以将数据完全分的开，如果树足够大，每个叶子节点就剩下了一个数据。那么，这就会造成模型在训练集上的拟合效果很好，但是泛化能力很差，对新样本的适应能力不足。所以，对决策树进行剪枝，可以降低过拟合的风险。决策树的剪枝策略决策树的剪枝策略分为预剪枝和后剪枝预剪枝预剪枝就是边建立决策时边进行剪枝的操作。...

原创 2019-08-24 18:37:50 · 4314 阅读 · 0 评论
决策树CART算法、基尼系数的计算方法和含义

决策树CART算法——基尼系数决策树的CART算法使用基尼系数来选择划分属性。一个数据集的纯度可以用基尼系数来度量Gini(D)=∑k=1∣y∣∑k′≠kpkpk′=1−∑k=1∣y∣pk2\begin{aligned}Gini(D) = \sum_{k=1}^{|y|}\sum_{k'\ne k}p_kp_{k'} = 1-\sum_{k=1}^{|y|}...

原创 2019-08-24 11:06:42 · 10774 阅读 · 0 评论
决策树——ID3算法存在的问题实例详解，以及C4.5算法信息增益率的计算实例

ID3算法存在的问题例如在原始数据中加入一列ID，如下图那么如果以ID为一个节点，那么最后的每个叶子节点中只有一个数据，那么每个叶子节点的熵值都为0，那么此时的信息增益将达到最大，但是这显然不是我们想要的分类结果，这样的分类结果就好像最终得到的每一个分类数据都是按照自己的规则得到的，而我们想要的是根据大部分数据都具有的特征分类，根据一些通用规则而不是特有规则。按照这样特有的规则分类的结果显然...

原创 2019-08-24 10:17:45 · 5889 阅读 · 1 评论
决策树算法如何切分特征如何选择节点、信息增益、熵值计算

决策树算法决策树树模型决策树：从根节点开始一步步走到叶子节点（这一过程叫做决策的过程，叶子节点就是决策）。所有的数据最终都会落到叶子节点，既可以做分类，也可以做回归。例如下面的图示就是一个决策的过程。根节点：第一个选择的节点。非叶子节点与分支：中间的决策过程叶子节点：最终的决策结果。节点：没增加一个节点相当于在数据中切一刀，将数据分类。决策树的训练于测试训练阶段：从给定的训...

原创 2019-08-23 22:17:55 · 9473 阅读 · 1 评论
为什么要引入正则化惩罚项？L1正则与L2正则的推导、作用以及区别

正则化惩罚项，L1L1L1和L2L2L2正则Regularize penalty items L1L1L1 and L2L2L2为什么要引入正则化惩罚项？在训练数据不够多时，或者过度训练模型（overtrainingovertrainingovertraining）时，常常会导致过拟合（overfittingoverfittingoverfitting）。正则化方法即为在此时向原始模型引入...

原创 2019-08-22 20:01:37 · 4222 阅读 · 0 评论
机器学习——下采样(under-sampling)

下采样(under-sampling)什么是下采样？当原始数据的分类极不均衡时，如下图我们要想用这样的数据去建模显然是存在问题的。尤其是在我们更关心少数类的问题的时候数据分类不均衡会更加的突出，例如，信用卡诈骗、病例分析等。在这样的数据分布的情况下，运用机器学习算法的预测模型可能会无法做出准确的预测，最后的模型显然是趋向于预测多数集的，少数集可能会被当做噪点或被忽视，相比多数集，少数集被...

原创 2019-08-21 17:05:46 · 87910 阅读 · 3 评论
数据分布不均衡处理——SMOTE算法过采样Over sampling

数据分布不均衡处理——SMOTE算法过采样OversamplingOver\quad samplingOversampling什么是过采样？过采样就是在原始数据分布不均衡时，使用算法，人工生成一部分数据出来，然后对这些新生成的数据随机采样，使得原始数据中少数集的数量最终和多数集的数量相同。如下图，可以看到类别为0的数据的数量远远多于类别为1的数据的数量。SMOTE算法的基本思想对于少...

原创 2019-08-21 20:38:07 · 3636 阅读 · 1 评论
机器学习之逻辑回归Logistic Regression原理实现升学预测——Python代码实现

Logistic Regression目标：建立一个逻辑回归模型，通过一个人的两门考试成绩来预测能否被该学校录取，最后计算准确率。下面是本次使用的数据，如有需要学习请留言准备数据#导入模块import pandas as pdimport matplotlib.pyplot as pltimport numpy as np#读取数据data = pd.read_csv('da...

原创 2019-08-18 16:02:30 · 2226 阅读 · 6 评论
逻辑回归Logistic Regression——二分类原理推导

逻辑回归原理推导——Logistic Regression逻辑回归是经典的二分类算法，逻辑回归的决策边界是非线性的。例如下面的两种分类前者是线性的，后者是非线性的。实际分类中经常是先用逻辑回归分类，再用其他分类如支持向量机等，逻辑回归是比较简单的分类算法，先用逻辑回归再用其他复杂的分类算法查看分类效果，决定是否有必要使用其他分类算法。分类时候我们想要的当然是某一个样本属于AAA还是属...

原创 2019-08-16 21:32:40 · 3572 阅读 · 0 评论
梯度下降

梯度下降在上文中说了参数的计算，但是在实际的应用过程中，参数矩阵并不是可以直接计算的，是无解的，此时需要借助计算机的快速运算能力，不断优化参数，得到近似最优解。那么如何进行优化，优化的方向如何呢？这就涉及到了梯度下降和学习率（优化时每次采用的步长）。首先来看一下梯度的定义。梯度：在数学上，梯度的本意是一个向量（矢量），表示某一函数在该点处的方向导数沿着该方向取得最大值，即函数在该点...

原创 2019-08-16 10:29:39 · 2011 阅读 · 0 评论
线性回归算法原理推导——最小二乘法直接计算参数矩阵

线性回归最小二乘法直接计算参数矩阵为了举例简单，假设银行的贷款系统计算一个人的额度时候，只受到年龄，每月固定收入的影响（当然实际情况要复杂的多），那么年龄和月固定收入对一个人的贷款额度的大小影响分别有多大呢？这个影响程度称之为参数。假设年龄和每月固定收入分别为x1,x2x_1,x_2x1,x2,年龄和每月固定收入对贷款额度的影响程度分别用参数θ1,θ2\theta_1,\theta_2θ1...

原创 2019-08-15 21:30:58 · 3199 阅读 · 0 评论
简单的机器学习原理实现线性回归

简单的机器学习原理实现线性回归以下是使用的数据表，如有需要学习使用请留言或评论#导入库import numpy as npimport matplotlib.pyplot as plt#读取数据 #绘制散点图def read_plot(): data = np.loadtxt('liner_regression.csv',delimiter=',') x = dat...

原创 2019-08-15 16:10:18 · 140 阅读 · 0 评论
机器学习

机器学习的一些基本概念什么是机器学习？机器学习(Machine Learning，简称ML)是人工智能的一个子集，机器学习致力于研究如何通过计算的手段，从大量的数据中获取经验，利用经验来改善系统的性能，对新的情况作出有效的决策。机器学习所研究的主要内容就是在计算机上从数据中产生“模型”的算法，即学习算法(Learning Algorithm)。**数据集：**数据集，又称为资料集、数据集合或...

原创 2019-07-12 12:18:18 · 555 阅读 · 0 评论
支持向量机SVM——最大间隔分离超平面的计算、拉格朗日乘数法求解不等式约束的优化问题

支持向量机SVM——最大间隔分离超平面的计算如何定义两个集合的最优分隔超平面呢？找到集合"边界"上的若干点，以这些点为基础计算超平面的方向，以二维坐标平面为例子wTx+b=0w^Tx+b=0wTx+b=0，当系数wTw^TwT确定的时候，这个超平面的方向也就随之确定，以两个结果边界上的点的平均作为超平面的"截距"。SVM线性分类问题假设给定一个特征空间上的训练数据集T=(x1,t1)...

原创 2019-08-29 20:23:16 · 10456 阅读 · 0 评论
支持向量机SVM——支撑超平面、支撑（支持）向量、分割超平面、最大间隔分离超平面

支持向量机SVM前提概念首先从字面的意思来看一下支持向量机，机即machine，也就是算法，那么什么是支持向量呢？支持向量支持的是什么呢？看一下以下几个概念支撑超平面：设有一个集合C，x0C，x_0C，x0为CCC边界上的点。若存在a≠0,a\neq0,a̸=0,满足对于任意的x∈Cx\in Cx∈C，都有aTx≤aTx0a^Tx\le a^Tx_0aTx≤aTx0成立，则称超平面...

原创 2019-08-29 11:13:40 · 5411 阅读 · 0 评论
贝叶斯算法、正向概率、逆向概率、先验概率、后验概率、单词拼写纠错实例

贝叶斯算法贝叶斯算法起源于解决逆向概率问题，那么什么叫逆向概率问题呢？在说逆向概率问题之前先看一下什么是正向概率问题。正向概率问题举个栗子：假设一个袋子里有N个白球和N个黑球，伸进手随机摸一个，摸出黑球的概率是多大呢？显然摸出黑球的概率是12\begin{aligned}\frac{1}{2}\end{aligned}21，这就是正向概率问题。与之对应的就是逆向概率问题。逆向概率问题...

原创 2019-08-28 18:00:38 · 3708 阅读 · 0 评论
使用线性回归、逻辑回归、决策树、随机森林进行泰坦尼克救援预测

泰坦尼克救援预测from IPython.display import ImageImage(filename=r'C:\Users\a\Desktop\暑假\Titantic\QQ截图20190827081938.png',width=800)第一步：数据分析import pandas as pdimport numpy as npimport matplotlib.pyplot...

原创 2019-08-27 17:07:43 · 1522 阅读 · 0 评论
集成学习(Ensemble learning)的Bagging模型、随机森林、随机森林的Feature Importance

集成学习(Ensemble learning)的Bagging模型Bagging模型(Bootstrap Aggregation)如下图：本质上就是并行训练几个分类器，Bagging是通过组合随机生成的训练集而改进分类的集成算法。Bagging每次训练的数据集是从原始数据集中有放回地随机采样，每一个训练样本在某个训练集中出现的次数n≥0n\ge0n≥0，经过N次的训练后，就得到H1....HN...

原创 2019-08-26 10:24:19 · 1355 阅读 · 0 评论
集成学习算法的思想、通过集成学习提高整体泛化能力的前提条件、如何得到独立的分类器Bagging、Boosting、Stacking算法

集成学习算法Ensemble learning algorithm目的：让机器学习的效果更好，单个的分类器如果表现的好，那么能不能通过使用多个分类器使得分类效果更好呢？或者如果单个分类器分类效果不如人意，那么是否能够通过使用多个分类器来进一步提升分类效果呢？通过集成学习可以提高整体的泛化能力，但是这种提高是有前提条件的。通过集成学习提高整体泛化能力的前提条件：分类器之间是有差异的每个...

原创 2019-08-25 22:38:26 · 2811 阅读 · 0 评论
集成学习Bagging与Boosting的区别

集成学习Bagging与Boosting的区别Bagging的训练集是随机的，以独立同分布选取的子集训练分类器，而Boosting训练集的选择不是独立的，每一次选择的训练集都依赖于上一次学习的结果，也就是在上一次学习完成之后会更新每个样本的权重，也就是新的样本分布。Bagging的每个预测函数没有权重，而Boosting根据每一次训练的训练误差得到该次预测函数的权重。Bagging的各个预...

原创 2019-08-26 21:24:00 · 862 阅读 · 0 评论
使用Graphviz决策树可视化展示，将DataFrame数据保存到本地

决策树可视化展示准备数据集本次使用sklearn的内置数据集import matplotlib.pyplot as pltimport pandas as pdfrom sklearn.datasets.california_housing import fetch_california_housing #导入内置数据集house_price = fetch_california_ho...

原创 2019-08-25 15:09:56 · 2600 阅读 · 2 评论
集成学习(Ensemble learning)的Boosting模型、最初的Boosting、Adaboost

集成学习(Ensemble learning)的Boosting模型Boosting模型最初的Boosting重复地从一个样本集合D中采样n个样本针对每次采样的子样本集，进行统计学习，获得假设HiH_iHi将若干个假设进行组合，形成最终的假设HfinalH_{final}Hfinal将最终的假设用于具体的分类任务但是这样的模型只是将原有的弱分类器进行了简单的组合，就是将弱分类...

原创 2019-08-26 18:33:10 · 742 阅读 · 0 评论

机器学习

作者: 志存高远脚踏实地

决策树预剪枝与后剪枝的区别和优缺点

决策树为什么要进行剪枝处理和决策树的剪枝策略，以及后剪枝方法——代价复杂度(CCP)算法剪枝系数的计算

决策树CART算法、基尼系数的计算方法和含义

决策树——ID3算法存在的问题实例详解，以及C4.5算法信息增益率的计算实例

决策树算法如何切分特征如何选择节点、信息增益、熵值计算

为什么要引入正则化惩罚项？L1正则与L2正则的推导、作用以及区别

机器学习——下采样(under-sampling)

数据分布不均衡处理——SMOTE算法过采样Over sampling

机器学习之逻辑回归Logistic Regression原理实现升学预测——Python代码实现

逻辑回归Logistic Regression——二分类原理推导

梯度下降

线性回归算法原理推导——最小二乘法直接计算参数矩阵

简单的机器学习原理实现线性回归

机器学习

支持向量机SVM——最大间隔分离超平面的计算、拉格朗日乘数法求解不等式约束的优化问题

支持向量机SVM——支撑超平面、支撑（支持）向量、分割超平面、最大间隔分离超平面

贝叶斯算法、正向概率、逆向概率、先验概率、后验概率、单词拼写纠错实例

使用线性回归、逻辑回归、决策树、随机森林进行泰坦尼克救援预测

集成学习(Ensemble learning)的Bagging模型、随机森林、随机森林的Feature Importance

集成学习算法的思想、通过集成学习提高整体泛化能力的前提条件、如何得到独立的分类器Bagging、Boosting、Stacking算法

集成学习Bagging与Boosting的区别

使用Graphviz决策树可视化展示，将DataFrame数据保存到本地

集成学习(Ensemble learning)的Boosting模型、最初的Boosting、Adaboost