2019年10月_zhw864680355

转载目标检测中的评价指标

目标检测中的评价指标如下：　　准确率（Accuracy），混淆矩阵（Confusion Matrix），精确率（Precision），召回率（Recall），平均正确率（AP），mean Average Precision(mAP)，交除并（IoU），ROC + AUC，非极大值抑制（NMS）。1、准确率（Accuracy）　　分对的样本数除以所有的样本数，即：准确（分类）率 ...

2019-10-31 09:23:06 765

原创深度学习中常见损失函数

一、损失函数简介损失函数主要分为两大类:分类损失和回归损失1.回归损失：1 均方误差(MSE 二次损失 L2损失) 它是我们的目标变量与预测值变量差值平方。 2 平均绝对误差(MAE L1损失) 它是我们的目标变量与预测值变量差值绝对值。关于MSE与MAE的比较。MSE更容易解决问题，但是MAE对于异常值更加鲁棒。2.分类损失：1 交叉熵损失函数。是目前神经网络中最常用的分...

2019-10-24 16:44:41 1585

转载机器学习之决策树算法：XGBoost、LightGBM和CatBoost

参考原文：从结构到性能，一文概述XGBoost、Light GBM和CatBoost的同与不同决策树模型，XGBoost，LightGBM和CatBoost模型可视化XGBoost、LightGBM和CatBoost1、XGBoostXGBoost是陈天奇于2014年提出的一种算法，被称为GBM Killer。它用预排序算法+直方图算法为每一层的叶子找出最佳分裂，简而言之，就是...

2019-10-18 14:54:48 2801

转载机器学习之特征离散化解析

在学习机器学习中，看过挺多案例，看到很多人在处理数据的时候，经常把连续性特征离散化。为此挺好奇，为什么要这么做，什么情况下才要做呢。一、离散化原因　　数据离散化是指将连续的数据进行分段，使其变为一段段离散化的区间。分段的原则有基于等距离、等频率或优化的方法。数据离散化的原因主要有以下几点：1、算法需要　　比如决策树、朴素贝叶斯等算法，都是基于离散型的数据展开的。如果要使用该类算法，...

2019-10-18 14:15:42 923

原创机器学习之离散数据编码：独热编码（OneHotEncoder）和标签编码（LabelEncoder）

1、独热编码（OneHotEncoder）有一些特征并不是以连续值的形式给出。例如以下三个特征属性：人的性别 [“male”, “female”]，来自的国家 [“from Europe”, “from US”, “from Asia”]，使用的浏览器[“uses Firefox”, “uses Chrome”, “uses Safari”, “uses Internet Expl...

2019-10-18 12:00:27 2448

转载机器学习之集成学习（Ensemble Learning）

一、集成学习法在机器学习的有监督学习算法中，我们的目标是学习出一个稳定的且在各个方面表现都较好的模型，但实际情况往往不这么理想，有时我们只能得到多个有偏好的模型（弱监督模型，在某些方面表现的比较好）。集成学习就是组合这里的多个弱监督模型以期得到一个更好更全面的强监督模型，集成学习潜在的思想是即便某一个弱分类器得到了错误的预测，其他的弱分类器也可以将错误纠正回来。集成方法是将几种机器学习技术...

2019-10-18 10:09:37 546

原创机器学习之主成分分析（Principal Component Analysis，PCA)

1、数据降维在实际的机器学习项目中，特征选择/降维是必须进行的，因为在数据中存在以下几个方面的问题：数据的多重共线性：特征属性之间存在着相互关联关系。多重共线性会导致解的空间不稳定，从而导致模型的泛化能力弱；高纬空间样本具有稀疏性，导致模型比较难找到数据特征；过多的变量会妨碍模型查找规律；仅仅考虑单个变量对于目标属性的影响可能忽略变量之间的潜在关系。通过特征选择/降维的...

2019-10-17 15:47:52 238 1

转载机器学习之线性回归、岭回归、Lasso回归

原文链接：机器学习总结(一)：线性回归、岭回归、Lasso回归1、线性回归Scikit-Learn学习笔记——线性回归（基函数回归、岭回归正则化、Lasso正则化）【机器学习】一文读懂正则化与LASSO回归，Ridge回归1.1、线性回归一般形式1.2、线性回归可能遇到的问题求解损失函数的最小值有两种方法：梯度下降法以及正规方程。特征缩放：即对特征数据进行归一...

2019-10-17 12:30:38 936 1

转载机器学习之聚类算法Kmeans

K-means算法（无监督算法，聚类算法）1、基本概念聚类算法：是一种典型的无监督学习算法，主要用于将相似的样本自动归到一个类别中。聚类算法与分类算法最大的区别是：聚类算法是无监督的学习算法，而分类算法属于监督的学习算法，分类是知道结果的。在聚类算法中根据样本之间的相似性，将样本划分到不同的类别中，对于不同的相似度计算方法，会得到不同的聚类结果，常用的相似度计算方法有欧式距离法。...

2019-10-16 17:39:32 1798

转载机器学习之支持向量机（Support Vector Machine）

详细SVM介绍及其公式推导（请点击）1、SVM基本介绍SVM支持向量机属于广义的线性模型，先回忆一下线性模型：可依据平面（多维）或直线（一维/二维）来理解模型。简单地说，可用一条线将两类分开，如下图所示：能将两类分开的直线不止一条（左图），我们希望找到离两组数据都最远的那条线（正中间那条线），以便更好地泛化。这就是右图中所示的极大边距分类器，一般把中间的直线称为决策面，把离决策面最...

2019-10-16 15:02:41 426

转载机器学习：基于决策树和朴素贝叶斯算法对Adult数据集分类

1、数据集介绍机器学习算法需要作用于数据，数据的属性和特征决定了机器学习算法是否适用，同时，数据质量的好坏也直接决定算法表现的好坏。这篇博客选择在Adult数据集上进行实验。Adult数据集该数据从美国1994年人口普查数据库中抽取而来，因此也称作“人口普查收入”数据集，共包含48842条记录，年收入大于50k$的占比23.93%，年收入小于50k$的占比76.07%，数据集...

2019-10-16 12:30:49 7993 3

转载机器学习之数据预处理：特征缩放

一、为什么特征缩放在面对多维特征问题的时，有时特征数据数据值相差过大，如在运用多变量线性回归预测房价模型中，房屋面积和卧室个数这俩个特征之间数值相差大，而要保证这些特征都具有相近的尺度，就要进行特征缩放，这能帮助梯度下降算法更快地收敛。如图：直接求解的缺点：1、当x1 特征对应权重会比x2 对应的权重小很多，降低模型可解释性2、梯度下降时，最终解被某个特征所主导，会影响模型精度与收...

2019-10-15 23:03:38 1327

转载机器学习之朴素贝叶斯实践

1、调库实现from sklearn.naive_bayes import GaussianNBfrom sklearn.model_selection import cross_val_scorefrom sklearn import datasetsiris = datasets.load_iris()gnb = GaussianNB()scores=cross_val_sco...

2019-10-15 22:38:00 174

转载机器学习之朴素贝叶斯

1、基本概念（原文地址）在机器学习中，朴素贝叶斯是一个分类模型，输出的预测值是离散值。在讲该模型之前首先有必要先了解贝叶斯定理，以该定理为基础的统计学派在统计学领域占据重要的地位，它是从观察者的角度出发，观察者所掌握的信息量左右了观察者对事件的认知。贝叶斯公式如下：其中，P(B∣A) 是事件 B 在另一个事件 A已经发生条件下的概率,∑AP(B∣A)P(A) 表示A所有可能情况下的...

2019-10-15 08:54:52 569

转载机器学习之随机森林实践：手写字识别、天气最高温度预测

1、RandomForestClassifier基本参数说明要使用RandomForestClassifier算法进行分类，我们需要先了解RandomForestClassifier算法的一些基本参数。RandomForestClassifier(n_estimators=10, criterion=’gini’, ...

2019-10-15 08:54:23 2108

转载机器学习之随机森林（Random Forest）

1、背景介绍单棵决策树的劣势有时候单棵决策树可能难以实现较高的准确率，这主要是由以下几个方面决定的：求解一棵最优（泛化误差最小）的决策树是一个NP难（无法穷极所有可能的树结构）问题，往往得到的是局部最优解；单棵树构建的模型往往不够稳定，样本变动很容易引起树结构的变动；解决过拟合问题除划分测试集和训练集外依赖于剪枝。2、随机森林简述随机森林是一种以决策树为基分类...

2019-10-14 17:59:13 6258

转载机器学习之最近邻（KNN）实践：鸢尾花分类

一.SkelarnKNN参数概述要使用sklearnKNN算法进行分类，我们需要先了解sklearnKNN算法的一些基本参数。def KNeighborsClassifier(n_neighbors = 5, weights='uniform', algorithm = '', ...

2019-10-14 16:35:01 2765

转载机器学习之最近邻（KNN）

一.KNN算法概述KNN可以说是最简单的分类算法之一，同时，它也是最常用的分类算法之一，注意KNN算法是有监督学习中的分类算法，它看起来和另一个机器学习算法Kmeans有点像（Kmeans是无监督学习算法），但却是有本质区别的。那么什么是KNN算法呢，接下来我们就来介绍介绍吧。二.KNN算法介绍KNN的全称是K Nearest Neighbors，意思是K个最近的邻居，从这个名字我们就能看...

2019-10-14 16:18:48 1322

转载机器学习之决策树实践：隐形眼镜类型预测

步骤：收集数据：使用书中提供的小型数据集准备数据：对文本中的数据进行预处理，如解析数据行分析数据：快速检查数据，并使用createPlot()函数绘制最终的树形图训练决策树：使用createTree()函数训练测试决策树：编写简单的测试函数验证决策树的输出结果&绘图结果使用决策树：这部分可选择将训练好的决策树进行存储，以便随时使用1、数据集young my...

2019-10-14 15:58:53 654

转载机器学习之决策树实践：赖床判断

sklearn中训练决策树的默认算法是CART，使用CART决策树的好处是可以用它来进行回归和分类处理，不过这里我们只进行分类处理。一. sklearn决策树参数详解我们都知道，一个模型中很重要的一步是调参。在sklearn中，模型的参数是通过方法参数来决定的，以下给出sklearn中，决策树的参数：DecisionTreeClassifier(criterion="gini", ...

2019-10-14 15:13:35 611

转载机器学习之决策树（Decision Tree）

文章目录决策树 3.1 决策树的构造 3.1.1 信息增益 3.1.2 编写代码计算经验熵 3.1.4利用代码计算信息增益 3.2 决策树的生成和修剪 3.2.1 决策树的构建 1. ID3算法 2. C4.5的生成算法 3. 决策树的剪枝 3.2.2 决策树可视化 3.2.3 I...

2019-10-14 15:05:45 159

转载机器学习之逻辑回归实践：购买意向预测与其他预测

逻辑回归的主要用途有预测（如预测用户购买意向）、判别（如判别某人是否会患胃癌）等。今天使用逻辑回归做了个购买意向的预测。数据集如下（共400条数据，4个特征，这里我们不使用ID和性别，只使用年龄和收入两个特征）：具体实现代码如下：import pandas as pdfrom sklearn.model_selection import train_test_spli...

2019-10-14 14:25:14 2142 1

转载机器学习之逻辑回归（Logistic Regression）

1、逻辑回归基本概念Logistic 回归模型是目前广泛使用的学习算法之一，通常用来解决二分类问题（即输出只有两种，分别代表两个类别），虽然名字中有“回归”，但它是一个分类算法。Logistic 回归的优点是计算代价不高，容易理解和实现；缺点是容易欠拟合，分类精度可能不高。与线性回归的区别：线性回归预测输出的是（-∞,+∞）而逻辑回归输出的是{0,1}，这里面0我们称之为负例，1称...

2019-10-14 14:07:38 985

原创机器学习之线性回归实践：房价预测

从给定的房屋基本信息以及房屋销售信息等，建立一个回归模型预测房屋的销售价格。1、数据数据说明如下：数据主要包括2014年5月至2015年5月美国King County的房屋销售价格以及房屋的基本信息。数据分为训练数据和测试数据，分别保存在kc_train.csv和kc_test.csv两个文件中。训练数据（kc_train.csv）主要包括10000条记录，14个字段，主要字段...

2019-10-14 11:24:01 5764 3

转载机器学习之线性回归（Linear Regression）

1、线性回归概念机器学习中的两个常见的问题：回归任务和分类任务。那什么是回归任务和分类任务呢？简单的来说，在监督学习中（也就是有标签的数据中），标签值为连续值时是回归任务，标志值是离散值时是分类任务。而线性回归模型就是处理回归任务的最基础的模型。线性：两个变量之间的关系是一次函数关系的——图象是直线，叫做线性；非线性：两个变量之间的关系不是一次函数关系的——图象不是直线，叫做非...

2019-10-14 11:08:48 19335

转载 Python之MatPlotLib使用教程

1、Matplotlib简介Matplotlib是非常强大的python画图工具Matplotlib可以画图线图、散点图、等高线图、条形图、柱形图、3D图形、图形动画等。2、Matplotlib安装pip3 install matplotlib #python33、Matplotlib引入import matplotlib.pyplot as plt #为方便简...

2019-10-11 16:28:58 7298 2

转载 Python之Numpy使用教程

1、NumPy概述NumPy(Numerical Python)是用Python进行科学计算的基础软件包。包含以下特点：1、强大的N维数组对象Array；2、成熟的函数库；3、用于集成C/C++和Fortran代码的工具；4、实用的线性代数、傅立叶变换和随机生成函数。2、NumPy安装pip install numpy或pip3 install numpy3、Nu...

2019-10-10 22:37:19 237

转载 Python之Pandas使用教程

1、Pandas概述Pandas是Python的一个数据分析包，该工具为解决数据分析任务而创建。 Pandas纳入大量库和标准数据模型，提供高效的操作数据集所需的工具。 Pandas提供大量能使我们快速便捷地处理数据的函数和方法。 Pandas是字典形式，基于NumPy创建，让NumPy为中心的应用变得更加简单。2、Pandas安装pip3 install pandas3、...

2019-10-10 22:13:57 192

zhw864680355的博客