自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 资源 (1)
  • 收藏
  • 关注

原创 聚类算法K-means简介(八)

1.聚类算法原理聚类算法在生活中常见到,比如在一堆含有黄豆、黑豆、白豆的豆子里,我们将按照豆子的颜色进行分类,分出黄豆、黑豆、白豆三类豆子,这个过程其实就是聚类的过程,但是对于机器学习中的聚类算法,属于无监督学习。在给出的训练样本中,标记信息是未知的,聚类算法就是要通过无标记训练的学习来揭示数据的内在性质及规律,将训练样本进行分类,试图将数据集中的样本划分为若干个通常是不想交的子集,每个子集称...

2019-12-29 15:40:16 508

原创 决策树简介(七)

1.决策树决策树(Decision Tree)是类似数据结构中的二叉树,是一种非参数的有监督学习方法,它能够从一系列有特征和标签的数据中总结出决策规则,并用树状图的结构来呈现这些规则,以解决分类和回归问题。本次主要讲的是决策树的分类问题,我们生活中其实很多场景都用到过决策树的方法。比如生活中常见的校园招聘过程,对各项条件是否满足进行判断。如下图所示:由上图可得到从根节点到叶子节点的过程就...

2019-12-22 22:10:28 474

原创 逻辑回归算法原理简介(六)

1.逻辑回归原理逻辑回归算法(Logistic Regression)是解决分类问题,是将样本的特征和样本发生的概率联系起来,而概率是一个数,所以2.逻辑回归算法推导3.基于Python的代码实现...

2019-12-15 23:07:35 2378

原创 梯度下降法(五)

1.梯度下降法2.线下回归下降法

2019-12-08 19:07:36 208

原创 简单的线性回归及最小二乘法(四)

1.简单的线性回归之前讲的KNN算法是分类,分类的目标变量是标称型数据,回归的目的是预测数值型的目标值。两者的区别是,回归用于预测连续型的数据,分类用于离散型数据。一般说的回归都是线性回归,就是评估自变量X与因变量Y之间的一种线性关系。当只有一个自变量的时候,称为一元线性回归,即简单线性回归;当具有多个自变量的时候, 称为多元线性回归。一元线性回归就是输入的数据集:能够找到一组参数a、b,...

2019-12-01 16:23:40 281

原创 数据预处理之无量纲化、缺失值处理(三)

1.无量纲化无量纲化以我个人的理解,就是指在两个特征的单位不一样,其数值在大小上不是一个数量级,但是不能只凭数值的大小来决定两个特征谁的影响大,需要将两个特征归一到同一可比的范围内,来决定谁的影响范围。常见的无量纲化有 min-max归一化和z-score标准化(1)min-max归一化min-max归一化是指对原始数据进行线性变换,将其映射到[0,1]之间,该方法也被称为离差标准化,与z...

2019-11-23 23:52:54 2063

原创 机器学习入门之数据拆分、评价分类结果(二)

1.数据拆分在上篇文章《机器学习入门算法之KNN》中,提到了训练数据和测试数据,即数据拆分的两个子集。训练集 - 用于训练模型的子集;测试集 -需要测试分类的数据。为什么需要将数据拆分呢,比如我们在建立一个模型后,能够得到一个预测结果,如何来判断这个模型预测的结果是准确的呢?因此,一般会将一组原始数据拆分为训练数据和测试数据两个子集,训练数据用于训练模型,而测试数据用于测试模型的准确度。...

2019-11-17 00:35:31 424

原创 机器学习入门算法之KNN(一)

机器学习入门算法之KNN1.概念K近邻(k-Nearest Neighbor,简称kNN)是一种常用的监督学习方法,是机器学习中入门的算法。KNN即在给定的测试样本中,基于某种距离来确定训练集中与其最靠近的k个训练样本,然后根据这k个邻居的情况来对未知样本进行预测和分类。有点类似我们所说的“近朱者赤,近墨者黑”的意思,一般用于分类,比如常见的用来辨别红酒的品种、花瓣的种类、电影的分类、肿瘤是...

2019-11-08 23:22:22 146

原创 统计学之正态分布检验

统计学之正态分布检验本次主要是对数据集数据进行正态分布检验,数据集地址为:http://jse.amstat.org/datasets/normtemp.dat.txt主要包括三列数据,体温(F)、性别(1:男,2:女)、心率(次/分钟)1.数据统计本次没有直接下载数据,而是手动将数据存储到本地了,应该可以直接下载数据到本地或者直接读取链接中的数据,有兴趣的可以自己动手试试。#!/usr...

2019-08-12 23:07:35 8641

原创 概率分布之二项分布、泊松分布

概率分布之二项分布、泊松分布、正态分布1.概率分布概率分布是指事件的不同结果对应的发生概率所构成的分布,可以利用二维坐标进行形象地解释。如下图所示,两幅图的横轴代表的都是事件所有的可能结果,纵轴则是不同结果所对应的发生概率或概率密度。2.离散型概率分布——二项分布在现实生活中,许多事件或结果只有两个,或者结果只有一个是我们想要,其他不是我们想要的。例如,买了福利彩票,有中奖和不中奖两种结...

2019-08-03 22:41:13 6852

原创 基于python实现数据的描述性统计(二)

基于python实现数据的描述性统计(二)基于前文理论基础上,本文将利用Python的Numpy和scipy中的stats库实现描述性统计相关内容。本文使用的工具是Pycharm,对任意数组进行实践。利用Numpy和Pandas实现数据的描述性统计主要包括平均值、中位数、众数、极差、方差、标准差、平均差、四分位差、离散系数、偏度和峰度等内容import numpy as npimpor...

2019-07-28 00:06:24 787

原创 统计学之描述性统计(一)

Python实现数据的描述性统计欢迎使用Markdown编辑器你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章,了解一下Markdown的基本语法知识。新的改变我们对Markdown编辑器进行了一些功能拓展与语法支持,除了标准的Markdown编辑器功能,我们增加了如下几点新功能,帮助你用它写博客:全新...

2019-07-20 22:47:18 8867

数据结构代码(高一凡)

有关严蔚敏里书不完整的所有算法。高一凡写的各自代码,以及他的数。

2012-11-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除