无聊的六婆-CSDN博客

原创 python pandas使用记录

1. 获取dataframe结构中某一部分数据在使用numpy中array格式的矩阵时，我们通常使用如A[2:4,5:10]获取数组中一部分数据，但是dataframe结构的数组就不能这么写，可以使用 iloc 方法，即index locate,另外有个相似的方法 loc , 这个方法是通过column名字进行数据定位的import pandas as pdimport numpy as n...

2019-02-19 21:08:09 476

原创密度聚类（二）OPTICS和python实现

上一节写的DBSCAN算法的一个缺点是无法对密度不同的样本集进行很好的聚类，就如下图中所示，是DBSCAN获得的聚类结果，第二个图中紫色的点是异常点，由于黄色的样本集密度小，与另外2个样本集的区别很大，这个时候DBSCAN的缺点就显现出来了。于是有人提出了另外一个算法叫做Ordering points to identify the clustering structure（OPTICS），这...

2019-01-22 14:02:51 10826 3

原创密度聚类（一）DBSCAN和python实现

密度聚类密度聚类

2019-01-19 21:35:48 2217 3

原创 python matplotlib作图细节

作图存在汉字无法显示在作图代码前添加如下代码plt.rcParams['font.sans-serif'] = ['SimHei']plt.rcParams['axes.unicode_minus'] = False作图的曲线粗细调整plt.plot()中有一个参数 ‘linewidth’，修改参数可以改变曲线粗细程度一个坐标系中存在多个曲线，给曲线命名plt.plot()中有一个...

2019-01-17 14:42:11 451

原创原型聚类（三）高斯混合聚类和python实现

与k-means、LVQ用原型向量来刻画聚类结构不同，高斯混合(Mixture of Gaussian)聚类采用概率模型来表达聚类原型。多元高斯分布的概率密度函数定义(1)p(x)=1(2π)n2(Σ)12e−12(x−μ)TΣ−1(x−μ)p(x)=\frac{1}{(2\pi )^{\frac{n}{2}}(\Sigma )^{\frac{1}{2}}}e^{-\frac{1}{2}(x-...

2018-09-23 22:03:34 3258 2

原创原型聚类（二）学习向量量化（LVQ）和python实现

学习向量量化(Learning Vector Quantization,LVQ)和k-means类似，也属于原型聚类的一种算法，不同的是，LVQ处理的是有标签的样本集，学习过程利用样本的标签进行辅助聚类，个人感觉这个算法更像是一个分类算法。。。...

2018-09-23 18:58:30 2974 2

原创原型聚类（一）k均值算法和python实现

原型聚类原型聚类算法假设聚类结构能通过一组原型刻画，在现实聚类任务中极为常用。通常情形下，算法先对原型进行初始化，然后对原型进行迭代更新求解。这里的“原型”我认为实际上就是“原来的模型”，这类算法企图模拟出生成数据集的模型。k均值算法（k-means)若存在一个样本集D={x1,x2,...,xm}D=\begin{Bmatrix}x_{1},x_{2},...,x_{m}\end{Bm...

2018-09-23 18:23:30 1668

原创经典集成学习算法和部分python实现

BoostingBoosting的大概思想是先从初始训练集中训练出一个基学习器，再根据这个基学习器对训练集的判断重新调整训练集，让当前分类器判断错误的样本在后续学习中受到更高的关注，如此不断迭代，直到生成目标数目的基学习器，然后根据权重相加，获得一个强学习器。如下图所示的流程（上图来自https://blog.csdn.net/willduan1/article/details/736...

2018-09-17 18:08:11 3127

原创 python 从数组中随机选择一部分取出，并从原数组中删除取出的内容

可以使用numpy中的random.choice函数随机选择数组的下标numpy.random.choice(a, size=None, replace=True, p=None)#a为一维数组或int值，为一维数组时会从该数组中随机选择元素，为int值时会先生成一个np.arange(a)的数组，然后从中随机选择元素#size为int值，为选择元素的个数#replace默认为Tru...

2018-09-15 18:22:56 30894 1

原创支持向量机（SVM）和python实现（三）

6. python实现根据前面的一步步推导获得的结果，我们就可以使用python来实现SVM了这里我们使用iris数据集进行验证，由于该数据集有4维，不容易在二维平面上表示，我们先使用LDA对其进行降维，又因为该数据集有3类样本，我们编写的SVM是二分类的，所以我们将获取的第二个样本的label设为1，其他两类样本的label设为-1# -*- coding: gbk -*-impo...

2018-09-11 10:36:09 6033

原创支持向量机（SVM）和python实现（二）

4. 松弛向量与软间隔前面讨论的情况都是样本分布都可以被超平面完美分割的情况，但是在现实任务中，经常会有难以完美划分的情况，就算正好完美划分了样本点，也很难判断这个结果是不是过拟合造成的。（图来自https://blog.csdn.net/zouxy09/article/details/17291543）上左图中如果我们要考虑点A，得到的超平面就是红线那样，上右图中若是要考虑在cl...

2018-09-09 17:34:10 5351

原创支持向量机（SVM）和python实现（一）

问题的提出若存在一个样本集，其中有两类数据，我们希望将他们分类

2018-09-08 17:34:01 8678

原创 python 获取等间隔的数组

可以使用numpy中的linspace函数np.linspace(start, stop, num, endpoint, retstep, dtype)#start和stop为起始和终止位置，均为标量#num为包括start和stop的间隔点总数，默认为50#endpoint为bool值，为False时将会去掉最后一个点计算间隔#restep为bool值，为True时会同时返回数据...

2018-09-07 15:25:23 30316 1

原创 tensorflow cifar10训练时遇到的问题 GPU未参与运算

在运行cifar10_train.py时发现程序只使用了我的cpu，完全没使用gpu，导致计算非常缓慢，随后我在需要gpu计算的地方添加了gpu作用域，如下with tf.device('/gpu:0'): # Build a Graph that computes the logits predictions from the # inference model....

2018-05-11 12:06:38 1521 2

原创 tensorflow rnn官方教程代码阅读时遇到的函数和类

tf.train.range_input_producer(limit, num_epochs=None, shuffle=True, seed=None, capacity=32, shared_name=None, name=None)在阅读reader.py中的ptb_producer()函数时看到的这个函数，该函数的功能为生成一个队列，其中为从0到limit-1的整数，然后我想独自运行...

2018-05-04 23:22:45 386

原创基于BP神经网络的DNN和python实现

神经网络可以用来处理回归和分类的问题，典型的神经网络算法即为BP(Back Propagation)算法，我们这里对BP神经网络的构建进行详细讲解，基于BP算法延伸出多层神经网络，并对一些问题提出解决方法。BP神经网络的原理1. 单个神经元的构成如上图所示为一个典型的神经元结构，输入端为n个输入xnxnx_{n}，对应n个权重wnwnw_{n},以及一个阈值b，将这些值进行线性...

2018-04-29 00:19:15 13060 11

原创决策树分类(decision tree classification)和python实现

决策树分类很符合人类分类时的思想，决策树分类时会提出很多不同的问题，判断样本的某个特征，然后综合所有的判断结果给出样本的类别。例如下图的流程即为一个典型的决策树分类的流程图，这个流程图用来简略的判断一个小学生是否学习很好，当然这里只是举个例子，现在的小学生可是厉害的不行了，这点评判标准完全不够看啊。。。说白了决策树就是if else的堆砌，是一个树形结构，我们在构建决策树分类器的时候主要关...

2018-04-22 16:48:47 65404 15

原创线性判别分析(LDA)和python实现（多分类问题）

上一篇写过线性判别分析处理二分类问题https://blog.csdn.net/z962013489/article/details/79871789，当使用LDA处理多分类问题时，通常是作为一个降维工具来使用的。若我们有一个D维的样本集，该样本集包含C个类别共n个样本，希望将D维降维成K维。之前在二分类问题中，我们定义的类间散度矩阵为：Sb=(μ1−μ2)(μ1−μ2)TSb=(μ1−μ2)(μ...

2018-04-12 20:29:26 20871 11

原创线性判别分析(LDA)和python实现（二分类问题）

线性判别分析（Linear Discriminant Analysis, LDA）是一种经典的线性学习方法，思路是将两种数据投影到一条直线上，使这两种数据之间尽可能远离，且同类数据尽可能聚集在一起假如我们有如上图所示的2种数据集$$X1=\left \{ x_{1}^{1}, x_{2}^{1},..., x_{n}^{1}\right \}$$$$X2=\left \{ x_{1...

2018-04-09 21:09:46 25350 9

机器学习笔记