2018年04月_zxfhahaha

原创 pycharm中debug 实时查看数据（交互式）

用pycharm进行debug① 直接在代码中设断点（点击代码的左边） ②右击点击debug 有几种debug方式，我们可以在pycharm的下方中的debugger进行选择 ①step over 单步运行即一行一行代码运行 ②step into ③ step into my code 跳到函数中运行交互式查看结果第一步：点击pycharm下方的console 第二步：点击sho

2018-04-29 23:00:12 17648 1

原创【Python与机器学习】用sklearn的pickle保存训练好的模型

如果我们用机器学习训练了一个非常满意的模型，那么如何保存呢？sklearn中为我们提供了pickle方法，可以把训练好的模型也就是那些参数保存起来。下次使用的时候直接使用pickle.load就可以把保存的模型加载进行进行使用啦 pickle.load

2018-04-29 22:44:57 2695

原创【Python与机器学习】sklearn提高速度

因为sklearn是不能像TensorFlow一样进行GPU计算的，那么为了提高速度，我们可以更改模型的n_jobs参数。 n_jobs参数为用几个核来跑，默认是1。当我们使n_jobs=-1时表示用电脑中的所有核来跑，比如你的电脑是8核的，则用8个核进行并行计算。

2018-04-29 22:23:15 12572 2

原创【Python与机器学习】5.K-Means聚类

聚类（clustering）什么是聚类聚类属于无监督学习（unsupervised learning），即无类别标记。是数据挖掘经典算法之一。算法接收参数k；然后将样本点划分为k个聚类；同一聚类中的样本相似度较高；不同聚类中的样本相似度较小也就是说它不能自动识别类的个数（因为k要提前指定），随机挑选初始点为中心点计算。算法描述聚类的算法思想就是以空间中k个样本点为中心进行聚类，对最靠近它

2018-04-29 21:47:39 1632

原创【计算机视觉】5.常用的图像特征描述

之前学过的机器学习都是对一些有标签的数据通过分类器进行学习，那么对带标签的图像如何进行学习呢？如果我们用一些特征来描述这些图片则也可以进行机器学习，因此我们来介绍几种常用的图像特征描述。（虽然现在有了CNN，CNN可以自己进行特征提取，但还是需要对OPenCV传统的特征提取方法有一些了解的）我们对特征的描述是根据最后的应用场景设计特征，如应用场景更关心颜色则用颜色特征，因此无普适性（但是CNN

2018-04-29 20:56:16 10464 1

原创【计算机视觉】4.图像滤波和边缘检测

滤波/卷积滤波/卷积概念在每个图片位置（x, y）上进行基于邻域的函数计算。邻域对x，y进行加减数后的结果，通俗来讲就是某一点周围的几个点滤波函数1.这里滤波函数相当于一个遮罩，是实现对邻域进行计算的方法，可以理解为通过滤波函数对图片某一位置邻域进行权重相加。 2.滤波函数又叫做卷积核、卷积模板；滤波器、滤波模板；扫描窗。其中卷积核是最常用的说法。3.不同...

2018-04-28 21:17:00 4665

原创【计算机视觉Python-OPenCV】3.颜色直方图

颜色直方图颜色直方图作用1.直方图是一种能快速描述图像整体像素值分布的统计信息。也就是说明某一像素值范围的像素点的个数，X轴为像素值，Y为个数。2.直方图只能描述颜色的分布，不能描述数据几何上的信息。也就是只知道这个像素值范围的点的个数是多少，但是不知道哪个位置上上这个点多。绘制颜色直方图由于图像数据是numpy的ndarray形式，因此可以用numpy的histogram得到直方图的信息，

2018-04-28 09:33:04 14682

原创【计算机视觉】2.Python OpenCV图像基本操作（图像IO，像素值访问，图像融合）

OpenCV图像IO读取图像 cv2.imread(‘图片路径’,’读取图片的方式’)读取图片方式：①读取灰度图像数据 cv2.IMREAD_GRAYSCALE eg:img_gray_data = cv2.imread('./images/messi.jpg', cv2.IMREAD_GRAYSCALE)要想获得图片的其他信息print('数据类...

2018-04-27 20:11:54 846

原创【计算机视觉 Python】1.图像数据基本概念

图像数据图像数据是多维数组，前两维表示了图像的高、宽第三维表示图像的通道个数，比如RGB，第三个维度为3，因为有三个通道；灰度图像没有第三个维度图像数据是由NumPy的多维数组（ndarray）表示的，因此对图像的分割和索引像操作ndarray一样操作即可色彩空间 RGB, HSV, Gray…图片可以有很多种表示方法，如RGB，HSV，Gray。这些的区别在于对颜色划分...

2018-04-27 18:53:29 5010

原创【Python与机器学习 5-4】集成学习 Ensemble learning

集成学习（Ensemble learning）通过构建并结合多个学习器来完成学习任务好的集成，个体学习器应“好而不同”：个体学习器要有一定的“准确性”，并且还要有“多样性”。集成学习分类集成学习可以分成同质集成和异质集成两大类。同质集成集成中包含同种类型的学习器->“基学习器”(base leaner)异质集成集成中包含不同类型的学习器->“组件学习器”(component leaner)集成策

2018-04-26 17:21:35 1477

原创【Python机器学习 5-3】模型评价指标及模型选择

评估模型不同的应用有着不同的目标，不同的评价指标模型评价指标准确率准确率越高，模型不一定越好准确率是常见的一种评估模型，但是准确率越高模型不一定越好。举个例子假设，在1000个样本中，有999个正样本，1个负样本（不均衡数据集）如果全部预测正样本，就可以得到准确率99.9%！这样的场景有：信用卡欺诈检测，离职员工检测等。有些任务更关心的是某个类的准确率，而非整体的准确率。比如预测病人是

2018-04-25 19:29:20 8511

原创【python与机器学习 5-2】参数调整——交叉验证和网格搜索

模型参数机器学习中有两种类型的模型参数，分为模型自身参数和超参数模型自身参数模型自身参数，通过样本学习得到的参数。如：逻辑回归及神经网络中的权重及偏置的学习等超参数超参数是模型框架的参数，通常由手工设定。如kmeans中的k，神经网络中的网络层数及每层的节点个数。调参调的都是k，c这样的超参数。调整参数我们知道进行机器学习最重要的就是调整参数得到好的学习模型，这里调整参数指的就是超参数

2018-04-25 17:35:53 8397

在机器学习之前，要对数据进行预处理，其中就包括特征工程。特征可以分为数值型特征，有序型特征和类别型特征，对不同的特征有不同的处理方法。数值型特征什么是数值型特征数值型特征包括长度、宽度、像素值等。处理数值型特征是可以直接使用的，那为什么还要进行处理？因为很多数值型的范围差距特别大，对某些模型来说我们就需要对数值范围进行标准化或归一化，这样可以提高模型的性能。如：线性回归，kNN，SVM，神经网络等

2018-04-24 00:21:40 842

转载【转】计算机类学术论文 28个常见出版社一般写法

最近发论文时出版社要求参考文献要标明出版商和出版地，但是Google学术里并不提供出版地，我查的时候发现了这篇文章，觉得非常好用。来源：https://blog.csdn.net/wuzqChom/article/details/78196847序号出版社一般写法出版地备注1AAAIMenlo Park, CA

2018-04-23 19:30:34 2094

原创【Python与机器学习 4-6】决策树（西瓜书第四章）

算法思想决策树模型就是通过特征点构造一个决策树（根据特征回答是和否的问题），把最重要的特征也就是对分类最明显的特征放在上面，构建一个树，预测类别时我们走完一遍树也就可以预测出类别了.通过决策树可以得到特征的重要性得分构建树的过程从根节点开始，计算所有特征值的信息增益（信息增益比），选择计算结果最大的特征作为根节点根据算出的特征建立子节点，执行第1步，直到所有特征的信息增益（信息增益比）很小或没有

2018-04-20 18:51:51 1122

原创【Python与机器学习 4-5】 SVM(support vector machines) 支撑向量机

算法思想找到一个可以分割两类类别的边界，这个边界其实有很多条，如何找到最优的边界呢？间隔分类器间隔：分类边界可以扩展到样本点的最大宽度。最大间隔分类器：在样本中能够达到最大间隔的线性分类器被称为线性SVM (Linear Support Vector Machine, LSVM)SVM 正则项C值越大，入越小，正则化越弱，容忍的错误越小-> narrow margin，即间隔更窄，也就是新来

2018-04-20 18:40:39 257

原创【Python与机器学习4-4】线性回归和逻辑回归

线性回归和逻辑回归线性模型线性模型：给定一个测试样本，通过加权求和该样本的特征值计算其结果并作为预测值。例如通过房子的两个特征每年的房产税(XTAX)和房屋年龄(XAGE)，预测房子的价格。则先通过这二维特征学出来一个式子，然后有新的房产税和房屋年龄数据时，把数据代进式子中得到的结果即预测的房屋价格线性回归线性回归问题学习也就是学出来模型的参数例子： ...

2018-04-20 11:23:16 1412 1

原创【Python与机器学习4-3】KNN(k-NearestNeighbor)，k-近邻算法

KNN算法算法思想，步骤计算出测试样本和所有训练样本的距离；为测试样本选择k个与其距离最小的训练样本；统计出k个训练样本中大多数样本所属的分类；这个分类就是待分类数据所属的分类需要明确的问题相似性度量，计算距离有很多种方法，常用的有欧氏距离等紧邻点个数，通过交叉验证得到最优紧邻点个数kNN优缺点优点•算法简单直观，易于实现 •不需要额外的数据，只依靠数据（样本）本身缺点•计算量

2018-04-20 11:05:26 162

原创【Python机器学习4-2】 Python机器学习库scikit-learn

scikit-learn是面向Python的免费机器学习库由于机器学习算法很多，没有时间研究哪个好，可以用Python机器学习库scikit-learn中的算法先跑一下看哪个好，然后再研究他为啥好scikit-learn中包含什么包含分类、回归、聚类算法，比如：SVM、随机森林、k-means等包含降维、模型筛选、预处理等算法支持NumPy和SciPy数据结构scikit-learn安装

2018-04-20 10:43:37 551

原创【Python与机器学习 4-1】机器学习基本概念和流程

机器学习基本概念机器学习可以通过有无标签划分为监督学习和非监督学习最后要预测什么什么就是标签监督学习：学习的是带有标记的数据非监督学习：学习的是未被标记的数据机器学习问题的表示1.根据n个独立同分布观测样本确定预测函数独立同分布是机器学习的前提，同分布是指数据的分布是相同的，独立是指数据之间相互不影响。但是实际的数据中有很多不符合独立同分布，比如视频。 2.在一...

2018-04-13 11:03:10 423

原创【Python与机器学习3-4】Seaborn绘图

seaborn的特点在Matplotlib上构建，支持numpy和pandas的数据结构可视化，甚至是scipy 和statsmodels的统计模型可视化 •多个内置主题及颜色主题 •可视化单一变量、二维变量用于比较数据集中各变量的分布情况 •可视化线性回归模型中的独立变量及不独立变量 •可视化矩阵数据，通过聚类算法探究矩阵间的结构 •可视化时间序列数据及不确定性的展示 •可在分割区域制

2018-04-12 10:34:13 1174

原创【Python与机器学习 3-3】pandas绘图

pandas可以根据dataframe的信息直接进行可视化可用的绘图样式plt.style.available #查看可用的绘图样式plt.style.use('seaborn-colorblind') #设置绘图样式dataframe绘图 df.plot(kind=) kind用于指定绘图的类型数据np.random.seed(100)df = pd.DataFrame({'A'

2018-04-12 09:18:24 621

原创【Python与机器学习3-2】matplotlib数据分析常用图表的绘制

子图 plt.subplots()在一张图里显示多个子图 plt.subplots(几行，几列，第几幅图)保证子图中坐标范围一致使某个figure中的所有子图共享一个坐标轴的方法:加sharey前一个坐标轴 ax1=plt.subplots(1,2,1) ax2=plt.subplots(1,2,2,sharey=ax1)绘制多个图fig, ((ax1, ax2, ax3), (a

2018-04-11 17:29:16 507

原创【Python与机器学习 3-5】绘制可交互式图表

d3.jsD3（Data-Driven Documents），被数据驱动的文档。是一个用动态图形显示数据的JavaScript库，一个数据可视化的工具。d3的python 接口为mpld3将Matplotlib和D3js结合起来的基于Python的可视化工具。安装 pip install mpld3实现可交互插件 from mpld3 import plugi...

2018-04-11 16:21:52 4366 1

原创【Python与机器学习 3】数据可视化-Matplotlib基本图表的绘制及应用场景

基本图表的绘制及应用场景Matplotlib目的是为Python构建一个Matlab式的绘图接口Matplotlib如何显示中文pyplotpyplot模块包含了常用的matplotlib API函数 import matplotlib.pyplot as pltplt.plot() 绘制单个点plt.figure()plt.plot(1.5, 1.5,...

2018-04-11 00:01:20 1260

原创【Python与机器学习2-4】 pandas与透视表

pandas中透视表的使用 df.pivot_table(values, index, columns, aggfunc, margins)•values: 透视表中的元素值（根据聚合函数得出的） •index：透视表的行索引 •columns：透视表的列索引 •aggfunc：聚合函数，可以指定多个函数 •margins：表示是否对所有数据进行统计举一个例子...

2018-04-08 11:12:25 414

原创【Python与机器学习2-3】pandas包数据合并分组

合并pd.concat数据的列名完全一样只是数据不一样如df1,df2,df3分别为3个季度的数据，则先把它们放到列表里用pd.concat就会合并成一个数据pd.concat([df1,df2,df3])pd.concat对应于numpy的np.concatnate 列数相同时，竖直方向合并 axis=0 行数相同时，水平方向合并 axis=1pd.mer...

2018-04-08 10:59:24 584

原创【Python与机器学习2-2】pandas与数据清洗

处理缺失数据判断数据缺失 isnulllog_data = pd.read_csv('log.csv') #读取数据log_data.isnull() #判断数据缺失，结果为缺失的地方为TRUElog_data['paused'].isnull() #判断某一列判断数据缺失后，就可以通过布尔过滤过滤出来不为空的数据log_data[log_data['volume'...

2018-04-07 21:33:49 965

原创【Python与机器学习2-1】pandas 基本数据对象及操作

series 相当于一维数组要有向量化操作思想 - series是类似一维数组的对象，即一个列向量 - 初始化series ①通过列表初始化series,默认数字为索引ser_obj=pandas.Series(list) ②通过字典初始化series，字典的key为索引country_dicts = {'CH': '中国', ...

2018-04-06 23:38:49 551

flora