机器学习
我是天才很好
深度学习算法工程师
github: https://github.com/wstchhwp
个人邮箱:1103540209@qq.com
展开
-
Matplotlib系列_绘图注意事项
文章目录1. 图像在Retina屏幕中显示模糊2. 图像美感问题3. 中文显示乱码4. 全部载入上述设置时,注意载入顺序5. Jupyter notebook图像输出的三种方式一、内联模式:网页直接显示图像二、GUI模式:弹出GUI软件界面显示图像三、内联GUI显示:在网页内显示GUI版图像,结合前两种的好处6. pylab,自动载入numpy和Matplotlibimport matplotlib.pyplot as pltplt.plot([2,3,8,1,5,9])# plt.show()原创 2020-07-14 08:44:00 · 1381 阅读 · 0 评论 -
numpy中的ndarray与pandas的Series和DataFrame之间的相互转换
文章目录简介1. ndarray数组对象2. Series对象3. DataFrame对象简介在数据分析中,经常涉及numpy中的ndarray对象与pandas的Series和DataFrame对象之间的转换,让大家产生困惑。本文将简单介绍这三种数据类型,并以股票信息为例,给出相关对象之间转换的具体示例。1. ndarray数组对象NumPy中的ndarray是一个多维数组对象,该对象由...转载 2020-03-29 11:03:55 · 3685 阅读 · 0 评论 -
数据分析__探索性统计分析2
文章目录1. 参数估计直方图、核密度曲线图Q-Q图箱线图置信度区间估计2. 假设检验与单样本T检验3. 两样本T检验第一步:方差齐次检验第二步:T-test4. 方差分析- 单因素方差分析- 多因素方差分析5. 相关分析6. 卡方检验总结两变量关系检验方法综述参数估计假设检验流程关于p值和样本量的一系列问题的说明1. 参数估计进行描述性统计分析# - 数据说明:本数据是地区房价增长率数据#...原创 2020-04-16 11:13:58 · 1180 阅读 · 0 评论 -
数据分析__探索性统计分析1
说明:本文为博主原创文章,未经博主允许不得转载。如果代码有不懂的,欢迎与我探讨!邮箱:1103540209@qq.comgithub地址:https://github.com/wstchhwp文章目录1. 参数估计2. 假设检验与单样本T检验3. 两样本T检验4. 方差分析5. 相关分析6. 卡方检验1. 参数估计2. 假设检验与单样本T检验3...原创 2020-04-16 09:33:12 · 672 阅读 · 0 评论 -
数据分析__描述性统计分析
说明:本文为博主原创文章,未经博主允许不得转载。如果代码有不懂的,欢迎与我探讨!邮箱:1103540209@qq.comgithub地址:https://github.com/wstchhwp描述性统计分析1.单因子频数:描述名义变量的分布-----条形图、饼状图2.单变量描述:描述连续变量的分布-----直方图3.两个分类变量+频数(统计样本数用的):表分析(先行后列)------...原创 2019-09-09 16:39:12 · 1084 阅读 · 0 评论 -
数据分析概述
文章目录一、什么是数据分析(Data Analysis)二、数据分析行业发展三、数据分析师(Data Analyst)四、数据分析流程参考:一、什么是数据分析(Data Analysis) 数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。这一过程也是质量管理体系的支持过程。在实用中,数据分析可帮助人们作出判断,以便采取适...原创 2019-10-06 23:15:06 · 1879 阅读 · 1 评论 -
数据预处理2_特征预处理
文章目录0. 特征预处理介绍1. 数值型特征无量纲化1.1 标准化(Standardization)1.2 归一化1.2.1 MinMax归一化1.2.2 MaxAbs归一化1.3 正态分布化(Normalization)1.4 标准化与归一化对比2. 数值型特征特征分箱(数据离散化)2.1 无监督分箱法2.1.1 自定义分箱2.1.2 等距分箱2.1.3 等频分箱2.1.4 聚类分箱2.1.5 ...转载 2019-11-21 14:16:13 · 2179 阅读 · 1 评论 -
数据预处理1_数据清洗
文章目录1.前言2.数据清洗介绍2.1 格式内容清洗2.1.1 格式内容问题产生的原因2.2.2 时间、日期格式不一致清洗2.1.3 数值格式不一致清洗2.1.4 全/半角等显示格式不一致清洗2.1.5 内容中有不该存在的字符清洗2.1.6 内容与该字段应有内容不符清洗2.1.7 数据类型不符清洗2.2 逻辑错误清洗2.2.1 **数据重复清洗**2.2.2 不合理值清洗2.2.3 ...转载 2019-11-21 09:25:20 · 3304 阅读 · 0 评论 -
特征构造系列4:GBDT特征构造以及聚类特征构造
文章目录1.GBDT特征构造1.1 原理1.2 关键点1.3 实现代码1.4 方案改进1.5 优缺点2.聚类特征构造2.1 聚类算法介绍2.2 聚类算法构造特征流程2.3 程序实现3.总结4.参考文献本文将介绍如何使用GBDT进行特征构造以及使用聚类进行特征构造。1.GBDT特征构造1.1 原理GBDT是一种常用的非线性模型,基于集成学习中boosting的思想,由于GBDT本身可以发现多...转载 2019-11-20 22:17:49 · 851 阅读 · 0 评论 -
特征构造系列3:笛卡尔乘积特征构造以及遗传编程特征构造
文章目录1.笛卡尔乘积特征构造1.1 原理1.2 类别特征进行笛卡尔乘积特征组合1.3 连续值特征进行笛卡尔乘积特征组合2.遗传编程特征构造2.1 原理2.2 gplearn2.3 遗传编程的用法总结参考文献本文介绍笛卡尔乘积特征构造以及遗传编程特征构造1.笛卡尔乘积特征构造1.1 原理1)数学原理笛卡尔乘积是指在数学中,两个集合X和Y的笛卡尓积( Cartesian product),...转载 2019-11-20 22:15:49 · 1299 阅读 · 0 评论 -
特征构造系列2:聚合特征构造以及转换特征构造
文章目录1.聚合特征构造1.1 分组统计特征1.2 统计频数构造特征1.3 分组统计和基础特征工程方法结合2.简单转换特征构造2.1 单列特征加/减/乘/除一个常数2.2 单列特征单调变换2.3 线性组合(linear combination)2.4 多项式特征(polynomial feature)2.5 比例特征(ratio feature)2.6 绝对值特征(absolute value)2...转载 2019-11-20 22:03:29 · 4843 阅读 · 0 评论 -
特征构造系列1:概览篇
文章目录1.前言2.特征构造介绍2.1 转换2.2 聚合3.特征构造具体方法4.总结参考文献1.前言数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。由此可见,特征工程在机器学习中占有相当重要的地位。在实际应用当中,可以说特征工程是机器学习成功的关键。那特征工程是什么?特征工程是利用数据领域的相关知识来创建能够使机器学习算法达到最佳性能的特征的过程。特征工程又包含了Da...转载 2019-11-20 21:59:24 · 931 阅读 · 0 评论 -
特征构造
导读:数据科学从业者们更倾向于选择用著名的算法来解决给定的问题,但仅仅靠算法并不能提供一个最优的解决方案,通过精心设计和选择的特征所建造的模型能够提供更好的结果。此篇作者总结了很多常见且有效的特征转化的方法,有些方法附有简单说明。具体的应用方法可以在网络上搜索公开信息。“任何一个有智力的笨蛋都可以把事情搞得更大,更复杂,也更激烈。往相反的方向前进则需要一点天分,以及很大的勇气。” –阿...转载 2019-11-07 21:55:23 · 351 阅读 · 1 评论 -
特征选择2
文章目录1. 特征选择介绍1.1 特征按重要性分类1.2 特征选择的目的1.3 特征选择的原则2.特征选择的方法2.1 Filter方法(过滤式)2.2 Wrapper方法(封装式)2.3 Embedded方法(嵌入式)3.特征选择实现方法一:去掉取值变化小的特征(Removing features with low variance)3.1 实现原理3.2 实现代码4.特征选择实现方法二:单变量...转载 2019-11-21 15:10:13 · 1025 阅读 · 0 评论 -
特征选择1
文章目录1.什么是特征选择2.为什么要做特征选择3.特征选择的基本原则4.特征选择常用的四种方法4.1 方差选择法4.2 相关系数法4.3 递归特征消除法4.4 模型选择法参考:1.什么是特征选择特征工程(Feature Selection),也叫做特征子集选择(Feature Subset Selection, FSS), 或者叫做属性选择(Attribute Selection)。是指从全...转载 2019-11-05 14:11:55 · 1617 阅读 · 0 评论 -
特征工程
在商业数据的分析挖掘当中,最常用的数据是结构化数据,其呈现为二维表的结构,数据可以用装载到二维数组当中,其中的每个数可以使用行与列进行索引。结构化数据中的每一行称为记录,也可称为样本或实例(视不同的学科而定),每一列则被称为字段,也可称为变量或特征(同样视学科领域而定),其中“特征(Feature)”这一叫法在机器学习及模式识别当中被广泛使用,在应用当中只要不引起歧义,可以不区分它们的叫法。...原创 2019-10-16 22:19:24 · 6558 阅读 · 0 评论 -
Pandas分组聚合操作
Pandas的groupby()功能很强大,用好了可以方便的解决很多问题,在数据处理以及日常工作中经常能施展拳脚。使用Pandas实现分组聚合需要分两步走。第一步是指定分组变量,可以通过数据框的groupy()完成;第二步是对不同的数值变量计算各自的统计值。1. groupby的基础操作import pandas as pdimport numpy as npdf = pd.Da...原创 2019-11-20 18:48:52 · 1511 阅读 · 0 评论 -
Pandas数据拼接操作merge、join、concat、append
文章目录1.concat方法1.1 测试参数axis、join和ignore_index1.2 测试axes参数:自定义轴2.merge方法2.1 merge方法的两种写法例子1:merge方法的两种写法例子2:测试merge的不同连接方向:outer、left(df1和df2的值与例1相同)例子3:当两表中选中的列名不同时,使用left_on和right_on代替参数on2.2 测试valida...原创 2019-10-18 20:57:58 · 858 阅读 · 0 评论 -
Matplotlib系列_pyplot的中文显示
方法一:在有中文输出的地方,增加一个属性:fontproperties (建议使用)import matplotlib.pyplot as pltimport numpy as npa = np.arange(0.0,5.0,0.02)plt.xlabel('横轴:时间',fontproperties = 'SimHei',fontsize = 20)plt.ylabel('纵轴:振幅...原创 2019-10-18 14:47:58 · 1085 阅读 · 0 评论 -
对类别Category进行编码(转化为数值)
1.sklearn.DictVectorizer (特征向量化)sklearn.feature_extraction中的DictVectorizer,将类别标签转化为one_hot编码# 学习目标:使用DictVectorizer对使用字典存储的数据进行特征抽取和向量化# 定义一组字典列表,用来表示多个数据样本(每个字典代表一个数据样本)measurements = [{'city':'...原创 2019-10-18 10:20:50 · 3261 阅读 · 0 评论 -
python数据预处理_sklearn.preprocessing.Imputer
class sklearn.preprocessing.Imputer(missing_values=’NaN’, strategy=’mean’, axis=0, verbose=0, copy=True)主要参数说明:1.missing_values: integer or “NaN”, optional (default=”NaN”) 缺失值,可以为整数或NaN(缺失值nump...原创 2019-10-18 10:17:43 · 2119 阅读 · 0 评论 -
Anaconda 国内镜像源 添加与删除
文章目录1.国内镜像源2.显示所有channel3.移除channel4.添加可用的channel4.1 pip安装4.2`conda`安装参考:当我们在国内时,pip或conda默认源的速度可能很慢,导致下载失败,于是整理了一些国内镜像源。1.国内镜像源阿里云 http://mirrors.aliyun.com/pypi/simple/中国科技大学 http...原创 2019-10-17 21:57:31 · 5359 阅读 · 1 评论 -
Matplotlib
说明:本文为博主原创文章,未经博主允许不得转载。如果代码有不懂的,欢迎与我探讨!邮箱:1103540209@qq.comgithub地址:https://github.com/wstchhwp文章目录1. Matplotlib 基本概念2. Matplotlib三层结构容器层辅助显示层图像层总结3.plt的基本用法3.1 Figure对象3.2 plot的使用3.3 如何在同一个figur...原创 2019-09-17 08:37:13 · 1020 阅读 · 3 评论 -
使用sklearn进行交叉验证
文章目录模型评估方法1.留出法:2.交叉验证:2.1 运用交叉验证进行数据集划分KFold方法 k折交叉验证RepeatedKFold p次k折交叉验证LeaveOneOut 留一法LeavePOut 留P法ShuffleSplit 随机分配其它特殊情况的数据划分方法2.2 运用交叉验证进行模型评估cross_value_scorecross_validate...原创 2019-09-10 15:28:33 · 1535 阅读 · 0 评论 -
DataFrame数据筛选loc,iloc,ix,at,iat
文章目录条件筛选单条件筛选多条件筛选排除特定行索引筛选切片操作loc函数ilocix函数at函数iat函数众所周知pandas的DataFrame数据结构提供了功能强大的数据操作功能,例如运算,筛选,统计等。今天我们就来谈一谈其强大的数据筛选功能,主要包括两大类,按照条件筛选和按照索引筛选。可以对行进行筛选,也可以按照列进行筛选。import numpy as npimport panda...转载 2019-09-03 22:48:00 · 2874 阅读 · 0 评论 -
pandas中Category的应用
文章目录对 Categorical 数据的一个直观认识隐式创建 Categorical 数据显式创建 Categorical 数据Categoricals 是 pandas 的一种数据类型,对应着被统计的变量。Categoricals 是由固定的且有限数量的变量组成的。比如:性别、社会阶层、血型、国籍、观察时段、赞美程度等等。与其它被统计的变量相比,categorical 类型的数据可以具有特...转载 2019-09-03 22:43:02 · 5028 阅读 · 0 评论 -
numpy.loadtxt() 用法
numpy.loadtxt 用法 读取txt文件numpy.loadtxt(fname, dtype=, comments=’#’, delimiter=None, converters=None, skiprows=0, usecols=None, unpack=False, ndmin=0)上面给出了loadtxt所有的关键字参数, 这里我们可以来一一解释并给出示例import nump...原创 2019-05-06 14:38:00 · 107408 阅读 · 12 评论 -
Numpy模块中重要的函数
文章目录1.将矩阵转换为列表的函数:numpy.matrix.tolist()返回list列表2.将数组转换为列表的函数:numpy.ndarray.tolist()Notes:(数组能够被重新构造)The array may be recreated, a=np.array(a.tolist()).3.numpy.mean() 计算矩阵或数组的均值4.numpy.std()计算矩阵或数组的标准差...原创 2019-05-06 14:33:14 · 513 阅读 · 0 评论 -
Numpy模块学习
文章目录一、Numpy:数组计算二、Numpy:ndarray-多维数组对象三、Numpy:ndarray-数据类型四、Numpy:ndarray-创建五、Numpy:索引和切片六、Numpy:布尔型索引七、Numpy:花式索引八、Numpy:通用函数九、补充知识:浮点数特殊值十、Numpy:数学和统计方法十一、Numpy:随机数生成一、Numpy:数组计算1、NumPy是高性能科学计算和数据...原创 2019-05-06 14:20:31 · 972 阅读 · 1 评论 -
python数据可视化[5] matplotlib(折线图)
说明:本程序参考刘顺祥老师的<从零开始学Python数据分析与挖掘>一书如果代码有不懂的,欢迎与我探讨!邮箱:1103540209@qq.comgithub地址:https://github.com/wstchhwp折线图折线图一般是用来表示某个数值变量随着时间的推移而形成的趋势,这种图还是比较常见的,如经济走势图、销售波动图、PV监控图等。在Python的matplotli...原创 2019-04-25 11:14:36 · 10046 阅读 · 0 评论 -
python数据可视化[4] matplotlib(直方图)
说明:本程序参考刘顺祥老师的<从零开始学Python数据分析与挖掘>一书如果代码有不懂的,欢迎与我探讨!邮箱:1103540209@qq.comgithub地址:https://github.com/wstchhwp直方图我们可以使用直方图来展现数据的分布,同过图形的长相,就可以快速的判断数据是否近似服从正态分布。之所以我们很关心数据的分布,是因为在统计学中,很多假设条件都会...原创 2019-04-25 11:11:44 · 13607 阅读 · 0 评论 -
Python数据可视化
说明:本程序参考刘顺祥老师的<从零开始学Python数据分析与挖掘>一书如果代码有不懂的,欢迎与我探讨!邮箱:1103540209@qq.comgithub地址:https://github.com/wstchhwp1.离散型变量的可视化饼图条形图2 .数值型变量的可视化直方图与核密度曲线箱线图小提琴图折线图3.关系型数据的可视化散点图气泡图热力...原创 2019-04-23 11:28:06 · 1056 阅读 · 1 评论 -
python数据可视化[3] matplotlib(箱线图)
说明:本程序参考刘顺祥老师的<从零开始学Python数据分析与挖掘>一书如果代码有不懂的,欢迎与我探讨!邮箱:1103540209@qq.comgithub地址:https://github.com/wstchhwp箱线图针对离散变量我们可以使用常见的条形图和饼图完成数据的可视化工作,那么,针对数值型变量,我们也有很多可视化的方法,例如箱线图、直方图、折线图、面积图、散点图等...原创 2019-04-23 11:09:45 · 5905 阅读 · 0 评论 -
python数据可视化[2] matplotlib(饼图)
说明:本程序参考刘顺祥老师的<从零开始学Python数据分析与挖掘>一书如果代码有不懂的,欢迎与我探讨!邮箱:1103540209@qq.comgithub地址:https://github.com/wstchhwp饼图饼图的绘制可以使用matplotlib库中的pie函数,首先我们来看看这个函数的参数说明。pie函数参数解读plt.pie(x, explode=None...原创 2019-04-23 10:30:19 · 1153 阅读 · 0 评论 -
python数据可视化[1] matplotlib(条形图)
说明:本程序参考刘顺祥老师的<从零开始学Python数据分析与挖掘>如果代码有不懂的,欢迎与我探讨!邮箱:1103540209@qq.comgithub地址:https://github.com/wstchhwp一.简单垂直条形图案例一:直辖市GDP水平中国的四个直辖市分别为北京市、上海市、天津市和重庆市,其2017年上半年的GDP分别为12406.8亿、13908.57亿...原创 2019-04-22 15:38:18 · 4567 阅读 · 1 评论 -
机器学习绪论
参考书籍与视频原创 2020-04-27 15:44:33 · 312 阅读 · 0 评论 -
凸函数的定义、性质以及判别
凸函数有很好的极值性质,这使其在非线性规划中占有重要的地位。凹函数与凸函数相似,凸函数具有全局极小值,凹函数具有全局极大值。 因为两者很方便进行转换,我们以凸函数为例作介绍。1. 凸函数的定义要定义凸函数,首先必须要对凸集有所了解。凸集:给定集合以及其中的任意两个元素 x(1)x^{(1)}x(1)和x(2)x^{(2)}x(2),即 x(1)∈Sx^{(1)}\in Sx(1)∈S且 ...转载 2020-04-27 09:34:26 · 17639 阅读 · 0 评论 -
凸函数
凸函数图像:由函数图像更加清晰地辨别凸函数的形状,然后对定义的认识才能更加的清晰。凸函数定义:x1,x2x_1,x_2x1,x2 为函数f(x)定义域内的任意两个实数,且x1<t<x2x_1<t<x_2x1<t<x2,恒有f(x1+x22)≤f(x1)+f(x2)2f(\frac {x_1+x_2}2)\leq \frac {f(x_1)+f(x...原创 2020-04-27 08:42:38 · 12846 阅读 · 0 评论 -
机器学习哪些算法需要归一化?
机器学习中需要归一化的算法有SVM, 逻辑回归,神经网络,KNN, 线性回归,而树形结构的不需要归一化,因为它们不关心变量的值,而是关心变量分布和变量之间的条件概率,如决策树,随机森林,对于树形结构,树模型的构造是通过寻找最优分裂点构成的,样本点的数值缩放不影响分裂点的位置,对树模型的结构不造成影响,而且树模型不能进行梯度下降,因为树模型是阶跃的,阶跃是不可导的,并且求导没意义,也不需要归一化。...转载 2020-04-25 16:08:57 · 3213 阅读 · 0 评论 -
支持向量机SVM
文章目录1. 支持向量学习机1.1 直观例子1.2 用数学理解直观1.3 从几何直观到最优化问题1.4 损失项1.5 损失函数与惩罚项1.6 Hard margin与soft margin比较1.7 支持向量学习机与逻辑回归: 隐藏的假设2. 核函数2.1 空间变换:从非线性到线性2.2 拉格朗日对偶2.3 支持向量2.4 核函数的定义:优化运算2.5 常用的核函数2.6 Scale varian...原创 2020-04-20 10:16:02 · 558 阅读 · 0 评论