自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 收藏
  • 关注

原创 Numpy基础之大作业

本次练习使用 鸢尾属植物数据集,在这个数据集中,包括了三类不同的鸢尾属植物:Iris Setosa,Iris Versicolour,Iris Virginica。每类收集了50个样本,因此这个数据集一共包含了150个样本。1. 导入鸢尾属植物数据集,保持文本不变。import numpy as npoutfile = r'.\iris.data'iris_data = np.loadtxt(outfile, dtype=object, delimiter=',', skiprows=1)prin

2020-12-01 18:05:30 7

原创 Numpy基础之线性代数

线性代数Numpy 定义了 matrix 类型,使用该 matrix 类型创建的是矩阵对象,它们的加减乘除运算缺省采用矩阵方式计算,因此用法和Matlab十分类似。但是由于 NumPy 中同时存在 ndarray 和 matrix 对象,因此用户很容易将两者弄混。这有违 Python 的“显式优于隐式”的原则,因此官方并不推荐在程序中使用 matrix。在这里,我们仍然用 ndarray 来介绍。矩阵和向量积矩阵的定义、矩阵的加法、矩阵的数乘、矩阵的转置与二维数组完全一致,不再进行说明,但矩阵的乘法有

2020-11-30 12:59:51

原创 Numpy基础之统计相关

次序统计1. 计算最小值: numpy.amin() 返回一个数组的最小值或者沿某一个轴的最小值import numpy as npx = np.array([[11, 12, 13, 14, 15], [16, 17, 18, 19, 20], [21, 22, 23, 24, 25], [26, 27, 28, 29, 30], [31, 32, 33, 34, 35]])y = np.amin(x)print(y) # 11 输出的是这个二维数组的最小

2020-11-27 19:23:02 19

原创 Numpy基础之随机抽样

1. 随机抽样numpy.random 模块对 Python 内置的 random 进行了补充,增加了一些用于高效生成多种概率分布的样本值的函数,如正态分布、泊松分布等。numpy.random.seed()seed()用于指定随机数生成时所用算法开始的整数值,如果使用相同的seed()值,则每次生成的随机数都相同,如果不设置这个值,则系统根据时间来自己选择这个值,此时每次生成的随机数因时间差异而不同。2. 离散型随机变量二项分布numpy.random.binomial(n, p, size=

2020-11-25 20:29:10 25

原创 Numpy基础之文件输入与输出

1. 二进制文件save()、savez()和load()函数以 numpy 专用的二进制类型(npy、npz)保存和读取数据。npy格式:以二进制的方式存储文件,在二进制文件第一行以文本形式保存了数据的元信息(ndim,dtype,shape等),可以用二进制工具查看内容。npz格式:以压缩打包的方式存储文件,可以用压缩软件解压。import numpy as npoutfile = r'.\test.npy'np.random.seed(20200619)x = np.random.un

2020-11-23 21:26:09 9

原创 Numpy基础之排序,搜索和计数

排序numpy.sort()例1:import numpy as npnp.random.seed(20200612)x = np.random.rand(5, 5) * 10x = np.around(x, 2)print(x)y = np.sort(x)print(y)输出:按行排序[[2.32 7.54 9.78 1.73 6.22] [6.93 5.17 9.28 9.76 8.25] [0.01 4.23 0.19 1.73 9.27] [7.99 4.97 0.88

2020-10-31 18:47:04 41

原创 Numpy之数学函数及逻辑函数

向量化和广播向量化和广播是numpy内部实现的基础。广播机制描述了numpy如何在算术运算期间处理具有不同形状的数组,使得较小的数组在较大数组上“广播”,以便它们具有兼容的形状。广播机制也是需要满足一定的条件才可以发挥作用:(1) 两个数组的维度不匹配,小维度数组的形状将会在左边补1。(2) 两个数组的维度不匹配,但是有维度是1,那么可以扩展维度为1对应的维度匹配另一个数组。(3) 两个数组的维度不匹配,但是没有任何一个维度是1,则匹配引发错误。例1:二维数组加一维数组import numpy

2020-10-28 13:07:52 21

原创 Numpy之三——数组变形

更改形状对数组进行操作时,为满足格式和计算的要求通常会改变其形状。(1) numpy.ndarray.shape 查看数组的维度,返回一个元组表示数组的形状,元组的长度就是维度数,即数组的秩。通过修改shape的值也可以改变数组的形状。import numpy as npx = np.array([1, 2, 3, 4, 5, 6, 7, 8])print(x.shape)x.shape = [2, 4]print(x)输出:(8,)[[1 2 3 4] [5 6 7 8]].

2020-10-25 21:09:58 31

原创 Numpy之二——切片和索引、副本和视图

切片和索引数组的索引机制指的是用方括号[] 加序号的形式引用单个数组元素,可以应用于抽取元素、选取数组的几个元素和赋值。整数索引获取数组的单个元素,直接指定元素的索引。import numpy as npx = np.array([1, 2, 3, 4, 5, 6, 7, 8])print(x[2])#输出第三个元素x = np.array([[11, 12, 13, 14, 15], [16, 17, 18, 19, 20], [

2020-10-23 10:28:03 30

原创 Numpy基础之一——数据类型及数组

Numpy简介Numpy (Numerical Python) 是Python语言的一个扩展程序库,支持大维度的数组与矩阵运算,此外针对数组元素提供有大量的数学函数库。Numpy中的几个常量空值:numpy.nan空值的三种写法: nan、 NaN、 NAN注意两个空值是不相等的import numpy as npprint(np.nan == np.nan)print(np.nan != np.nan)输出FalseTrue统计一个数组中空值个数import numpy

2020-10-20 19:08:33 12

原创 Numpy教程01_03时间日期和时间增量

datetime64基础Numpy中可以方便的将字符串转化成日期类型datetime64(python中有一个日期时间库datetime),datetime64是带单位的时间类型,单位如表:日期单位代码含义时间单位代码含义Y年h小时M月m分钟W周s秒D天ms毫秒利用字符串创建datetime64类型,默认情况下,numpy 会根据字符串自动选择对应的单位。import numpy as npa = np.datetime6

2020-10-20 16:14:17 51

原创 Numpy教程01_04数组

数组的创建利用现有的数据来创建ndarray(1)利用array()函数进行创建例:分别创建一维、二维和三维数组import numpy as np# 创建一维数组a = np.array([0, 1, 2, 3, 4])b = np.array((0, 1, 2, 3, 4))print(a, type(a))print(b, type(b))# 创建二维数组c = np.array([[11, 12, 13, 14, 15], [16, 17,

2020-10-20 16:12:38 10

原创 Numpy教程01_02数据类型

常见数据类型Numpy支持的数据类型比Python内置的数据类型多很多,下表是Numpy的数据类型,其中为了和Python内置的数据类型做区分,bool、int、float、complex后面加了 “_” 。类型长度名称bool_8布尔类型int88整型int1616整型int3232整型int_64整型unit88无符号整型unit1616无符号整型unti32323无符号整型unit6464无符

2020-10-20 11:45:51 9

原创 Numpy教程01_01常量

Numpy中的常量空值:np.nan(注意两个空值是不相等的)import numpy as npprint(np.nan == np.nan)#Falseprint(np.nan != np.nan)#True无穷大:np.inf (两个无穷大的值是相等的)print(np.inf == np.inf) #True圆周率np.pi自然常数np.e...

2020-10-20 10:19:35 22

原创 Task3 特征工程

数据预处理:a. 缺失值的填充b. 时间格式处理c. 对象类型特征转换到数值异常值处理:a. 基于3segama原则b. 基于箱型图数据分箱a. 固定宽度分箱b. 分位数分箱离散数值型数据分箱连续数值型数据分箱特征交互a. 特征和特征之间组合b. 特征和特征之间衍生特征编码a. one-hot编码b. label-encode编码特征选择a. 1 Filterb. 2 Wrapper (RFE)c. 3 Embedded...

2020-09-21 22:39:49 17

原创 贷款违约预测挑战赛——数据分析

目的:1.EDA价值主要在于熟悉了解整个数据集的基本情况(缺失值,异常值),对数据集进行验证是否可以进行接下来的机器学习或者深度学习建模.2.了解变量间的相互关系、变量与预测值之间的存在关系。3.为特征工程做准备导入数据分析及可视化过程需要的库:import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as snsimport datetimeimport warningswar

2020-09-18 17:38:49 39

原创 贷款违约预测挑战赛——赛题理解

贷款违约预测挑战赛——赛题理解1.赛题理解:赛题以金融风控中个人信贷为背景,根据贷款申请人的数据信息预测其是否有违约的可能,从而判断是否发放给此人贷款。这是一个典型的数据分类问题。2.数据理解:数据总量超过120W,包括47列变量信息,15列信息是匿名的。其中训练集有80W条,测试集A有20W条,测试集B有20W条。对于赛题数据每一列名的含义,官网已经给出。在jupyter中读入数据import pandas as pdtrain = pd.read_csv('train.csv')testA

2020-09-14 20:30:33 43

原创 在终端可以import cv2 ,但在jupyter中无法import cv2(windows)

jupyter中import cv2 报错,但是在annconda中对应的环境中 import cv2 不报错。查看了两者python的路径也是相同的。解决办法:在anaconda对应的虚拟环境中安装opencv-python即:pip install opencv-python

2020-08-18 22:03:59 83

空空如也

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除