- 博客(11)
- 收藏
- 关注
原创 python数据分析 Lending Club贷款数据
一.sample() 随机抽样函数loan.sample(n=3,axis=1,random_state=1,replace=True)#n=3 随即查看3列(默认为行)#axis=1可实现列采样#random_state有时,我们希望重复调用某次采样的结果,我们可以设定random_state参数为同一个数来实现。#replace=True又放回抽样(默认为不放回)loan.sample(frac=0.01)#抽取样本中的0.01%二.选取指定数据test_user = user.lo
2021-03-29 09:45:30 682
原创 python--numpy.random
numpy.random生成(0,1)均匀分布随机数np.random.rand(2,3)#array([[0.23159584, 0.1895618 , 0.87409391],# [0.40875295, 0.63464579, 0.83562079]])给定范围取随机数np.random.randint(0,10,size=5)产生二项分布随机数np.random.binomial(10,0.5,size=5)正态分布随机数np.random.normal(0,0
2021-03-14 17:33:28 111
原创 python--ufunc函数--numpy计算
NumPy"通用函数"(Universal Function ,ufunc)·元素级函数∶对数组中的每个元素进行运算·数组级函数∶统计函数,像聚合类的函数,求和,求平均等计算绝对值 absimport numpy as nparr = np.array([5,2,0,-1,-3,-1,-4])np.abs(arr)#array([5, 2, 0, 1, 3, 1, 4])计算各元素平方np.square(arr)#array([25, 4, 0, 1, 9, 1, 16],
2021-03-14 17:03:43 228
原创 Python--数组(ndarray)
创建import numpy as npv=np.arange(10)print(v)print(v.dtype) #类型int32print(v.shape) #(10,)v2=np.arange(0,10,0.5) #以0.5为间隔v2#array([0. , 0.5, 1. , 1.5, 2. , 2.5, 3. , 3.5, 4. , 4.5, 5. , 5.5, 6. , 6.5, 7. , 7.5, 8. , 8.5, 9. , 9.5])v2*10#运算array([ 0
2021-03-13 16:31:12 158
原创 对该数据集的字段请对该数据集的字段absence进行二值化处理
请对该数据集的字段absence进行二值化处理,超过8次的记为1,不超过8次的记为0,将处理后的结果存为该数据集的新列new_absence提示:可以使用sklearn.preprocessing中的Binarizer函数实现上述功能import pandas as pddata = pd.read_csv('newdata.csv')print(data[['absences']].head())# 二值化转换from sklearn import preprocessingbinariz
2020-05-16 21:12:03 199
原创 绘制多个参数箱线图
使用matplotlib绘制该数据集特征G1、G2、G3的箱线图(按照顺序G1,G2,G3)在一个子图中绘制需求图像import pandas as pdimport matplotlib.pyplot as pltfig = plt.figure(figsize = (10, 10))data = pd.read_csv('newdata.csv')# 绘制scores = ['G1', 'G2', 'G3']grades_df = data[scores]grades_df.boxp
2020-05-16 21:11:32 2658
原创 pandas统计行数,获取字段信息 例题
统计该数据集的行数,将结果存为row_num获取该数据集的各个字段名称,将结果存为col_array从该数据集中,读取字段school, sex, age,address 的信息,将结果存为dataimport pandas as pdall_data = pd.read_csv('studentmath.csv')# 统计行数row_num = len(all_data)# 获取各字段名称col_array = all_data.columns# 读取指定字段信息data =.
2020-05-12 13:20:09 3430
原创 pandas判断标称型和数值型特征数据
现已使用Pandas读取数据集studentmath.csv加粗样式 请获取该数据集各个特征的数据类型,将标称型特征存为nominal_array,数值型特征存为numerical_array要求:nominal_array和nominal_array为列表结构提示:可以使用Pandas中的select_dtypes()函数区别字段的类型,比如标称型字段的dtype为object,数值型字段的dtype为int和float正误判定变量:nominal_array,numerical_arrayimp
2020-05-12 13:11:53 1879
原创 Mtplotlib-菜鸟教程-图表例题1
折线图import pandas as pdimport matplotlib.pyplot as pltiris = pd.read_csv(‘iris.csv’)fig = plt.figure(figsize = (10, 10))plt.plot(iris[‘sepal_width’],‘r–’,label=‘sepal_width’)plt.legend(loc=‘best...
2020-04-07 21:14:56 479
原创 Mtplotlib-菜鸟教程-部分代码解析以及颜色图形
导入作图模块import matplotlib.pyplot as plt魔法命令%matplotlib inline作用:内嵌绘图,并且可以省略掉plt.show()这一步。创建空图fig = plt.figure()创建子图ax1 = fig.add_ subplot(2, 2, 1) //(行,列,第几个子图)ax2 = fig.add_ subplot(2, 2, ...
2020-04-07 20:54:14 329
原创 Matplotlib-菜鸟教程-简介
简介●Matplotlib是Python最著名的绘图库●提供与Matlab相似的命令API,适合交互式制图●方便地将它作为绘图控件,嵌入GUI应用程序中●绘图文档完备,在Gallery页面中有上百幅缩略图和源程序可供查看用途●采集数据●数据可视化了解数据统计特征●可绘制散点图,折线图,分布图,盒图(箱线图)等●充分了解数据,再进行数据分析...
2020-04-07 20:12:55 1029
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人