Python数据分析学习笔记
文章平均质量分 55
人生短又短,代码长且长。
世澈
继续卷。
展开
-
pandas中的索引和多层索引
索引分类Index;单层索引;MultiIndex;多层索引;举例:import pandas as pdimport numpy as npdf = pd.DataFrame(np.random.rand(4, 4))*10//1print(df)输出结果为: 0 1 2 30 7.0 9.0 6.0 1.01 9.0 0.0 2.0 2.02 3.0 7.0 8.0 4.03 7.0 6.0 8.0 4.0原创 2022-05-08 22:05:03 · 1156 阅读 · 0 评论 -
pandas中DataFrame数据合并及分组
数据合并join()将行索引相同的数据合并在一起;举例:import pandas as pdimport numpy as npdf_1 = pd.DataFrame({ 'A':[1, 2, 3, 4], 'B':[1, 2, 3, 4], 'C':[1, 2, 3, 4], 'D':[1, 2, 3, 4], 'E':[1, 2, 3, 4] })df_2 = pd.DataFrame({ 'f':[1, 2, 3],原创 2022-05-07 19:13:10 · 1756 阅读 · 0 评论 -
pandas中DataFrame的常用操作
数据集的信息使用info()方法输出数据集的信息举例import numpy as npimport matplotlib.pyplot as pltimport matplotlibimport pandas as pdimport sklearn# matplotlib.rc("font",family='FangSong')df = pd.read_csv('data\\boston.csv')# 读取数据集df = df.sample(500, replace=False,原创 2022-05-06 13:51:27 · 699 阅读 · 0 评论 -
numpy中的zeros()函数
简介创建指定长度或形状的全为0的ndarray数组;在默认情况下,创建的数组元素类型为浮点型,如果要使用其他类型可以设置dtype参数返回给定类型的新数组;用法语法结构:import numpy as npnp.zeros(shape, dtype=float, orser='c')shape:定义返回对俄数组的形状;创建多维数组时,用括号将shape数据组括起来;dtype:生成数组的数据类型,默认为np.float64order:可选参数,{‘c’, ‘f’},表示是否原创 2022-05-06 13:19:25 · 2192 阅读 · 0 评论 -
matplotlib中绘制多个子图形
subplot()函数语法结构plt.sublot(a,b,c)参数 a 表示子图有几行;参数 b 表示子图有几列;参数 c 表示当前子图的序号;subplots_adjust()函数语法结构plt.subplots_adjust(left=None,bottom=None,right=None,top=None,wspace=0.15,hspace=0.15)参数取值范围为0~1之间的小数,表示百分比;wspace,hspace表示子图之间的举例;举例impor原创 2022-05-05 14:40:30 · 588 阅读 · 0 评论 -
pandas中的DataFrame及相关操作
是一个二维容器;pandas中会自动根据数据类型更改dataframe的dtype类型;举例:pd.DataFrame(np.arange(12).reshape(3, 4))输出结构为含有行索引和列索引的对象;行索引:表示不同行,叫index,0轴,axis=0;列索引:表示不同列,叫columns,1轴,axis=1;可对行索引列索引进行赋值:pd.DataFrame(np.arange(12).reshape(3, 4), index=list("abc"), columns=l.原创 2022-05-02 22:02:57 · 1227 阅读 · 0 评论 -
pandas的引入及Series的基础操作、读取外部文件
作用相对于numpy,pandas更进一步能帮助处理数值型数据之外的其他类型数据(比如时间序列、字符串等);常用数据类型Series:一维,带标签数组DataFrame:二维,Series容器Series创建Series数组语法结构:pd.series(数据序列, index=索引序列)举例:pd.Series(np.arange(11), index=list("asdfghjkkll"))输出时一一对应;索引序列:大写字母构成序列:import stringstrin原创 2022-05-02 16:39:52 · 703 阅读 · 0 评论 -
numpy中的NAN和INF
Nannan, Nan, NAN均表示:not a number,不是一个数字;什么时候numpy中会出现nan:当读取本地文件为float的时候,如果有缺失,会出现nan;当做了一个不合适的计算时(比如无穷大减去无穷大),会出现nan;数据类型为float;两个nan不相等;可以利用该属性判断数组中的nan个数;np.count_nonzero()统计传入数组中不为零元素的个数;传入s!=s时,可以统计s中nan的个数;传入np.isnan(),可获取nan个数;原创 2022-04-30 17:40:38 · 893 阅读 · 0 评论 -
numpy中的文件读取操作
CSV文件Comma-Separated Value(逗号分隔值文件);显示:表格状态;源文件:换行和逗号分隔的格式化文本,每一行的数据表示一条记录;文件操作读取文件语法结构:np.load(filename.dtype=np.float, delimiter=None, skiprows=0, usecols=None, unpack=False)filename:文件名;dtype:数据类型(可选),表示文件字符串以什么数据类型读入数组中,默认为np.float;del原创 2022-04-29 19:22:32 · 2298 阅读 · 0 评论 -
numpy的引入及数组、轴操作
优势快速;方便;科学计算的基础库;介绍一个在Python中做科学计算的基础库,重在数值计算,也是大部分Python科学计算库的基础库,多用在大型、多维数组上执行数值运算。使用数组创建数组:import numpy as npa_1 = np.array([1, 2, 3, 4, 5])a_2 = np.array(range(1, 6))a_3 = np.arange(1, 6)以上三个数组的内容相同;arange()与range()区别:arange([start,原创 2022-04-28 18:46:16 · 723 阅读 · 0 评论 -
matplotlib中直方图的简单使用及美化
在图中指定位置显示信息:plt.text(x,y,s,family,fontsize,style,color)x,y:注释内容位置s:注释文本内容family:字体fontsize:字体大小style:字体样式 normal、italic(斜体)、oblique(斜体)color:颜色直方图适用于连续分布数字统计分布状态未经处理的数据对二十部电影的时长分布进行绘图from tkinter.font import namesfrom matplotlib import原创 2022-04-27 22:05:43 · 1201 阅读 · 0 评论 -
matplotlib中条形图(柱状图)的简单使用及美化
世界电影票房前十名统计图世界电影票房前十名的数据如下:阿凡达 : 28.47 亿美元复仇者联盟4:终局之战 : 27.97 亿美元泰坦尼克号 : 22.02 亿美元星球大战:原力觉醒 : 20.69 亿美元复仇者联盟3:无限战争 : 20.48 亿美元蜘蛛侠:英雄无归 : 18.89 亿美元侏罗纪世界 : 16.71 亿美元狮子王 : 16.63 亿美元复仇者联盟 : 15.19 亿美元速度与激情7 : 15.12 亿美元绘制纵向条形图from matplotlib impor原创 2022-04-26 22:15:35 · 3884 阅读 · 0 评论 -
matplotlib中散点图的简单使用及美化
气温随时间变化的规律为寻找当地气温随时间变化的规律,对四十天内气温的变化进行统计得到如下数组:[32, 25, 15, 19, 18, 23, 27, 23, 24, 24, 24, 25, 17, 17, 17, 22, 26, 27, 28, 28, 20, 17, 19, 19, 23, 19, 19, 23, 24, 26, 27, 28, 28, 29, 26, 27, 29, 30, 29, 29]from matplotlib import pyplot as pltimport ma原创 2022-04-26 18:16:51 · 734 阅读 · 0 评论 -
matplotlib的引入、常用图形对比及其他常见绘图工具
最流行的Python底层绘图库,主要做数可视化图表,模仿MATLAB构建;作用能将数据进行可视化,更直观的呈现;使数据呈现更客观、更具说服力;matplotlib可绘制的图形汇总Examples — Matplotlib 3.5.1 documentation常用图形的对比折线图:以折线的上升或下降来表示统计数量的增减变化的统计图;能显示数据的变化趋势,反映事物的实际情况(变化);直方图:由一系列不等高的纵向太傲文或线段表示数据分布的情况;绘制连续性数据,展示一组或多组原创 2022-04-26 15:19:09 · 1312 阅读 · 0 评论 -
matplotlib中折线图的简单使用及美化
每两小时的气温折线图假设一天中每隔一个小时的气温为[19, 18, 18, 17, 17, 16, 16, 18, 22, 24, 26, 28, 29, 30, 31, 31, 31, 29, 27, 24, 23, 22, 21, 19 ]from matplotlib import pyplot as plt # 导入pyplotx = range(0, 24, 1) # 该函数生成的数组在X轴位置y = [19, 18, 18, 17, 17, 16, 16, 18, 22, 24, 2原创 2022-04-25 17:57:21 · 1477 阅读 · 0 评论