Python数据分析可视化
文章平均质量分 73
持续深入python,学习如何用python处理数据,进行数据可视化,把枯燥的数据通过代码绘制成一张张精美的图表。
阿松爱睡觉
软件工程专业出身,专业方向虚拟现实unity开发,成绩多次专业第一,校级三好学生,获得国家励志奖学金、专业一等奖学金,参加多次中国大学生计算机设计大赛并获奖。曾入选《游戏领域内容榜》第四十五名、入围城市原力月榜第二名。
展开
-
matplotlib图形绘制报错Clipping input data to the valid range for imshow with RGB data解决方法
在图形绘制`plt.show()`的时候会出现的报错`Clipping input data to the valid range for imshow with RGB data ([0..1] for floats or [0..255] for integers).`,然后图形显示空白。解决方法:数据进行归一化处理原创 2023-12-04 08:00:00 · 411 阅读 · 0 评论 -
PyEcharts快速上手_Python数据分析与可视化
pyEcharts 有多种输出方式以格式,比如嵌入 Web 界面以 html 格式输出、嵌入 Jupyter 输出或者以文件的形式输出 PNG 格式的图片。pyEcharts 中不同类型的图表添加数据的方法不尽相同,但基本原理是类似的,此处以 Bar 类型图表即条形图为例介绍添加数据的方法。以上代码是向 bar 的 x 轴添加 6 种衣服类型,并向 y 轴分别添加商家 A 和商家 B 的两组销售数据,pyEcharts 会自动绘制每组两行的柱状图。这一设置类型属于 Bar 图表自带类型。原创 2023-12-03 12:00:00 · 141 阅读 · 0 评论 -
Basemap地图绘制_Python数据分析与可视化
Basemap是Matplotlib的一个子包,负责地图绘制。在数据可视化过程中,我们常需要将数据在地图上画出来。比如说我们在地图上画出城市人口,飞机航线,军事基地,矿藏分布等等。这样的地理绘图有助于读者理解空间相关的信息。适用于有空间位置的数据集。原创 2023-12-03 08:00:00 · 692 阅读 · 0 评论 -
Seaborn可视化图形绘制_Python数据分析与可视化
Seaborn的主要思想是用高级命令为统计数据探索和统计模型拟合创建各种图形,下面将介绍一些Seaborn中的数据集和图形类型。虽然所有这些图形都可以用Matplotlib命令实现(其实Matplotlib就是Seaborn的底层),但是用SeabornAPI会更方便。原创 2023-12-02 12:00:00 · 213 阅读 · 0 评论 -
Seaborn图形可视化基础_Python数据分析与可视化
的基础上开发了一套 API,为默认的图形样式和颜色设置提供了理智的选择,为常用的统计图形定义了许多简单的高级函数,并与。虽然可以实现复杂的统计数据可视化,但是通常都需要写大量的样板代码;的基础上进行了更高级的API封装,从而使得作图更加容易,在大多数情况下使用。已经如此强大了,但是不得不承认它不支持的功能还有很多。的经典图形样式和配色方案画一个简易的随机游走图。之前的版本的默认配置样式绝对不是用户的最佳选择;的补充,而不是替代物。应该是四周都有刻度线的白背景。脚本获得更好的效果。的默认参数,从而用简单的。原创 2023-12-02 08:00:00 · 87 阅读 · 0 评论 -
利用Matplotlib绘制词云_Python数据分析与可视化
词云对于网络文本中出现频率较多的关键词予以视觉上额突出,形成“关键词云层”或“关键词渲染”,从而过滤掉大量的文本信息,使浏览网页者只要一眼扫过文本就可以领略文本的主旨。原创 2023-12-01 12:00:00 · 236 阅读 · 0 评论 -
Matplotlib箱线图的绘制_Python数据分析与可视化
箱线图(boxplot)也称盒须图,其绘制需使用常用的统计量,能提供有关数据位置和分散情况的关键信息,尤其在比较不同特征时,更可表现其分散程度差异。箱线图利用数据中的五个统计量(最小值、下四分位数、中位数、上四分位数和最大值)来描述数据,它也可以粗略地看出数据是否具有对称性、分布的分散程度等信息,特别可以用于对几个样本的比较。原创 2023-12-01 08:30:00 · 189 阅读 · 0 评论 -
FastApi接收不到Apifox发送的from-data字符串_解决方法
查看Apifox请求中的请求头的时候,发现content-type的值是application/json,不是传的from-data类型。于是乎,在请求头中设置Content-type为multipart/form-data,请求之后依然接收不到task_id,同时请求头Header中content-type的值依然是application/json。(奇怪喔)然后一顿搜索,甚至官方文档也看了,依然不行。原创 2023-11-30 08:00:00 · 477 阅读 · 0 评论 -
Matplotlib饼图的创建_Python数据分析与可视化
饼图又称圆饼图、圆形图等,它是利用圆形及圆内扇形面积来表示数值大小的图形。是将各项的大小与各项总和的比例显示在一张“饼”中,以“饼”的大小来确定每一项的占比。饼图主要用于总体中各组成部分所占比重的研究。饼图可以比较清楚地反映出部分与部分、部分与整体之间的比例关系,易于显示每组数据相对于总数的大小,而且显现方式直观。嵌套饼图通常被称为空心饼图图表。空心饼图形状的效果是通过。用来绘制饼图的函数是。原创 2023-11-29 11:30:00 · 163 阅读 · 0 评论 -
Matplotlib直方图的创建_Python数据分析与可视化
直方图是一种统计报告图,形式上也是一个个的长条形,但是直方图用长条形的面积表示频数,所以长条形的高度表示频数组距,宽度表示组距,其长度和宽度均有意义。当宽度相同时,一般就用长条形长度表示频数。单从外表上看直方图和条形图非常相似,其实两者不一样。首先需要区分清楚概念:直方图和条形图。直方图一般用来描述等距数据。直观上,直方图各个长条形是衔接在一起的,表示数据间的数学关系。条形图用长条形表示每一个类别,长条形的长度表示类别的频数,宽度表示表示类别。原创 2023-11-29 08:00:00 · 138 阅读 · 0 评论 -
Matplotlib散点图的创建_Python数据分析与可视化
的主要差别在于,前者在创建散点图时具有更高的灵活性,可以单独控制每个散点与数据匹配,也可以让每个散点具有不同的属性(大小、颜色等)。中,散点基本都彼此复制,因此整个数据集中的所有点的颜色、大小只需要配置一次。分别表示花萼的长度和宽度,而点的大小表示花瓣的宽度,三种颜色对应三种不同类型的鸢尾花。这样,散点的颜色与大小就可以在可视化图中显示多维数据的信息了。会对每个散点进行单独的大小与颜色的渲染,因此渲染器会消耗更多的资源。函数的第三个参数是一个字符,表示图形符号的类型。除了特征上的差异之外,在数据量较大时,原创 2023-11-28 15:00:00 · 794 阅读 · 0 评论 -
Matplotlib线形图的创建_Python数据分析与可视化
会自动为你的图形选择最合适的坐标轴上下限,但是有时自定义坐标轴上下线可能会更好。类的一个实例)可以被看成是个能够容纳各种坐标轴、图形、文字和标签的容器。就像你在图中看到的那样,类的一个实例)是一个带有刻度和标签的矩形,最终会包含所有可视化的图形元素。如果你想要让坐标轴逆序显示,那么只需要逆序设置坐标轴刻度值就可以了。在画图的过程中通常对图形的第一次调整是调整它线条的颜色与风格。会为多条线自动循环使用一组默认的颜色。在所有图形中,最简单的应该就是线性方程。表示一个坐标轴实例。图形时,都需要先创建一个图形。原创 2023-11-28 08:00:00 · 602 阅读 · 0 评论 -
Matplotlib画图接口_Python数据分析与可视化
面向对象接口可以适应更加复杂的场景,更好地控制图形,在画比较复杂的图形市,面向对象方法会更方便。通过下面的代码,可以用面向对象接口重新创建之前的图形。之后的任何plt命令都会自动打开一个图像窗口,当有新的命令,图像就会更新。但对已经画好的图像不会自动实时更新。开发环境的不同,显示图像的方式也就不一样,一般有三种开发环境,分别是脚本、风格接口,另一个是功能更强大的面向对象接口。是最常用的画图模块接口,功能非常强大。还可以直接将图像保存文件,通过。有两个画图接口:一个是便捷的。可视化非常方便,使用。原创 2023-11-27 11:30:00 · 131 阅读 · 0 评论 -
Matplotlib不规则子图_Python数据分析与可视化
对象本事不能直接创建一个图形,他只是。还支持不规则的多行多列子图网格。这里创建了一个带行列间距的。命令可以识别的简易接口。原创 2023-11-27 08:30:00 · 225 阅读 · 0 评论 -
Matplotlib网格子图_Python数据分析与可视化
这个函数在一个网格中创建一个子图,该函数由三个整型参数,依次为将要创建的网格子图行数、列数和索引值,索引值从1开始,从左上到右下递增。这个函数不是用来创建单个子图的,而是用一行代码创建多个子图,并放回一个包含子图的numpy数组。当我们需要创建一个大型网格子图时,就没办法使用前面那种亦步亦趋的方法了,尤其是当你想隐藏内部子图的x轴与y轴标题时。参数设置与图形高度与宽度一致的子图间距,数值以子图的尺寸为单位。参数后,我们就可以自动去掉网格内部子图的标签。在上图y轴的刻度有的已经和前面的子图重叠,原创 2023-11-26 11:00:00 · 339 阅读 · 0 评论 -
Matplotlib子图的创建_Python数据分析与可视化
它还有一个可选的参数,由图形坐标系统的四个值构成。这四个值表示为坐标系的[底坐标、左坐标、宽度、高度],数值的取值范围为左下角为0,右上角为1。可以看到两个紧挨着的坐标轴:上子图的(起点y坐标为0.5位置)与下子图x轴刻度是对应的(起点y坐标为0.1,高度为0.4)。函数,这个函数默认配置是创建一个标准的坐标轴,填满整张图。面向对象画图接口中类似的命令由。原创 2023-11-26 08:00:00 · 201 阅读 · 0 评论 -
Matplotlib图形配置与样式表_Python数据分析与可视化
Matplotlib的默认图形设置经常被用户诟病。虽然2.0版本已经有了很大改善,但是掌握自定义配置的方法可以让我们打造自己的艺术风格。原创 2023-11-25 10:30:00 · 294 阅读 · 0 评论 -
Matplotlib自定义坐标刻度_Python数据分析与可视化
虽然matplotlib默认的坐标轴定位器与格式生成器可以满足大部分需求,但是并非对每一幅图都合适。原创 2023-11-25 08:00:00 · 250 阅读 · 0 评论 -
Matplotlib图形注释_Python数据分析与可视化
有的时候单单使用图形无法完整清晰的表达我们的信息,我们还需要进行文字进行注释,所以matplotlib提供了文字、箭头等注释可以突出图形中重点信息。原创 2023-11-24 17:01:42 · 123 阅读 · 0 评论 -
Matplotlib颜色条的配置_Python数据分析与可视化
其中一个 {tab:blue,tab:orange,tab:green,tab:red, tab:purple,tab:brown,tab:pink,tab:gray,tab:olive, tab:cyan},它们是tab10分类调色板中的Tableau颜色(这是默认的颜色循环)。例如,我们可以缩短颜色取值的上下限,对于超出上下限的数据,通过extend参数用三角箭头表示比上限大的数或者比下限小的数。单字母字符串,例如这些其中之一:{b, g,r, c,m, y, k, w};提供了丰富的颜色条配置功能。原创 2023-11-23 08:00:00 · 540 阅读 · 0 评论 -
手写数字可视化_Python数据分析与可视化
例如数字5与数字3在投影中有大面积重叠,说明一些手写的5与3难以区分,因此自动分类算法也更容易搞混它们。其它的数字,像数字0与数字1,隔得特别远,说明两者不太可能出现混淆。由于每个数字都由64像素的色相构成,因此可以将每个数字看成是一个位于64维空间的点,即每个维度表示一个像素的亮度。但是想通过可视化来描述如此高维度的空间是非常困难的。一种解决方案是通过降维技术,在尽量保留数据内部重要关联性的同时降低数据的维度,例如流形学习。数据在sklearn中,包含近2000份8 x 8的手写数字缩略图。原创 2023-11-24 08:00:00 · 299 阅读 · 0 评论 -
Pandas数据清洗_Python数据分析与可视化
在处理数据的时候,需要对数据进行一个清洗过程。清洗操作包括:空白行的删除、数据完整性检验、数据填充、插值等内容。下面是数据清洗过程中使用的具体方法。原创 2023-11-22 08:00:00 · 502 阅读 · 0 评论 -
Pandas数据集的合并与连接merge()方法_Python数据分析与可视化
在这种情况下,就可以用left_on和right_on参数来指定列名。如果输出结果中有两个重复的列名,因此pd.merge()函数会自动为它们增加后缀 _x 或 _y,当然也可以通过suffixes参数自定义后缀名。如果想将索引与列混合使用,那么可以通过结合left_index与 right_on,或者结合left_on与right_index来实现。参数同样适用于任何连接方式,即使有三个及三个以上的重复列名时也同样适用。左连接和右连接返回的结果分别只包含左列和右列;有共同列名的时候才可以使用。原创 2023-11-21 08:00:00 · 1349 阅读 · 0 评论 -
Pandas中Concat与Append_Python数据分析与可视化
在Numpy中,我们介绍过可以用np.stacknp.vstack和np.hstack实现合并功能。Pandas中有一个函数与语法类似,但是配置参数更多,功能也更强大。可以简单地合并一维的Series或DataFrame对象。原创 2023-11-20 19:38:05 · 145 阅读 · 0 评论 -
Pandas透视表与交叉表_Python数据分析与可视化
透视表是各种电子表格程序和其他数据分析软件中一种常见的数据汇总工具。它根据一个或多个键对数据进行聚合,并根据行和列上得分组建将数据分配到各个矩形区域中。在 pandas 中,可以通过。其中 rownames 可以设置行名,colnames 可以设置列名,而且前两个参数可以是数组、Series 或数组列表。交叉表是一种用于计算分组频率的特殊透视表。通常使用 crosstab 函数来创建交叉表。crosstab 的参数。原创 2023-11-20 09:00:00 · 273 阅读 · 0 评论 -
Pandas分组聚合_Python数据分析与可视化
df.groupby("B").agg(result) #求每一组最大值与最小值的差。原创 2023-11-19 11:00:00 · 275 阅读 · 0 评论 -
Pandas数据操作_Python数据分析与可视化
即删除 Series 的元素或 DataFrame 的某一行(列)的意思,我们可以通过对象的 drop(labels, axis=0) 方法实现此功能。DataFrame 中的算术运算是 df 中对应位置的元素的算术运算,如果没有共同的元素,则用 NaN 代替。Series 用 sort_index() 按索引排序,sort_values() 按值排序;DataFrame 也是用 sort_index() 和 sort_values()。需要注意的是 drop() 返回的是一个新对象,原对象不会被改变。原创 2023-11-19 08:00:00 · 322 阅读 · 0 评论 -
Pandas数据处理对象Series、DataFrame_Python数据分析与可视化
是为了解决数据分析任务而创建的,纳入了大量的库和标准数据模型,提供了高效地操作大型数据集所需的工具。原创 2023-11-18 20:27:14 · 224 阅读 · 0 评论 -
Jupyter Notebook的下载安装与使用教程_Python数据分析与可视化
什么是Jupyter?Jupyter是一个开源的、基于Web的交互式计算环境,支持多种编程语言,包括Python、R、Julia等。它的名字来源于这三种语言的结合。Jupyter的核心思想是将代码、文档、图像等内容整合在一个文档中,使得用户能够在一个界面中完成整个数据处理和分析的过程。原创 2023-11-17 08:00:00 · 3635 阅读 · 0 评论 -
Numpy数组进阶_Python数据分析与可视化
利用nditer对象可以实现完成访问数组中的每一个元素,这项最基本的功能,使用标准的 Python 迭代器接口,可以逐个访问每一个元素。默认情况下,nditer 将视待迭代遍历的数组为只读对象(read-only),为了在遍历数组的同时,实现对数组元素值的修改,必须将可选参数 op_flags 指定为 read-write 或者 write-only 的模式。对数组的算术运算通常在相应的元素上进行,当运算中的 2 个数组的形状不同时,numpy 将自动触发广播机制。花式索引指的是利用整数数组进行索引。原创 2023-11-16 13:37:37 · 232 阅读 · 0 评论 -
Numpy数组基础知识_Python数据分析与可视化
这里,我们使用两个arange方法,创建了两个1x6的一维数组,然后使用numpy的array方法,将两个一维数组组合成一个2x6的二维数组。从而达到了创建多维数组的目的。使用Numpy,我们可以方便的更改数组的形状,比如使用reshape()、ravel()、flatten()、transpose()函数等。拉直,其功能与ravel()相同,但是flatten()返回的是真实的数组,需要分配新的内存空间,而ravel()仅仅是改变视图。从深度看,数组既可以横向叠放,也可以竖向叠放。首先,创建两个数组。原创 2023-11-14 20:57:57 · 161 阅读 · 0 评论 -
Seaborn数据可视化综合应用Basemap和Seaborn在线闯关_头歌实践教学平台
任务描述本关任务:编写一个使用Seaborn来绘制散点图的程序。编程要求设置Seaborn样式为white;设置颜色为steelblue;设置kind为count;图形的figsize为(10, 10);文件名为Task2/img/T1.png;具体要求请参见后续测试样例。请先仔细阅读右侧上部代码编辑区内给出的代码框架,再开始你的编程工作!测试说明平台会对你编写的代码进行测试,对比你输出的数值与实际正确的数值,只有所有数据全部计算正确才能进入下一关。测试输入:无测试输入。原创 2023-11-13 15:16:04 · 1038 阅读 · 2 评论 -
Matplotlib数据可视化综合应用Matplotlib接口和常用图形在线闯关_头歌实践教学平台
在右侧编辑器Begin-End补充代码,根据输入数据input_data,input_data1绘制两条折线图。在右侧编辑器Begin-End补充代码,对传入的x,y两个数组做折线图,x对应x轴,y对应y轴。第三组数据参数设置标记大小为area,标记颜色为area,标记样式为v,透明度为0.7;本关任务:学习掌握matplotlib的第一个图形线形图,并能够使用线形常用配置。第二组数据参数设置标记大小为area,标记颜色为绿色,透明度为0.6;第一组数据参数设置标记大小为area,透明度为0.5;原创 2023-11-13 14:56:48 · 1243 阅读 · 0 评论 -
Python语法基础在线实验闯关_头歌实践教学平台
Python语法基础在线实验闯关第1关 基本数据类型第2关 基本数据结构第3关 基本数据结构访问第4关 列表append和extend方法第5关 字符串连接第6关 字符串拆分和子串查找第7关 条件语句if第8关 循环语句while第9关 循环语句for和字典setdefault方法第10关 函数定义及应用第1关 基本数据类型# -*- coding: utf-8 -*-def return_values(): #定义浮点型数值变量a #定义字符类型变量b a=2.1 b原创 2023-05-19 18:28:46 · 3744 阅读 · 2 评论 -
Matplotlib数据可视化综合应用Matplotlib图形配置在线闯关_头歌实践教学平台
任务描述本关任务:掌握如何将坐标轴刻度调整为需要的位置与格式。编程要求图形的figsize为(10, 10);图形需保存到Task3/img/T1.png。测试说明平台会对你编写的代码进行测试:测试输入:Task3/fj1.csv预期输出:你的答案与正确答案一致开始你的任务吧,祝你成功!a=data.groupby(["二级类"])["二级类"].count()plt.show()原创 2023-11-10 22:22:37 · 1670 阅读 · 1 评论 -
Pandas数据预处理python 数据分析之4——pandas 预处理在线闯关_头歌实践教学平台
本关任务:加载 csv 数据集,实现 DataFrame 合并。平台会对你的代码进行测试,若与预期输出一致,则算通关。平台会对你的代码进行测试,若与预期输出一致,则算通关。平台会对你的代码进行测试,若与预期输出一致,则算通关。本关任务:数据转换。包括数据标准化和数据离散化。根据提示,在右侧编辑器补充代码,完成本关任务。根据提示,在右侧编辑器补充代码,完成本关任务。根据提示,在右侧编辑器补充代码,完成本关任务。开始你的任务吧,祝你成功!开始你的任务吧,祝你成功!开始你的任务吧,祝你成功!原创 2023-11-09 17:25:55 · 3024 阅读 · 0 评论 -
Pandas数据预处理Pandas合并数据集在线闯关_头歌实践教学平台
data.csv和data1.csv是两份与各国幸福指数排名相关的数据,为了便于查看排名详情,所以需要将两份数据横向合并。本关任务:使用read_csv()读取两个csv文件中的数据,将两个数据集合并,将索引设为Ladder列,并将缺失值填充为0。本关为练习关卡,请按照编程要求完成任务,获取美国各州2010年的人口密度排名。本关任务:使用pandas中的merge()函数按照编程要求合并三份数据。原创 2023-11-08 11:15:12 · 3913 阅读 · 7 评论 -
Pandas数据分析Pandas进阶在线闯关_头歌实践教学平台
使用 Pandas 中的 read_csv() 函数读取 step1/drinks.csv 中的数据,数据的列名如下表所示,请根据 continent 分组并求每个大洲红酒消耗量的最大值与最小值的差以及啤酒消耗量的和。使用 Pandas 中的 read_csv 函数加载 step2/tip.csv 文件中的数据集,分别用透视表和交叉表统计顾客在每种用餐时间(time) 、每个星期下(day) 的 小费(tip)总和情况。开始你的任务吧,祝你成功!开始你的任务吧,祝你成功!原创 2023-11-06 22:58:05 · 867 阅读 · 0 评论 -
Pandas数据分析Pandas初体验在线闯关_头歌实践教学平台
将列名修改为 [‘water_year’,‘rain_octsep’,‘outflow_octsep’,‘rain_decfeb’, ‘outflow_decfeb’, ‘rain_junaug’, ‘outflow_junaug’];创建一个五行三列的名为 df1 的 DataFrame 数组,列名为 [states,years,pops],行名 [‘one’,‘two’,‘three’,‘four’,‘five’];给 df1 添加新列,列名为 new_add,值为 [7,4,5,8,2]。原创 2023-11-05 18:23:16 · 2786 阅读 · 0 评论 -
Numpy数值计算Numpy 进阶在线闯关_头歌实践教学平台
然后,利用整数数组索引获取数组四个角(按行优先的顺序获取)的元素得到数组 b;首先用 arange() 生成一个数组,然后用 reshape() 方法,将数组切换成 4x3 的形状,最后再与 basearray 相加,输出它们的和。本关任务:给定一个二维数组,请以整数数组索引、布尔索引、花式索引三种方式,来获取我们需要的数组元素。本关任务:利用本关相关知识,将一个 ndarray 类型的数组,顺时针旋转 90 度后输出。本关任务:给定两个不同形状的数组,求出他们的和。开始你的任务吧,祝你成功!原创 2023-11-02 21:13:56 · 1126 阅读 · 0 评论