![](https://img-blog.csdnimg.cn/82acff2083b5402fb07a85133cd69773.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
数据分析
文章平均质量分 78
数据分析
对许
这个作者很懒,什么都没留下…
展开
-
Tableau创建数据提取
连接到数据并在“数据源”页面上设置数据源后,请在右上角选择“数据提取”,然后选择“编辑”链接以打开“提取数据”对话框。可以选择“聚合”,聚合可视维度的数据”将使用默认日期(年、季度、月等)来聚合度量。打开保存的数据提取,该数据提取只显示华北及东北地区家具销售利润低于5000的数据。在“数据存储”下,选择“逻辑表”(单个表)或“物理表”(多个表),展开“筛选器”设置筛选器,以限制基于字段及字段值提取的数据量。选择工作表标签页,这将启动数据提取的创建。完成后,点击“确定”或“保存设置”选择保存数据提取的位置。原创 2024-05-31 16:50:08 · 423 阅读 · 0 评论 -
Tableau刷新数据源
连接到发布的数据源时,数据源可能为实时连接或数据提取。在刷新过程中,可以灵活地选择完全刷新(替换数据提取中的所有现有内容)或增量刷新(仅包括自上次刷新以来的新行)有三种主要连接类型:“实时连接”、“数据提取”和“发布的数据源”。如果连接的数据源已经修改,通过在“数据”菜单中选择该数据源,然后选择“刷新”,可以使Tableau Desktop立即对这些更改进行更新。:与直接连接到原始数据的视图相比,与利用提取数据源的视图进行交互可以带来更好的性能。刷新数据提取将查询从中创建数据提取的数据源,并重建数据提取。原创 2024-05-30 18:00:11 · 707 阅读 · 0 评论 -
Tableau构建视图
生成的表有四列和一行。将“Order Date”(订单日期)度量从“数据”窗格拖放到“筛选器”功能区上。在“筛选器字段”对话框中,选择要作为筛选依据的日期级别,即“Years”(年份),然后单击“下一步”视图,又称工作表,一个工作表包含单个视图以及其侧栏中的功能区、卡、图例以及“数据”和“分析”窗格。从“数据”窗格中拖动“Segment”(细分市场)维度,然后将其放在“行”上“SUM(Profit)”的左侧。从“数据”窗格的“维度”区域中,将“Order Date”(订单日期)字段拖到“列”功能区。原创 2024-05-30 16:10:52 · 1016 阅读 · 0 评论 -
Tableau解包与版本兼容性
如果Zachary编辑并保存工作簿,并将其发回给Amanda,他将需要先将工作簿降级,以便Amanda能够打开工作簿。如果未降级,当Amanda尝试在Tableau Desktop版本2021.4中打开工作簿时,加载将会失败,因为该工作簿现在为2022.2工作簿。例如,假设Amanda使用Tableau Desktop版本2021.3创建Tableau工作簿,并将工作簿发送给Zachary,其Tableau Desktop版本为2022.1,Zachary将能够打开该工作簿。通常考虑以下两种处理情况。原创 2024-05-29 15:38:06 · 435 阅读 · 0 评论 -
Pandas分箱/离散化cut()与qcut()的区别
例如,如果对年龄进行分箱,0-1岁是婴儿,1-12岁是孩子,12-18岁是青少年,18-60岁是成年人,60岁以上是老年人。默认情况下,它被设置为False,因此,当Pandas看到我们传递的列表时,它将把2008年排除在计算之外。时,我们告诉Pandas将数据列切成5个相等的量级,即0-20%,20-40%,40-60%,60-80%和80-100%桶/箱。可以看到,分箱的边缘是不等宽的,因为它要容纳每个桶1/3的值,因此它要自己计算每个箱子的宽度来实现这一目标。边缘的间距大小是相等的,每个。原创 2024-04-07 15:20:46 · 1674 阅读 · 0 评论 -
泰坦尼克号幸存者数据分析
这是一艘号称当时世界上最大的邮轮,船上的人年龄各异,背景不同,有贵族豪门,也有平民旅人,邮轮撞击冰山后,船上的人马上采取措施安排救生艇转移人员,从本次海难中存活下来的,也就是幸存者。:各等级船舱中男性乘客多于女性乘客,但是女性乘客的获救比例都高于男性乘客。不同等级船舱的女性乘客的获救率高于男性,这可能是女士优先的原因。:小孩、青少年、成年人、老年人的获救比例依次从高到低,小孩的获救比例最高,老年人的获救比例最低。船舱等级对于乘客的获救率存在较大的影响。不同等级船舱的男性乘客与女性乘客的获救率。原创 2024-04-03 17:49:28 · 3349 阅读 · 0 评论 -
Python办公自动化之PDF(二)
PyMuPDF(也称Fitz)开源,提供了一整套用于处理PDF文件的综合工具。使用PyMuPDF,用户可以高效地执行打开PDF、提取文本、图像和表格、操作旋转和裁剪等页面属性、创建新PDF文档以及将PDF页面转换为图像等任务从命名形式中可以看出,PyMuPDF是MuPDF的Python接口形式。MuPDF是一个轻量级的PDF、XPS和电子书查看器MuPDF中的渲染器专为高质量抗锯齿图形量身定制,它以精确到像素的几分之一内的度量和间距呈现文本,以在屏幕上再现打印页面的外观时获得最高保真度文档阅读。原创 2024-03-08 17:49:38 · 664 阅读 · 0 评论 -
Python中的缺失值
在使用Pandas中的文件读取API读取Excel、CSV或TXT等文件时,我们可能需要对读取到的数据进行简单清洗。例如,将其中的表示空值的字符串替换为真正意义上的缺失值。实际上,Pandas读取API会自动将一些Python认识的表示空值的字符串解析为缺失值。那么,到底哪些字符串可以表示Python中的缺失值呢?都是文件中表示空值的字符串,我们使用。方法将它们替换为缺失值。替换,全大写和全小写的。感兴趣的同学快去试试吧。原创 2023-12-04 15:07:41 · 423 阅读 · 0 评论 -
Tableau:商业智能(BI)工具
Tableau成立于2003年,于2019年被Salesforce收购,是斯坦福大学一个计算机科学项目的成果,该项目旨在改善分析流程并让人们能够通过可视化更轻松地使用数据Tableau是一个可视化分析平台,它改变了我们使用数据解决问题的方式,使个人和组织能够充分利用自己的数据Tableau是分析领域值得信赖的领导者。作为现代商业智能的市场领先选择,Tableau平台以从几乎任何系统获取任何类型的数据,并将其快速轻松地转化为可操作的见解而闻名。就像拖放一样简单。原创 2023-10-11 18:03:41 · 2674 阅读 · 0 评论 -
Pandas指定多列组合形成新列
Pandas指定多列组合形成新列原创 2023-11-06 21:29:44 · 340 阅读 · 0 评论 -
如何提高Python图像表格数据提取的准确率?
经过灰度化与二值化处理的图像不但没有提高OCR识别的准确率,反而降低了OCR图像识别的准确率。通过结果我们发现,EasyOCR文本识别准确率还是可以的,只有很少部分的数字识别异常。最后,我们对灰度化与二值化后的图像分别进行了ORC识别,结果依然不尽人意。为了提高数字的识别准确率,接下来我们将尝试对图像做一些操作。这样的识别结果这里就不放了,感兴趣的同学可以自己去尝试!为此,我们选择使用OpenCV模块对图像进行简单处理。方法中的url换成basename即可,其他代码不动。后面,我们在处理时,只需要将。原创 2023-11-03 16:06:38 · 253 阅读 · 0 评论 -
Python如何爬取国家统计局教育部学生数据?
数据来源:国家统计局教育部文献教育统计数据2021年全国基本情况(各级各类学历教育学生情况)本次,我们爬取2021年教育统计数据全国基本情况各级各类学历教育学生情况数据。经过分析,我们发现,数据形式为HTML,数据主要嵌入在table标签中。剪切第二行列字段,覆盖到第一行,删除第二行空行,保存。新建空白Excel,数据->从文本/CSV导入。我们看到,最新的数据是到2021年。这样,也方便另存为Excel文件。选择不检测数据类型,点击加载。原创 2023-11-03 14:55:39 · 769 阅读 · 0 评论 -
Pandas多级索引数据处理及fillna()填充方式
函数可用于将Pandas数据帧(DataFrame)中的缺失值(NaN)用指定的值或方式进行填充。接下来,我们将以一个小实验的方式来具体说明fillna()填充方式如何使用,并且,在多级列索引的情况下如何使用。说明:fillna()的method参数和直接使用ffill()、bfill()效果一样,将来会被遗弃。将数据转换为三列:第一层列索引为一列,第二层列索引为一列,数据项为一列,最终结果数据(NaN)不能丢失。指定列向下填充(其它类似1.2)对整个df按列向下填充。对整个df按列向上填充。原创 2023-10-26 21:37:44 · 1881 阅读 · 0 评论 -
Python中的map()、apply()、applymap()的区别
在日常数据处理过程中,会经常遇到这样的情况,对一个DataFrame进行逐行/逐列、多行/多列或逐元素的操作,很多同学可能知道需要用到map()、apply()或者applymap(),但是不知道什么情况下用哪种方法。map()、apply()和applymap()方法是Python中常用的转换方法,输出的结果及类型完全取决于作为给定方法的参数的函数。是DataFrame/Series对象的方法,用于对df某一列(Series)/多列或某一行(Series)/多行中的每个元素执行函数。原创 2023-10-25 21:56:04 · 240 阅读 · 0 评论 -
Pandas索引loc[]与iloc[]的区别
在使用Pandas进行数据分析的时候,我们经常需要对DataFrame的行或列进行索引操作,以选择我们想要的行和列。的使用较像,容易混淆,接下来我们将以一个小实验的方式探讨。在行参数上都使用行索引,行索引从0开始。原创 2023-10-25 15:24:45 · 185 阅读 · 0 评论 -
SQL On Pandas最佳实践
Pandas在数据处理方面提供了几乎全部的类SQL查询操作API,例如代表SQL中的union合并去重。但PandasAPI不如直接的SQL简洁易读,例如,Pandas还无法替代的操作之一是非等连接(查询连接条件包含非等号,如大于号、小于号等),需要多步实现,这在SQL中非常简单,PandaSQL可以很好的解决这个问题PandaSQL是一个可以直接在Python中使用SQL语法查询Pandas数据框Dataframe的框架,PandaSQL底层调用PandasAPI。原创 2023-10-24 17:32:42 · 524 阅读 · 0 评论 -
Pandas多列排序与多列排名
pct:返回相对排名(每个值在数据中的位置的百分比),百分比表示每个元素在数据集中的相对位置,默认False。将每个人的积分、评分汇总,并按总积分排名,总积分一致时,按总评分排名,最终结果按排名升序。工作中,我们可能会遇到这样的需求:按汇总指标A排名,指标A值相同,则按指标B排名。上述方式可以实现按总积分进行排名,若总积分相同则按照总评分排名的需求(相当于实现了按总积分进行排序,若总积分相同则按照总评分排序的需求。:值相同时重复,总数不变,相当于Pandas的。:始终按顺序排序,相当于Pandas的。原创 2023-10-16 15:46:19 · 466 阅读 · 0 评论 -
Python数据透视表
之所以称为数据透视表,是因为可以动态地改变它们的版面布置,以便按照不同方式分析数据,也可以重新安排行号、列标和页字段。每一次改变版面布置时,数据透视表会立即按照新的布置重新计算数据。数据透视表(Pivot Table)是一种交互式的表,可以进行某些计算,如求和与计数等。通过商品ID和商品名称作为索引行,计算每个商品的销售额和销售量(默认计算均值)通过商品ID和商品名称作为索引行,计算每个商品的销售额和销售量(总和及均值)通过商品ID和商品名称作为索引行,计算每个商品的平均销售额和总销售量。原创 2023-10-03 23:26:50 · 476 阅读 · 0 评论 -
PyEcharts数据可视化
注意:render(path)在Python文件的同级目录下生成render.html文件,可以通过path参数指定HTML输出路径。ECharts是百度提供的基于JavaScript的开源可视化库,主要用于Web端数据可视化。Echarts是通过JS实现的,Pyecharts则可以使用Python来调用里面的API。Pyecharts支持词云,更贴心的是中文也完全没有问题,不会出现乱码。例如:将柱状图和折线图放在一起。原创 2023-09-25 22:34:50 · 1396 阅读 · 0 评论 -
Python数据分析之Excel
openpyxl是一个用于处理xlsx格式Excel表格文件的第三方python库,几乎支持Excel表格的所有操作Workbook:相当于一个Excel文档,每个Workbook对象都是一个独立的Excel文件Sheet:Excel文档中的表单,每个Excel文档中至少有一个SheetCell:Excel单元格,是不可分割的基本数据存储单元。原创 2023-09-19 23:00:57 · 717 阅读 · 0 评论 -
Python办公自动化之PDF(一)
Python操作PDF主要有两个库:PyPDF2和pdfplumberPyPDF2是一个用于处理PDF文件的Python第三方库pdfplumber是一个用于解析PDF文档的第三方库,可以解析、提取、转换PDF文档数据常用操作主要包括:拆分、合并、文字与表格提取、图片提取、添加水印、加密与解密等。原创 2023-09-18 22:25:07 · 770 阅读 · 0 评论 -
Python办公自动化之Word
python-docx模块是用于创建和处理Microsoft Word文档的一个Python第三方库,提供了全套的Word操作,是最常用的Word工具Document:Word文档对象,多个文档对象互相独立Paragraph:段落对象,一个Word文档由多个段落组成Run:节段对象,每个段落由多个节段组成from docx import Document # 用于创建文档from docx.shared import Inches, Cm, Pt # 单位。原创 2023-09-17 16:56:59 · 459 阅读 · 0 评论 -
Pandas时间序列与日期
使用注意:Pandas用NaT表示日期时间、时间差及时间段的空值,类似NaN。原创 2023-09-13 22:59:53 · 246 阅读 · 0 评论 -
Pandas多级/分层索引
取指定索引的所有列的值。取指定索引指定列的值。原创 2023-09-12 23:17:38 · 820 阅读 · 0 评论 -
Pandas复杂类型解析常见问题与解决
对于c1(复杂json样式的字符串),需要使用json模块进行格式转换。对于c1(对象列表样式的字符串),需要使用json模块进行格式转换。对于c1(json样式的字符串),需要使用json模块进行格式转换。解决:不要使用Excel打开CSV文件(会丢失精度)对于c1(列表样式的字符串),需要进行类型转换。对于c2(json对象),无需处理。(x.0)问题解决:将该列转换为。对于c2(字符串列表),无需处理。对于c2(对象列表),无需处理。列存在空值读取结果为。原创 2023-09-09 14:39:28 · 185 阅读 · 0 评论 -
Pandas常用文件操作API
SQLAlchemy模块提供了查询包装器的集合,以方便数据检索并减少对特定数据库API的依赖。Pandas库中的json_normalize()函数能够将字典或列表转换成表格,处理复杂结构的Json文件。Json是最常用的标准数据格式之一,特别是Web数据的传输,通常在使用这些数据之前,需要对数据格式进行处理。Json文件中的数据通常不是列表形式,因此,需要将字典结构的文件转成列表形式,这个过程就称为规范化。compression取值有:gzip、bz2、xz、zip、infer(默认使用推断)原创 2023-09-04 21:49:24 · 228 阅读 · 0 评论 -
Excel/CSV等格式数据入库(PostgreSQL、Oracle、MySQL)
检查源字段与目标字段是否对应,Excel中多余的字段如果数据库的表中没有,则不需要对应源字段,点击下一步。:先将数据保存为Excel或CSV格式,再使用Navicat进行导入,导入时可选增量或全量。从本地选择需要导入的Excel文件,选择Sheet表(这一步很重要),点击下一步。点击开始,执行导入,successfully表示导入成功,点击关闭。选择文件类型,本次操作选择Excel文件,其它类似,点击下一步。点击打开创建的表,查看插入的数据,点击导入,进入导入向导。检查源表与目标表是否正确,点击下一步。原创 2023-08-31 22:30:56 · 2334 阅读 · 0 评论 -
Pandas中的period_range()与date_range()区别
pd.date_range(sta, end, periods, freq):频率freq参数都支持,生成的是DatetimeIndex格式的日期序列。pd.period_range():部分频率freq参数不支持,生成的是PeriodIndex格式的日期序列。freq=QS:每个季度初,生成4个季度。freq=Q:每个季度末,生成4个季度。freq=D:每个日历日,生成12天。freq=B:每个工作日,生成12天。freq=YS:每个年初,生成4年。freq=Y:每个年末,生成4年。原创 2023-08-29 18:05:08 · 496 阅读 · 0 评论 -
JupyterLab入门
JupyterLab是Jupyter Notebook的全面升级,是一个集文本编辑器、终端以及各种个性化组件于一体的全能IDEJupyterLab支持更多数据格式的预览与修改,除了代码文件(.py、.cpp、.java等),还包括CSV、JSON、Markdown、PDF、PPT等JupyterLab是一个加强版的资源管理器和交互模式下的Python,能让我们可视化地进行一些数据操作JupyterLab的执行文件被称作notebook,它的后缀是.ipynb。原创 2023-08-27 18:24:49 · 4086 阅读 · 0 评论 -
Matplotlib数据可视化库
Matplotlib是Python中最流行的数据可视化库之一,提供了丰富的绘图功能。使用Matplotlib可以用来绘制各种静态、动态、交互式的图表,包括折线图、散点图、柱状图、饼图等。Matplotlib通常与NumPy和SciPy一起使用。原创 2023-08-23 22:34:36 · 304 阅读 · 0 评论 -
Python文件IO与异常处理
1)自定义异常:自定义异常类继承基类Exception或子类RuntimeError等# __init__构造方法用于接收一些参数来设置异常信息,例如错误码、错误消息等# 重写__str__方法用于返回异常的描述信息,相当于Java的toString()方法return f"原创 2023-08-19 16:32:58 · 318 阅读 · 0 评论 -
NumPy科学数学库
NumPy是Python中最常用的科学数学计算库之一,它提供了高效的多维数组对象以及对这些数组进行操作的函数NumPy的核心是ndarray(N-dimensional array)对象,它是一个用于存储同类型数据的多维数组Numpy通常与SciPy(Scientific Python)和 Matplotlib(绘图库)一起使用,用于替代MatLabSciPy是一个开源的Python算法库和数学工具包;Matplotlib是Python语言及其Numpy的可视化操作界面'''原创 2023-08-10 23:08:12 · 108 阅读 · 0 评论 -
Pandas数据分析库
Pandas是一个用于数据分析和处理的强大库,它基于NumPy构建,并提供了更高级的数据结构和分析工具。数据透视表(Pivot Table)是数据分析中常见的工具之一,根据一个或多个键值对数据进行聚合,根据列或行的分组键将数据划分到各个区域。在Pandas中,除了使用groupby对数据分组聚合实现透视功能外,还可以使用pivot_table函数实现。Pandas提供了多种方法来加载和处理数据,以便进行后续的分析和处理。使用DataFrame对象的plot()方法可以方便的进行图表可视化。原创 2023-08-06 18:54:43 · 548 阅读 · 0 评论