自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(26)
  • 收藏
  • 关注

原创 python数据相关性绘图-散点图正态分布图回归图等及鸢尾花数据集可视化(附Python代码)

数据分析的应用中离不开对数据的相关性分析,并且需要把这些相关性进行可视化(绘图),以方便人们对各种特征属性之间呈现出来的相关性有更直接、清晰的感知和理解,提升数据的价值和数据挖掘的效益。............

2022-07-21 23:23:42 12039 2

原创 Python 修改筛选数据的4种方法及函数where()、replace()的用法介绍(附Python代码)

原始数据的整理和清洁过程中,经常遇到对符合一点条件的数据进行更新,如欢迎使用Markdown编辑器你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章,了解一下Markdown的基本语法知识。新的改变我们对Markdown编辑器进行了一些功能拓展与语法支持,除了标准的Markdown编辑器功能,我们增加了如下几点新功能,帮助你用它写博客:全新的界面设计 ,将会带来全新的写作体验;在创作中心设置你喜爱的代码高亮样式,

2022-05-29 01:42:25 8931 2

原创 Python日期时间差的计算(天/小时/分钟)及timedelta函数的使用(附python代码)

背景描述数据分析中会遇到日期、时间的计算,主要包括以下几种情况:对2个日期进行时间差值的计算,如多少天(days)、多少小时(hours)、多少分钟(minutes)和多少秒(seconds)对已知日期进行转换,如增加或减少:如多少天(days)、多少小时(hours)、多少分钟(minutes)和多少秒(seconds)提取日期中的年份、月份和日子等信息本文主要针对问题1和问题2,关于问题3,请查看博文:“python提取年月日遇到的问题”(链接:添加链接描述)问题解决方法:对2个日

2022-05-14 15:17:37 83467 2

原创 Tesseract OCR图片提取中文并转换为Excel的示例(附Python代码)

1、背景描述:日常工作会遇到这样的问题,工作群中收到以截图方式转发的表格或文字信息,需要将其中大量的数据、文字等信息从图片中摘取下来,并以Excel表格的方式进行存储和统计处理。2、流程简述:1. 识别图片中的信息(文字和数据)应用pytesseract识别图片中的文字(英文、中文)和数据并转换为字符串2. 按需求提取关键信息应用正则表达式提取有用的关键信息(文字和数据):如日期、地点、电话号码、数量等3. 整理为数据表格(DataFrame),并保存至Excel表格中整理提取的信息,合并为

2022-04-16 10:17:38 6754 4

原创 Python自动化应用案例:一键生成工厂物料采购订单(精益办公案例之三)

本文描述一个Excel办公自动化的实践示例:模拟生产企业在获取客户订单后,根据相关的数据和信息,通过编程的方式(Python语言),快速建立采购订单的过程。这种精益办公的方式将大幅精简在实际工作中的数据重复输入、计算与信息沟通,改善企业信息流的效率,提升多部门统筹计算的效率和准确性。(本示例可适合普通的中小型企业的应用,即没有使用ERP或SAP系统的企业)

2022-02-06 15:28:21 4243

原创 Python Numpy快速创建包含初始值的N维数组的函数介绍及用法汇总(附python代码)

1. 快速创建包含初始值的N维数组的函数小结:arange() – 创建指定数值范围的一维数组,需要指定起始值、终止值和步长,在创建的数组中不包含终止值linspace() – 与arange()函数类似,同样需要指定起始值、终止值和步长,但是在创建的数组中包含终止值logspace() – 与linspace()函数类似,不过logspace()函数是用于创建等比数列,其中起始值与终止值均为10的幂zeros() – 创建元素均为“0”的数组;常用参数:shape - 用于指定数组的形状;dt

2021-12-19 19:10:59 2884

原创 python dataframe日期运算常见的报错及解决方法 - unsupported operand type(s) for -: ‘DatetimeArray‘ and ‘str‘等

1、背景描述:(日期加减计算经常遇到的报错)数据分析中要对日期进行计算,经常遇到这些报错或问题:TypeError: cannot subtract DatetimeArray from ndarrayTypeError: unsupported operand type(s) for -: ‘DatetimeArray’ and ‘datetime.date’TypeError: unsupported operand type(s) for -: ‘DatetimeArray’ and ‘s

2021-10-31 12:34:04 25495 2

原创 Python dataframe 多条件筛选/过滤数据的方法及函数isin,query,contains,loc的使用介绍

1. 背景概述日常的数据分析中,经常遇到需要根据各种不同的条件从数据集中筛选相应的数据记录,再进行提取、分析、替换、修改等操作。因此,筛选是数据分析中使用频率很高的功能。一般而言,通常是使用for循环在数据中进行筛选,本文总结了在python中常用的并且使用效率比较高的几种数据筛选函数如:isin(), query(), contrains(),以及它们的实践示例。2. 筛选方法和函数简介简单的筛选方法:单一的筛选条件或值df.loc[df[“column_name”] == value]复

2021-10-03 13:43:11 120174 17

原创 python 数据合并函数 merge, concat, append的使用方法比较小结

概述数据分析中经常会遇到数据合并的基本问题:1. 数据或表格的上下连接;2. 数据或表格的左右连接。根据上述问题,本文总结了python中的表格合并函数的基本用法和使用效果:merge : 主要用于表格的左右连接concat : 既能用于表格的上下连接,也能用于表格的左右连接,主要取决于参数axis的设定append: 只能用于表格的上下连接数据准备和说明示例代码:# 1.建立数据表import numpy as npimport pandas as pddf1 = pd.Data

2021-09-25 23:06:49 6096

原创 python 将多个表格和绘图自动写入Excel中的实践案例

背景描述:实施步骤:示例代码:1. 建立数据# 1. 建立3张的数据表格:df1 = pd.DataFrame({"id": ["001", "002", "003", "004"], "name": ["Alice", "Bruce", "Cook", "Daisy"]})df2 = pd.DataFrame({"id": ["10", "20"], "name":["Alen", "Jason"]})

2021-09-20 16:33:12 1926

原创 python pandas 统计特征函数的汇总与用法 -- 累计计算函数与滚动计算函数

python pandas 的拓展统计特征函数汇总:累积计算函数(cum系列函数)滚动计算函数(pd.rolling_系列函数)1. 累积计算统计特征函数1.1累计函数的种类:cumsum(): 依次计算前1, 2, …, n 个数的和cumprod(): 依次计算前1, 2, …, n 个数的乘积cummax(): 依次找到前1, 2, …, n 个数的最大值cummin(): 依次找到前1, 2, …, n 个数的最小值1.2 基本使用方法:import numpy as n

2021-05-05 16:08:53 3993 3

原创 python常用random随机函数汇总,用法详解及函数之间的区别--一图了解python随机函数

python中常用的随机函数的用法汇总分类以及相似函数之间的区别1. 常用的随机函数总结介绍random.random(): 返回随机生成的一个浮点数,范围在[0,1)之间random.uniform(a, b): 返回随机生成的一个浮点数,范围在[a, b)之间np.random.rand(d0, d1, …, dn): 返回一个或一组浮点数,范围在[0, 1)之间np.random.normal(loc=a, scale=b, size=()): 返回满足条件为均值=a, 标准差=b的正态

2021-03-27 18:18:03 10515 13

原创 python pandas常用统计函数总结 -- 以及与groupby, pivot_table, describe, crossTab等方法结合使用的比较

python pandas中聚合函数的应用小结1、常用的统计值相对应的python函数平均数:np.mean()总和:np.sum()最大值:np.max()最小值:np.min()方差:np.var()标准差:np.std()频次(计数): np.count()中位数:np.median()协方差: np.cov(x, y)四分位数:describe() – 显示25%, 50%, 75%位置上的数据2、基本使用方法 – NumPy包计算3、数据表中的应用 – groupby

2021-03-27 12:00:21 4956 14

原创 python pivot_table功能详解与应用 -- 实现Excel的透视表功能

1. 背景描述Excel中有pivot table(透视表)对数据进行快速分类统计,python中也有类似的方法,就是pivot_table函数。2. 数据准备和任务要求3. 方法步骤结束语

2021-03-21 12:50:29 8070 16

原创 python提取年月日遇到的问题:‘Series‘ object has no attribute ‘month‘ 和 ‘str‘ object has no attribute ‘month‘报错

数据分析中经常要对日期特征进行拆分,提取年份、月份和日期等信息。过程中遇到这样的报错:AttributeError: ‘Series’ object has no attribute ‘month’AttributeError: ‘str’ object has no attribute ‘month’问题分析一:数据的格式不对使用datetime模块在dataframe表格中提取日期中的月份信息,需要使用map()/apply() 函数来实现(df[“month”] = df[“date”].

2021-03-13 12:57:07 30351 10

原创 Excel 数据的统计分析及绘图自动处理的python示例(精益办公实战2)

Excel数据统计分析及画图的自动处理python示例(精益办公实战2)1、背景描述:“看数不如看表,看表不如看图”2、数据准备和任务要求:** 数据准备**一份已经经过数据清洗的数据,无缺失值和重复值。这份数据中涵括3种产品,随机收集的“蛋白质”和“固形物”的数据记录** 任务要求 **对数据集进行统计分析,通过图表来展示特征数据之间的关系,对数据进行挖掘以寻找有效的数据价值,并且结果需要以Excel文件的形式保存,以方便企业其他人员的查阅和使用。3、方法步骤:3.1 导入数据3.2

2021-02-20 23:01:44 2807 7

原创 Excel数据合并到统计分析自动处理的python示例(精益办公实战1)

使用Excel快速完成数据合并到基础统计分析的自动处理的实例分享(python代码)社会的发展不断深化了经济对科技和数字化的依赖,企业将不得不面对越来越多,甚至是海量的数据和信息,而Excel(或类似软件WPS)是当前绝大多数企业首选的办公软件,如何节约人工又能快速应用Excel处理分析数据,获取对业务有价值有影响的结果,是很多企业在提升竞争力(精益办公室)和数据价值所面临的关键问题。本文借用工业制造的案例,完整陈述从合并多个数据记录表到完成基本的分类和基础统计分析的自动处理过程。其中的关键代码和方式,可

2021-02-14 09:49:11 1971 2

原创 Excel:快速合并多张表格或多个文件(工作簿)的数据(附Python代码)

Excel:快速合并多张表格或多个文件(工作簿)的数据(附Python代码)现实工作中经常遇到将零散的原始数据合并统计的工作要求,如月度统计或年度统计等。原始数据的收集大多是按时间(如日期或小时)进行获取记录的,即每1天或1个时间段就会产生1张Excel的数据表格,当要进行月度或年度数据分析时,传统方法就需要花费不少的时间进行原始数据的合并,俗称“copy_paste"操作。下面的方法是应用Python完成来快速合并多张表格的数据 – "一键成型“,大大提高办公室的工作效率:流程分析:收集数据源文件

2021-01-30 01:33:06 3714 2

原创 plot()函数连点成曲线举例--信息熵曲线的实现(python代码)

plot()函数连点成曲线举例–信息熵曲线的实现(python代码)机器学习中经常需要使用plot()函数来可视化数据的状态,"连点成线"能更生动地体现数据与函数曲线,或回归曲线之间的关系。以下代码是用于信息熵曲线的实现展示。# 信息熵曲线import numpy as npimport matplotlib as mplimport matplotlib.pyplot as pltmpl.rcParams["font.family"] = "SimHei"p = np.linspace(

2020-12-14 00:07:18 1604

原创 数组过滤在机器学习中的应用

数组过滤在机器学习中的应用举例(python代码)机器学习过程中,计算误差(矩阵)时经常会遇到要在矩阵中进行标签值与预测值之间的比较,可以使用数据过滤方法来解决:error = mat(ones((5, 1)))print("比较之前:\n", error.T)label = mat(([1, -1, 1, -1, 1])).Tpred = mat(([1, -1, -1, 1, 1])).Terror[pred == label] = 0 # 如果预测值与标签值一致时,误差为0值p

2020-12-13 23:41:37 185

原创 sns.barplot()函数:根据特征重要程度进行排序并输出(可用于帕拉图的建立)

sns.barplot():根据特征重要程度进行排序并输出机器学习中经常会用到图形进行可视化,如在网格搜索(GridSearch)后对特征的重要性进行排序时,用到sns.barplot()函数按照重要程度输出特征。这种方法也能用于生产帕拉图。sns.barplot()函数中能用于分类输出和排序的参数了解:order, hue_order:字符串列表,可选项根据参数定义的类别和级别画图...

2020-04-09 16:18:35 16261 1

原创 tensorflow Error: No module named 'tensorflow.examples.tutorials'的解决

ModuleNotFoundError: No module named 'tensorflow.examples.tutorials’的解决:tensorflow_gpu下提取mnist数据集遇到的问题:检查tensorflow的版本:import tensorflow as tfprint("tf的版本:", tf.__version__)结果:tf的版本: 2.0.0(之前用...

2020-04-02 18:51:02 768

原创 Pytorch:invalid index of a 0-dim tensor.Use tensor.item() to convert a 0-dim tensor to a Python的解决方法

IndexError: invalid index of a 0-dim tensor.Use tensor.item() to convert a 0-dim tensor to a Python number在学习“白话强化学习PyTorch”时遇到的错误(原代码如下):运行时系统报错:解决方法:将"loss.data[0]" 更改为"loss.data",问题就解决了!这样程序...

2020-01-17 18:26:27 2131

原创 根据数据等级选择图形进行数据可视化及计算操作(附python代码)

特征工程:特征的理解 - 数据等级与应用(附python代码)

2019-12-22 20:32:57 1081

原创 数据清洗:缺失值和异常值的处理方法 -- 回归方程充填缺失值的操作(附python代码)

应用线性回归方程预测并充填缺失值(附python代码)背景描述:应用场景:解题思路:示例代码:附上数据集和源码

2019-12-18 19:14:16 20250 10

原创 特征工程:数据清洗的基础操作(附python代码)

@[TOC]数据清洗方法及步骤数据清洗的目标 – 通过数据清洗和特征增强等操作优化和提升模型性能真实世界中的数据状态可谓是千奇百怪,数据集会因为各种原因发生缺失、错误和重复等问题。数据清洗(Data Cleasing), 就是根据实际情况,通过一系列的数据“清理”步骤,以合适建模的格式输出清洗好的数据。数据清洗的基本步骤:识别并处理缺失值识别并处理异常数据删除重复值1. 识别并处...

2019-12-14 14:40:06 1098 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除