mark一下在做Python自动化数据处理脚本期间遇到的问题和解决办法

概述

作为数据分析师新加入这个团队,了解到平时大家每天做数据统计的时候都是从系统中导出数据进行手动计算,而且由于计算规则比较复杂,非常容易出错,于是领导安排我来优化一下这个工作,给大家做一些数据统计分析的模板。

V1:Excel版本

分析经验

考虑到数据分析模板是给别人用的,就需要尽量把计算的模块完全公式化,我分析了一下数据,有这么几个需要注意的点:
1.系统导出的数据中日期和其他数据是字符串格式的,用text函数进行数据格式的转换,不要给使用模板的人带来分列操作的成本;
2.数据透视表自动刷新失败的概率很高,pivot的东西尽量用公式手写,否则需要经常帮同事查看数据问题出在哪里了;
3.给所有的计算结果前面都加iferror,把造成错误的原因标注出来了,以免同事不明所以。

遇到的问题和解决办法

ifs族函数如果定义的是一个单元格而不是数值则需要加&进行连接以区别文本和单元格
○ 如“>2”是可以的,但是“>B2"则会把B2认定为一个文本而不是单元格文本,正确的书写方式应该是">"&B2
○ 是否成功引用到单元格位置可以在输入完公式后看单元格是否被标出亮色,如果没有则说明被识别为了文本
Counta VS count
○ count函数只统计数值型的,会把文本跳过,counta统计非空格单元格(此处“非空”可以是数字、文字、错误值等)的个数
○ 函数在计数的时候会把NA()和空文本"“都统计进去,count函数会跳过,使用的时候要注意
if函数
○ If函数判断条件如果遇到#DIV0!会报错#DIV0!
○ if函数遇到空文本”“的时候会出现识别错误,原因不明(应返回0实际返回了1)
○ 把#DIV0!用IFERROR改成返回NA()之后问题解决了
AVERAGE忽略空值
○ AVERAGEIF(区域,”<>#N/A")
LOOKUP函数做多区间匹配
○ 必须升序
○ 区间是左开右闭
提取一天最早的和最晚的时间
○ =MIN(IF((姓名=姓名)(日期=日期)时间区域>0,时间区域,9^9))
○ 三键数组结束,注意区域只能定义固定范围不能定义整列
○ =MAX((姓名=姓名)
(日期=日期)
(时间区域))

Python版本

初衷

其实一开始做的Excel版本相对比较完美了,计算、出图,自定义周期计算、数据探索等功能一应俱全,但是问题在于数据量实在是太大了,Excel实在是扛不住。没办法,只好另辟蹊径,启用Python,从API接口直接取数进行计算。之前用Python基本停留在sklearn计算器的阶段(偶尔需要做些方差分析啥的Excel不容易搞的时候才用Python搞一下)所以对我来说挑战还是非常大的。
虽然不是什么复杂的大项目,但是对我而言这是一个从零到1的经验,鬼知道我在中间踩了多少坑,遇到过多少次各种各样的问题,其中很多问题现在自己都不记得了。有的时候遇到曾经解决了的问题但是想不起来上次是咋解决的了,所以还是很有必要及时总结一下的。

conda install 报错网络无法连接

这个属于公司特色性的问题了,总之使用官方源和清华镜像都不可以。
从网页访问清华镜像和官方源都没有问题,但是conda install的时候就会出现网络错误。在大佬的建议下尝试了一下在cmd中执行“ping +网址”,发现是不可以的,所以基本上把问题锁定在了公司网关和电脑防火墙的问题上【不过事实上切换到外网并且关闭电脑防火墙也不行,到底是为啥其实还没想明白,但是总之是可以了】
解决方案:从PIPY上下载包到放到anaconda的pkg文件夹下,然后在anaconda prompt 中执行pip install + 包的完整路径,比如这样:

pip install D:\software\Anaconda\setup\pkgs\dash-1.12.0.tar.gz

需要注意的是必须是pip install ,一定一定不能是conda install
后来和开发的小哥们交流过之后(毕竟人家更专业),又有了新的解决方案,用公司内网的镜像地址,果然这种问题如果有前辈带就会好很多。

pip install dash --指定的地址

启动巨慢的问题

anaconda启动实在是太慢了,而且在启动的时候一不小心就会导致电脑卡死。因为平时主要用jupyter notebook ,所以把jupyter notebook在桌面上建立了快捷方式,基本秒开。

更改jupyter notebook的启动位置

jupyter notebook默认的启动位置在C盘,也就是说写的代码也会存在C盘里,对于我一个入职没几天就电脑重新装了系统的人来说,C盘里真的是坚决不想放任何东西。百度了一下,这个问题还是很简单的。
右键——属性,把起始位置处修改为想改的路径就可以了。
注意一定要先点应用再点确定,一开始尝试了好几次没生效就是因为没点应用就直接点了确定所以未生效。

报错的语句实际没有错

在执行的时候报错某一行有语法错误,但是反复查这一句都没错误。
后来折腾了一天终于发现了,有错的其实不是报了错的这句,是这句前面的几句里面多写了一个括号。
所以以后发现的问题应该去查一下前面的语句不能只检查这一句。

json数据解析

一开始捣鼓了半天也没能成功地把json数据转成我想要的那种格式。后来发现pandas有一个read_json的功能,可以直接把json转化成数据框,非常好使。不过有一个小问题,似乎read_json需要从文件读取不能直接把接口读回来的json转成dataframe,于是我加了一步暂存。用json库的jspn.dump把接口读回来的json暂存在一个tmp.json的文件中,这样就可以使用read_json了。

数据未正常输出

测试的时候一直是有数据的情况,merge的时候没有声明how,默认的是类似于sql里的full join,是正常执行的。
在操作真实数据的时候发现会有空值的情况,导致最终输出结果的时候没有数据输出。
解决方法,在merge函数里添加how=‘outer’即可。
设计自动化数据处理小脚本的时候务必要注意数据为空的这种情况。

class调用错误

因为计算逻辑比较复杂,所以我把计算部分封装了一个class,看教程的时候觉得面向对象对编程定义class啥的挺简单的,实际用的时候才发现这都啥啥啥哪跟哪,完全摸不着头脑好不好。
主要是自己把自己绕进了沟里,道理没想明白,想明白了以后就还挺简单的。
class中不同的def之间需要来回传递的参数就需要加self一下,如果是class之外的定义的函数就算在class中进行了各种骚操作也不需要再self了。

测试没毛病,正式一跑就崩溃

接口一开始拿到的是测试环境的接口,试了没问题之后切换到正式环境之后开始各种报错。
仔细看一下,是自己写代码的时候对情况考虑不足,没有考虑如下情况:
1.接口请求直接报错了
2.接口没报错,但是读回来的数据是空的
3.接口读到了数据,但是都不符合计算逻辑的筛选规则(逻辑:未走完全流程的数据不参与计算)
以后设计这种自动化处理的东西要考虑全面了,不能想当然的顺序执行。

未解决的问题

抄送人未收到邮件的问题

不管是独立运行还是封装运行,抄送人都未接到邮件。
程序没有报错,我的发件箱显示有抄送,其他收件人也显示有抄送。

收件人姓名乱码的问题

情况如图,独立执行的时候收件人是正常显示的,自动化运行的时候将独立执行的代码封装了class,执行后出现这个问题
在这里插入图片描述

总结

虽然磕磕绊绊但总算是搞出来了,中间遇到了各种各样的问题,采用了各种各样奇奇怪怪的解决办法,想也知道中间绕了不少弯路。总结几个经验:
1.单纯学课程没有实战经验不太行,实际的问题比课程案例复杂多了
2.官方文档要多看(所以说英语还是很重要的),比如版本不一样,某些函数就不能用了(之前参考蓝鲸的书,但是实战的时候报错了,原来pandas最新的版本已经没有这个函数了)
3.基础知识要扎实,虽然做分析的不是专业码农,但有的时候会被这些东西卡半天(比如在封装类的时候,我以为我懂了,但是实际上并不明白)
4.打死也不能在原始数据上做操作,一定要重命名一个,否则变更计算逻辑的时候得重写(中途计算逻辑改过好多次,导致我重写了)
5.注意空值!注意空值!注意空值!(PS:有的时候查看数据类型为非空但是实际上是没有东西的,比如readjson的时候空值会被赋值一个NaN,给你一个没有空值的错觉,计算的时候就SB了)

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
好的,我会尽力回答你的问题。 首先,需要了解什么是 pytest 和 Page Object 模式。 pytest 是一个基于 Python 的测试框架,它支持参数化测试、测试固件、插件化等功能,可以帮助我们编写高效、可维护的测试脚本。 Page Object 模式是一种设计模式,它将页面的操作和页面元素的定位分离开来,使得测试脚本更加简洁、易于维护。 接下来,我们可以按照以下步骤来编写完整的自动化测试框架: 1. 安装 pytest 和 selenium 库 使用以下命令安装: ``` pip install pytest selenium ``` 2. 创建测试用例 在项目中创建一个 test 目录,然后在该目录下创建一个 test_example.py 文件,编写测试用例。 例如: ```python import pytest from pages.login_page import LoginPage @pytest.mark.usefixtures("setup") class TestLogin: def test_valid_login(self): login_page = LoginPage(self.driver) login_page.login("username", "password") assert "Welcome" in login_page.get_title() def test_invalid_login(self): login_page = LoginPage(self.driver) login_page.login("invalid_username", "invalid_password") assert "Invalid username or password" in login_page.get_error_message() ``` 在上面的示例中,我们使用了 pytest 的装饰器 @pytest.mark.usefixtures("setup"),它用于指定测试用例执行前的前置条件。 我们还使用了 Page Object 模式,将登录页面的操作封装在了 LoginPage 类中。 3. 创建页面对象 在项目中创建一个 pages 目录,然后在该目录下创建一个 login_page.py 文件,编写 LoginPage 类。 例如: ```python from selenium.webdriver.common.by import By class LoginPage: def __init__(self, driver): self.driver = driver self.username_input = (By.ID, "username") self.password_input = (By.ID, "password") self.login_button = (By.ID, "login_button") self.error_message = (By.ID, "error_message") def login(self, username, password): self.driver.find_element(*self.username_input).send_keys(username) self.driver.find_element(*self.password_input).send_keys(password) self.driver.find_element(*self.login_button).click() def get_title(self): return self.driver.title def get_error_message(self): return self.driver.find_element(*self.error_message).text ``` 在上面的示例中,我们使用了 Selenium 的 By 模块来定位页面元素,将页面元素的定位与操作分离开来,使得测试脚本更加简洁、易于维护。 4. 创建 conftest.py 文件 在项目根目录下创建一个 conftest.py 文件,用于定义测试固件。 例如: ```python import pytest from selenium import webdriver @pytest.fixture(scope="session") def setup(request): driver = webdriver.Chrome() driver.maximize_window() request.cls.driver = driver yield driver.quit() ``` 在上面的示例中,我们使用了 pytest 的装饰器 @pytest.fixture,它用于定义测试固件。在该示例中,我们定义了一个名为 setup 的测试固件,它会在测试用例执行前启动 Chrome 浏览器,并将 driver 对象传递给测试用例。 5. 运行测试用例 在项目根目录下打开终端,运行以下命令: ``` pytest test/ ``` 其中,test/ 表示测试用例所在的目录。 完成上述步骤后,我们就可以编写一个完整的自动化测试框架了。当然,这只是一个简单的示例,实际应用中还需要考虑更多的因素,比如测试报告生成、异常处理、数据驱动等。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值