艺赛旗(RPA)【SAP】四种方式筛选特别总帐标志既含A又含空的科目

本文介绍了在RPA流程中如何处理SAP数据,通过四种方法筛选出既有A又有空单元格的科目。分别展示了针对xlsx、mhtml、htm格式文件的解析技巧,并通过Python的pandas与BeautifulSoup库进行操作。最后进行了速度对比,建议对html格式数据使用BeautifulSoup处理。
摘要由CSDN通过智能技术生成

艺赛旗 RPA8.0全新首发免费下载 点击下载
http://www.i-search.com.cn/index.html?from=line1

在进行月末客户清账的流程设计时,其中一个步骤是导出电子表格或者网页并从中筛选数据。

页面如下:
在这里插入图片描述

另外,如果是网页格式的文件,用浏览器打开可能是这样的(后缀名为mhtml):
在这里插入图片描述

也可能是这样的(后缀名为htm):
在这里插入图片描述

对于红框中的每一个单元格,我们需要判断其中的值,如果红框(上一个黄色行与下一个黄色行中间的那些行)中既有A又有空单元格(比如第一个红框中最后一项是空单元格,前面都是A),那么我们就取箭头指向的科目,如果红框中全是A或者全是空则排除那个科目(比如第二个红框中全是A,就排除箭头所指的科目)

思路
首先读取“凭证编号”这一列中的空值,获取所有黄色行所在的索引。然后依次遍历黄色行中间的每一块白色行,将“特别总帐标志”中的每一个值放入集合中,对于每一块白色行都判断一下集合的长度,如果为2则说明那个科目是我们需要的。

方法一(针对导出的是xlsx格式)
import pandas as pd

def parse_excel(path):
df = pd.read_excel(path)
index = df[df[df.columns[3]].isnull()].index[:-1].tolist()
subjects = []
try:
set_index = set()
for x in range(index[0]):
set_index.add(str(df[df.columns[6]].ix[x]))
if

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值