学习记录297@python全字符匹配

面对字符串匹配的问题,想出的标题,但是这个标题可能并不完全符合这个问题,因此还是主要以问题为准。

问题描述

元数据中有商品名称,我想要根据商品名称中内容的关键字找出专柜、部类、课室,当然是利用本身存在的可用数据。
在这里插入图片描述
在这里插入图片描述

解决思路

两个循环,外循环元数据的商品名称,内循环可用数据的专柜名,如果商品名称中包含专柜名,就匹配成功,然后就可以写入专柜、部类、课室了。
但是问题在于,因为有些字符串有包含关系,比如商品名为“PALLADIUM帕拉丁透气T恤字母印花短袖男夏季HOTSUMMER PDNE82508M”,专柜名有“PALLADIUM”,也有“UM”,那么匹配的时候肯定会出现问题,因为有可能匹配到UM,而不是PALLADIUM。
怎么解决呢?可能会想到所谓的全字符匹配,但是我不知道怎么办。于是想出了另外的方法:我可以在将可用数据按照专柜的字符串的长度从大到小排序,这样,匹配的时候就会优先匹配长的字符串,一旦匹配到,就结束内层循环,又开始外层循环,这样就间接的实现了“全字符匹配”,难点就在于如何实现按照专柜的字符串的长度从大到小排序而已,详见代码。

代码

import pandas as pd
import numpy as np

# 修改name的内容,新建的文件夹名字,也就是你导出的数据放的地方,其余部分不需要改变
# 如新建的文件夹名字为727-802,则name="727-802"
name="701-731"

data=pd.read_excel(r'Z:\会员管理课\❤各档期活动\有赞线上商城\\{}\\商品数据.xlsx'.format(name))

# 部类课室
data_bl=pd.read_excel('E:\\ywj严文杰备份\\带时间消费明细-持续更新\\20年消费明细.xlsx')
data_bl=data_bl.drop_duplicates(subset=['专柜'])

# 为了避免匹配包含的问题,如本来应该匹配到PALLADIUM,但是匹配到UM,先将数据按照专柜的字符串长度从长到短排序
# 这样就会先匹配到长的字符串
my_index1 = data_bl['专柜'].str.len().sort_values(ascending=False).index
data_bl=data_bl.reindex(my_index1)

# 特别注意:有可能部类分错,比如ISE,匹配到SHISEIDO资生堂,后续只有人工再去确认一遍;

i=0
for sp in data['商品名称']:
    for zg in data_bl['专柜']:
        if str(sp).lower().replace(" ","").replace("直播","").find(str(zg).lower().replace(" ",""))!=-1:
        # if re.search(zg, dp, re.IGNORECASE):
            data.loc[i,'专柜']=zg
            break
        else:
            continue
    i=i+1

data=pd.merge(data,data_bl.loc[:,['专柜','部类','课室']],how='left',on='专柜')

特别注意以下代码,实现按照字符串长度从大到小排序:
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值