学习记录297@python全字符匹配

最新推荐文章于 2023-06-29 16:28:12 发布

教练我想学编程

最新推荐文章于 2023-06-29 16:28:12 发布

阅读量356

点赞数

本文链接：https://blog.csdn.net/weixin_44663675/article/details/107745823

版权

面对字符串匹配的问题，想出的标题，但是这个标题可能并不完全符合这个问题，因此还是主要以问题为准。

问题描述

元数据中有商品名称，我想要根据商品名称中内容的关键字找出专柜、部类、课室，当然是利用本身存在的可用数据。
在这里插入图片描述

解决思路

两个循环，外循环元数据的商品名称，内循环可用数据的专柜名，如果商品名称中包含专柜名，就匹配成功，然后就可以写入专柜、部类、课室了。
但是问题在于，因为有些字符串有包含关系，比如商品名为“PALLADIUM帕拉丁透气T恤字母印花短袖男夏季HOTSUMMER PDNE82508M”，专柜名有“PALLADIUM”，也有“UM”，那么匹配的时候肯定会出现问题，因为有可能匹配到UM，而不是PALLADIUM。
怎么解决呢？可能会想到所谓的全字符匹配，但是我不知道怎么办。于是想出了另外的方法：我可以在将可用数据按照专柜的字符串的长度从大到小排序，这样，匹配的时候就会优先匹配长的字符串，一旦匹配到，就结束内层循环，又开始外层循环，这样就间接的实现了“全字符匹配”，难点就在于如何实现按照专柜的字符串的长度从大到小排序而已，详见代码。

代码

import pandas as pd
import numpy as np

# 修改name的内容，新建的文件夹名字，也就是你导出的数据放的地方，其余部分不需要改变
# 如新建的文件夹名字为727-802，则name="727-802"
name="701-731"

data=pd.read_excel(r'Z:\会员管理课\❤各档期活动\有赞线上商城\\{}\\商品数据.xlsx'.format(name))

# 部类课室
data_bl=pd.read_excel('E:\\ywj严文杰备份\\带时间消费明细-持续更新\\20年消费明细.xlsx')
data_bl=data_bl.drop_duplicates(subset=['专柜'])

# 为了避免匹配包含的问题，如本来应该匹配到PALLADIUM，但是匹配到UM，先将数据按照专柜的字符串长度从长到短排序
# 这样就会先匹配到长的字符串
my_index1 = data_bl['专柜'].str.len().sort_values(ascending=False).index
data_bl=data_bl.reindex(my_index1)

# 特别注意：有可能部类分错，比如ISE，匹配到SHISEIDO资生堂，后续只有人工再去确认一遍；

i=0
for sp in data['商品名称']:
    for zg in data_bl['专柜']:
        if str(sp).lower().replace(" ","").replace("直播","").find(str(zg).lower().replace(" ",""))!=-1:
        # if re.search(zg, dp, re.IGNORECASE):
            data.loc[i,'专柜']=zg
            break
        else:
            continue
    i=i+1

data=pd.merge(data,data_bl.loc[:,['专柜','部类','课室']],how='left',on='专柜')

特别注意以下代码，实现按照字符串长度从大到小排序：
在这里插入图片描述

教练我想学编程

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
学习记录297@python全字符匹配

面对字符串匹配的问题，想出的标题，但是这个标题可能并不完全符合这个问题，因此还是主要以问题为准。问题描述元数据中有商品名称，我想要根据商品名称中内容的关键字找出专柜、部类、课室，当然是利用本身存在的可用数据。解决思路两个循环，外循环元数据的商品名称，内循环可用数据的专柜名，如果商品名称中包含专柜名，就匹配成功，然后就可以写入专柜、部类、课室了。但是问题在于，因为有些字符串有包含关系，比如商品名为“PALLADIUM帕拉丁透气T恤字母印花短袖男夏季HOTSUMMER PDNE82508M”，专柜
复制链接

扫一扫