面对字符串匹配的问题,想出的标题,但是这个标题可能并不完全符合这个问题,因此还是主要以问题为准。
问题描述
元数据中有商品名称,我想要根据商品名称中内容的关键字找出专柜、部类、课室,当然是利用本身存在的可用数据。
解决思路
两个循环,外循环元数据的商品名称,内循环可用数据的专柜名,如果商品名称中包含专柜名,就匹配成功,然后就可以写入专柜、部类、课室了。
但是问题在于,因为有些字符串有包含关系,比如商品名为“PALLADIUM帕拉丁透气T恤字母印花短袖男夏季HOTSUMMER PDNE82508M”,专柜名有“PALLADIUM”,也有“UM”,那么匹配的时候肯定会出现问题,因为有可能匹配到UM,而不是PALLADIUM。
怎么解决呢?可能会想到所谓的全字符匹配,但是我不知道怎么办。于是想出了另外的方法:我可以在将可用数据按照专柜的字符串的长度从大到小排序,这样,匹配的时候就会优先匹配长的字符串,一旦匹配到,就结束内层循环,又开始外层循环,这样就间接的实现了“全字符匹配”,难点就在于如何实现按照专柜的字符串的长度从大到小排序而已,详见代码。
代码
import pandas as pd
import numpy as np
# 修改name的内容,新建的文件夹名字,也就是你导出的数据放的地方,其余部分不需要改变
# 如新建的文件夹名字为727-802,则name="727-802"
name="701-731"
data=pd.read_excel(r'Z:\会员管理课\❤各档期活动\有赞线上商城\\{}\\商品数据.xlsx'.format(name))
# 部类课室
data_bl=pd.read_excel('E:\\ywj严文杰备份\\带时间消费明细-持续更新\\20年消费明细.xlsx')
data_bl=data_bl.drop_duplicates(subset=['专柜'])
# 为了避免匹配包含的问题,如本来应该匹配到PALLADIUM,但是匹配到UM,先将数据按照专柜的字符串长度从长到短排序
# 这样就会先匹配到长的字符串
my_index1 = data_bl['专柜'].str.len().sort_values(ascending=False).index
data_bl=data_bl.reindex(my_index1)
# 特别注意:有可能部类分错,比如ISE,匹配到SHISEIDO资生堂,后续只有人工再去确认一遍;
i=0
for sp in data['商品名称']:
for zg in data_bl['专柜']:
if str(sp).lower().replace(" ","").replace("直播","").find(str(zg).lower().replace(" ",""))!=-1:
# if re.search(zg, dp, re.IGNORECASE):
data.loc[i,'专柜']=zg
break
else:
continue
i=i+1
data=pd.merge(data,data_bl.loc[:,['专柜','部类','课室']],how='left',on='专柜')
特别注意以下代码,实现按照字符串长度从大到小排序: