python文本清洗


```python
# 文本处理
string_data =data_all['hitRules'].to_string(index=False) #转化成字符串格式且 index=False删掉索引
# 删除空格
import re
text  = string_data
words = re.findall(r'\S+', text)
# 转化成dataframe
df = pd.DataFrame(words,columns=['rule'])
# 特殊符号如[],逗号,-,都要加转义符\
df['rule'] = df['rule'].replace([' ', '\[', '\]','\,','\-','\''], '', regex=True)
# \d是一个正则表达式,用于匹配任何数字。r'\d'则表示原始字符串中的\d,这是因为我们需要转义反斜杠。所以,这个代码将会把每一行中的所有数字替换为空格。
df = df.apply(lambda row: row.str.replace(r'\d', '')) 

# #===================================================
df_word = df['rule'].to_string(index=False)
df_word_words = re.findall(r'\w+', df_word)
df_word_words
df2 = pd.DataFrame(df_word_words,columns=['rule'])
df2['order'] = 1
pd.DataFrame(df2.groupby(by = ['rule'])['order'].sum()).sort_values(by=['order'],ascending=False,inplace=False)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值