python数据处理(正则以及列表生成式)

循环最好改成列表生成式

eg1:

lens = []
for snet in sents:
   lens.append(len(sent))

可替换为:
(循环放后面)

lens = [len(sent) for sent in sents]

eg2:

[(x, y) for x in range(1, 4) for y in range(2, 8)]

生成:
在这里插入图片描述

找到含有数字的的文本/找到含有某个词的文本

eg1:找到含有 公司 俩个字的文本

for sent in sents:
    if '公司' in sent:
       print(sent)

效果:
在这里插入图片描述
regex的一些相关用法:
regex = ‘公.’ 这里的.是一个通配符,指任意一个字符
regex = ’[百上]‘ , 指 匹配 百 或者 上
**regex = ‘[0-9]’ 匹配0到9
regex = ‘2[0-9]{3}’ 匹配2000-2999的年份,{3}指可以有3个0-9
**
regex = ‘[0-9]+’ +表示 前面这个[0-9]至少出现一次
re.findall(regex, sent) 把找到的(比如说0-9),以列表的形式返回。
效果:
在这里插入图片描述

eg2:找到含有阿拉伯数字的文本 (使用re包)

在eg1也可以用:

regex = '公司'
for sent in sents:
   if re.search(regex, sent) is not None:
      print(sent)
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值