循环最好改成列表生成式
eg1:
lens = []
for snet in sents:
lens.append(len(sent))
可替换为:
(循环放后面)
lens = [len(sent) for sent in sents]
eg2:
[(x, y) for x in range(1, 4) for y in range(2, 8)]
生成:
找到含有数字的的文本/找到含有某个词的文本
eg1:找到含有 公司 俩个字的文本
for sent in sents:
if '公司' in sent:
print(sent)
效果:
regex的一些相关用法:
regex = ‘公.’ 这里的.是一个通配符,指任意一个字符
regex = ’[百上]‘ , 指 匹配 百 或者 上
**regex = ‘[0-9]’ 匹配0到9
regex = ‘2[0-9]{3}’ 匹配2000-2999的年份,{3}指可以有3个0-9
**
regex = ‘[0-9]+’ +表示 前面这个[0-9]至少出现一次
re.findall(regex, sent) 把找到的(比如说0-9),以列表的形式返回。
效果:
eg2:找到含有阿拉伯数字的文本 (使用re包)
在eg1也可以用:
regex = '公司'
for sent in sents:
if re.search(regex, sent) is not None:
print(sent)