python---爬虫

1. 基础讲解:

findall 匹配所有符合规律的内容。

Search提取第一个符合规律的内容。

Sub替换符合规律的内容,返回替换后的值。

. 代表匹配任意字符。

import re                 # re代表的是正则表达式的库


a = 'abcdefg'
b = re.findall('a.',a)  #输出ab


for each in b:
    print eachimport re                 # re代表的是正则表达式的库

a = 'xxy123xx465xx789xx'
b = re.findall('x..',a)  #输出xxy     xx4     xx7

for each in b:
    print each

*代表前一个字符0次或无限次。

import re                 # re代表的是正则表达式的库


a = 'abbcdefg'
b = re.findall('a.*',a)  #输出abbcdefg


for each in b:
    print eachimport re                 # re代表的是正则表达式的库


a = 'abcdefg'
b = re.findall('a.*',a)  #输出abcdefg


for each in b:
    print eachimport re                 # re代表的是正则表达式的库

a = 'xxy123xx465xx789xx'
b = re.findall('xx.*xx',a)  #xxy123xx465xx789xx

for each in b:
    print each


?前一个字符0次或一次。
2. 贪心算法:

xx.*xx:中间有多少输出多少。
import re                 # re代表的是正则表达式的库


a = 'xxy123xx465xx789xx'
b = re.findall('xx.*xx',a)  #xxy123xx465xx789xx


for each in b:
    print each




3. 非贪心算法:
(1)xx.*?xx:
import re                 # re代表的是正则表达式的库


a = 'xxy123xx465xx789xx'
b = re.findall('xx.*?xx',a)  #xxy123xx  xx789xx


for each in b:
    print each

 (2)xx(.*?)xx:
import re                 # re代表的是正则表达式的库


a = 'xxy123xx465xx789xx'
b = re.findall('xx(.*?)xx',a)  #y123    789


for each in b:
    print each










4. search和group函数组合:把每个元素分出来:
import re                 # re代表的是正则表达式的库


a = 'xxy123xx465xx789xx'
b = re.search('xx(.*?)xx(.*?)xx',a).group(1)
c = re.search('xx(.*?)xx(.*?)xx',a).group(2)


print b     #输出y123
print c     #输出465










5.sub函数的使用:替换掉相应内容:
import re                 # re代表的是正则表达式的库


a = 'xxy123xx'
b = re.sub('xx(.*?)xx','xx%dxx'%789,a)


print b     #输出xx789xx


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值