Python旅途遇到游乐园——爬虫入门 ( 三 )

今天我们首先要接触名震四海的正则表达式

正则表达式
  • 通用的字符串表达框架
  • 简介表达一组字符串的表达式
  • 针对字符串表达 " 简洁 " 和 " 特征 " 思想的工具
  • 判断某字符串的特征归属
正则表达式在文本处理中的应用
  • 表达文本类型的特征(病毒,入侵等)
  • 同时查找或替换一组字符串
  • 匹配字符串的全部或部分
正则表达式的使用
  • 编译:将符合正则表达式语法的字符串转换成正则表达式特征
    在编译之前,正则表达式充其量只能算是一组符合正则表达式语法的字符
    只有在编译之后,才转换为正则表达式特征
正则表达式语法

正则表达式是由字符和操作符构成的
下面是正则表达式的常用操作符:

操作符说明实例
.表示任何单个字符
[ ]字符集,对单个字符给出取值范围[abc]表示a,b,c,[a-z]表示a到z单个字符
[^ ]非字符集,对单个字符给出排除范围[^abc]表示非a或b或c的单个字符
*前一个字符0次或无限次扩展abc*表示ab,abc,abcc,abccc等
+前一个字符1次或无限次扩展abc+表示abc,abcc,abccc等
?前一个字符0次或1次扩展abc表示ab,abc
|左右表达式任意一个abc|def表示abc,def
{m}扩展前一个字符m次ab{2}c表示abbc
{m,n}扩展前一个字符m至n次(含n次)ab{1,3}c表示abc,abbc,abbbc
^匹配字符串开头^abc表示abc且在一个字符串的开头
$匹配字符串结尾abc$表示abc且在一个字符串的结尾
()分组标记,内部只能使用|操作符(abc)表示abc,(abc|def)表示abc,def
\d数字,等价于[0-9]
\w单词字符,等价于[A-Za-z0-9_ ]
正则表达式语法实例
P(Y|YT|YTH|YTHON)?N
?表示()里的内容扩展0次或1,对应的字符串为:
'PN','PYN','PYTN','PYTHN','PYTHON'

PYTHON+
N扩展1次或无限次,对应的字符串为:
'PYTHON','PYTHONN','PYTHONNN'...

PY[TH]ON
[]对单个字符给出取值范围,对应的字符串为:
'PYTON','PYHON'

PY[^TH]?ON
[^]对单个字符给出排除范围,?表示前一个字符扩展0次或1,对应的字符串为:
'PYON','PYaON','PYbON','PYcON',...

PY{:3}N
对Y扩展03,对应的字符串为:
'PN','PYN','PYYN','PYYYN'
经典正则表达式实例
^[A-Za-z]+$               由26个字母组成的字符串,^和$约定开头和结尾必须是26个字母
^[A-Za-z0-9]+$            由26个字母和数字组成的字符串
^-?\d+$                   整数形式的字符串
^[0-9]*[1-9][0-9]*$       正整数形式的字符串
[1-9]\d{5}                中国境内邮政编码,6[\u4e00-\u9fa5]           匹配中文字符
\d{3}-\d{8}|\d{4}-\d{7}   国内电话号码
匹配IP地址的正则表达式

IP地址分为4段,每段分为是0~255

\d+.\d+.\d+.\d+
\d{1,3}.\d{1,3}.\d{1,3}.\d{1,3}

0-99: [1-9]?\d
100-199: 1\d{2}
200-249: 2[0-4]\d
250-255: 25[0-5]

(([1-9]?\d|1\d{2}|2[0-4]\d|25[0-5]).){3}([1-9]?\d|1\d{2}|2[0-4]\d|25[0-5])

Re库的基本使用

Re库,也叫正则表达式库
ta是Python的标准库,所以不需要专门安装了,感天动地!

import re

re库采用raw string类型(原生字符串类型)表示正则表达式,表示为:r'text'
例如:r'[1-9]\d{5}'r'\d{3}-\d{8}|\d{4}-\d{7}'
raw string是不包含转义符的字符串

函数说明
re.search()在一个字符串中搜索匹配正则表达式的第一个位置,返回match对象
re.match()从一个字符串的开始位置起匹配正则表达式,返回match对象
re.findall()搜索字符串,以列表类型返回全部能匹配的子串
re.split()将一个字符串按照正则表达式匹配结果进行分割,返回列表类型
re.finditer()搜索字符串,返回一个匹配结果的迭代类型,每个迭代元素是match对象
re.sub()在一个字符串中替换所有匹配正则表达式的子串,返回替换后的字符串

r e . s e a r c h ( ) re.search() re.search()

在一个字符串中搜索匹配正则表达式的第一个位置,返回match对象

re.search(pattern,string,flags=0)
  • pattern:正则表达式的字符串或原生字符串表达式
  • string:待匹配字符串
  • flags:正则表达式使用时的控制标记
常用标记说明
re.I re.IGNORECASE忽略正则表达式的大小写,[A-Z]能够匹配小写字符
re.M re.MULTILINE正则表达式中的^操作符能够将给定字符串的每行当作匹配开始
re.D re.DOTALL正则表达式中的.操作符能够匹配所有字符,默认匹配除换行外的所有字符
import re
match = re.search(r'[1-9]\d{5}','BIT 100081')
if match:
	print(match.group(0))
### Output
100081

r e . m a t c h ( ) re.match() re.match()

从一个字符串的开始位置起匹配正则表达式,返回match对象

re.match(pattern,string,flags=0)
  • pattern:正则表达式的字符串或原生字符串表达式
  • string:待匹配字符串
  • flags:正则表达式使用时的控制标记
import re

match = re.match(r'[1-9]\d{5}','BIT 100081')
>>> match.group(0)
Traceback (most recent call last):
  File "<pyshell#7>", line 1, in <module>
    match.group(0)
AttributeError: 'NoneType' object has no attribute 'group'

match = re.match(r'[1-9]\d{5}','100081 BIT')
>>> match.group(0)
'100081'

r e . f i n d a l l ( ) re.findall() re.findall()

搜索字符串,以列表类型返回全部能匹配的子串

re.findall(pattern,string,flags=0)
  • pattern:正则表达式的字符串或原生字符串表达式
  • string:待匹配字符串
  • flags:正则表达式使用时的控制标记
>>> re.findall(r'[1-9]\d{5}','BIT100081 TSU100084')
['100081', '100084']

r e . s p l i t ( ) re.split() re.split()

将一个字符串按照正则表达式匹配结果进行分割,返回列表类型

re.findall(pattern,string,maxsplit=0,flags=0)
  • pattern:正则表达式的字符串或原生字符串表达式
  • string:待匹配字符串
  • maxsplit:最大分割数,剩余部分作为最后一个元素输出
  • flags:正则表达式使用时的控制标记
>>> re.split(r'[1-9]\d{5}','BIT100081 TSU100084')
['BIT', ' TSU', '']
>>> re.split(r'[1-9]\d{5}','BIT100081 TSU100084',maxsplit=1)
['BIT', ' TSU100084']

r e . f i n d i t e r ( ) re.finditer() re.finditer()

搜索字符串,返回一个匹配结果的迭代类型,每个迭代元素是match对象

re.finditer(pattern,string,flags=0)
  • pattern:正则表达式的字符串或原生字符串表达式
  • string:待匹配字符串
  • flags:正则表达式使用时的控制标记
import re
for m in re.finditer(r'[1-9]\d{5}','BIT100081 TSU100084'):
	if m:
		print(m.group(0))
### Output	
100081
100084

r e . s u b ( ) re.sub() re.sub()

在一个字符串中替换所有匹配正则表达式的子串,返回替换后的字符串

re.sub(pattern,repl,string,count=0,flags=0)
  • pattern:正则表达式的字符串或原生字符串表达式
  • repl:替换匹配字符串的字符串
  • string:待匹配字符串
  • count:匹配的最大替换次数
  • flags:正则表达式使用时的控制标记
>>> re.sub(r'[1-9]\d{5}',':zipcode','BIT100081 TSU100084')
'BIT:zipcode TSU:zipcode'

Re库的match对象

Re库的函数中,search,match和finditer返回的是match对象

match对象的属性:

属性说明
.string待匹配的文本
.re匹配时使用的pattern对象(正则表达式)
.pos正则表达式搜索文本的开始位置
.endpos正则表达式搜索文本的结束位置

match对象的方法:

方法说明
.group(0)获得匹配后的字符串
.start()匹配字符串在原始字符串的开始位置
.end()匹配字符串在原始字符串的结束位置
.span()返回(.start(),.end())

Re库的贪心匹配和最小匹配

Re库默认采用贪婪匹配,即输出匹配最长的字符串

>>> match = re.search(r'PY.*N','PYANBNCNDN')
>>> match.group(0)
'PYANBNCNDN'

如果我们想要得到最小匹配,只要添加一个 问号 即可

当Python的Re库要进行贪婪匹配的时候,你只需要缓缓地打出一个问号/滑稽

>>> match = re.search(r'PY.*?N','PYANBNCNDN')
>>> match.group(0)
'PYAN'
操作符说明
*?前一个字符0次或无限次扩展,最小匹配
+?前一个字符1次或无限次扩展,最小匹配
??前一个字符0次或1次扩展,最小匹配
{m,n}?扩展前一个字符m至n次(含n),最小匹配
import re
m = re.search(r'[1-9]\d{5}','BIT100081 TSU100084')

>>> m.string
'BIT100081 TSU100084'
>>> m.re
re.compile('[1-9]\\d{5}')
>>> m.pos
0
>>> m.endpos
19
>>> m.group(0)
'100081'
>>> m.start()
3
>>> m.end()
9
>>> m.span()
(3, 9)

实例一:淘宝商品信息定向爬虫

功能描述

目标:获取淘宝搜索页面的信息,提取其中的商品名称和价格
理解:

  • 淘宝的搜索接口
  • 翻页的处理

但是我们在查看了淘宝的robots协议后,发现实际上淘宝是不允许随便爬取信息的
然而考虑到我们的爬虫甚至比手动还要废一点,偶尔为之是没有太大关系的(雷区舞王!!!)

程序的结构设计

步骤一:提交商品搜索请求,循环获取页面
步骤二:对于每个页面,提取商品名称和价格信息
步骤三:将信息输出到屏幕上

下面给出不完整代码,而且据说现在的淘宝是彻底不能爬了QwQ,大家重在领会精神吧~

import requests
import re

def getHTMLText(url):
    try:
        r = requests.get(url)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return ""
 
def parsePage(ilt,html):
    try:
        plt = re.findall(r'\"view_price\"\:\"[\d\.]*\"',html)
        tlt = re.findall(r'\"raw_title\"\:\".*?\"',html)
        for i in range(len(plt)):
            price = eval(plt[i].split(':')[1])
            title = eval(tlt[i].split(':')[1])
            ilt.append([price,title])
    except:
        return ""

def printGoodsList(ilt):
    tplt = "{:4}\t{:8}\t{:16}"
    print(tplt.format('序号','价格','商品名称'))
    count = 0
    for g in ilt:
        count = count + 1
        print(tplt.format(count,g[0],g[1]))

def main():
    goods = ''  # 商品名称
    depth = 3
    start_url = 'https://s.taobao.com/search?q=' + goods
    infoList = []
    for i in range(depth):
        try:
            url = start_url + '&s=' + str(44*i)  # 翻页
            html = getHTMLText(url)
            parsePage(infoList,html)
        except:
            continue
    printGoodsList(infoList)

main()

实例二:股票数据定向爬虫

功能描述

目标:获取上交所和深交所所有股票的名称和交易信息
输出:保存到文件中

候选数据网站的选择

选取原则:股票信息静态存在于HTML页面中,非js代码生成,没有Robots协议限制
选取方法:浏览器F12,源代码查看等
选取心态:不要纠结于某个网站,多找信息源尝试

程序的结构设计

步骤一:从东方财富网获取股票列表
步骤二:根据股票列表逐个到百度股票获取个股信息
步骤三:将结果存储到文件

下面给出丑陋的代码(不能保证现在这些网站还能爬),重在领会精神~

import requests
from bs4 import BeautifulSoup
import traceback
import re

def getHTMLText(url,code='urf-8'):
    try:
        r = requests.get(url)
        r.raise_for_status()
        r.encoding = code
        # 小优化
        return r.text
    except:
        return ""

def getStockList(lst,stockURL):
    html = getHTMLText(stockURL,'GB2312')
    # 小优化
    soup = BeautifulSoup(html,'html.parser')
    a = soup.find_all('a')
    for i in a:
        try:
            href = i.attrs['href']
            lst.append(re.findall(r'[s][hz]\d{6}',href)[0])
        except:
            continue

def getStockInfo(lst,stockURL,fpath):
    count = 0
    for stock in lst:
        url = stockURL + stock + '.html'
        html = getHTMLText(url)
        try:
            if html == "":
                continue
            infoDict = {}
            soup = BeautifulSoup(html,'html.parser')
            stockInfo = soup.find('div',attrs={'class':'stock-bets'})

            name = stockInfo.find_all(attrs={'class':'bets-name'})[0]
            infoDict.update({'股票名称':name.text.split()[0]})

            keyList = stockInfo.find_all('dt')
            valueList = stockInfo.find_all('dd')
            for i in range(len(keyList)):
                key = keyList[i].text
                val = valueList[i].text
                infoDict[key] = val

            with open(fpath,'a',encoding='utf-8') as f:
                f.write(str(infoDict) + '\n')
                
                count = count + 1
                print('\r当前速度: {:.2f}%'.format(count*100/len(lst)),end='')
                # 小优化             
        except:
            count = count + 1
            print('\r当前速度: {:.2f}%'.format(count*100/len(lst)),end='')
            # 小优化
            continue

def main():
    stock_list_url = 'http://quote.eastmoney.com/stocklist.html'
    stock_info_url = 'https://gupiao.baidu.com/stock/'
    output_file = 'D://StockInfo.txt'
    slist = []
    getStockList(slist,stock_list_url)
    getStockInfo(slist,stock_info_url,output_file)

main()

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值