用正则表达式爬取猫眼电影top前十

最新推荐文章于 2024-03-02 13:03:54 发布

xuehan_126

最新推荐文章于 2024-03-02 13:03:54 发布

阅读量447

点赞数

本文链接：https://blog.csdn.net/xuehan_126/article/details/80889678

版权

import re
import requests

url = 'https://www.maoyan.com/board/4'
headers = {
'User-Agent': 'Mozilla/4.0(compatible;MSIE8.0;WindowsNT6.0;Trident/4.0)'
}

resp = requests.get(url, headers=headers)
if resp.status_code == 200:
 # print(resp.text)
 html = resp.text
 # pattern = re.compile('<a\shref="(.*?)">(.*?)</a>') # 获取a标签内的内容
 # pattern = re.compile('<i\sclass="board-index.*?">(.*?)') # 获得序列
 # pattern = re.compile('<img.*?class.*?src="(.*?)">') # 获取照片
 # pattern = re.compile('<a.*?boarditem-click.*?>(.*?)</a>') # 获得名字
 # pattern = re.compile('<p.*?releasetime.*?>(.*?)') # 获取上映时间
 pattern = re.compile('<p.*?star.*?>(.*?)') # 获取主演
 # pattern = re.compile('.*?integer.*?>(.*?)') # 获取评分的整数位
 # pattern = re.compile('.*?fraction.*?>(.*?)') # 获取评分的小数位
 items = re.findall(pattern, html)
 print(items)