import requests //用于插入模块请求网页 import re //正则表达式,用于解析筛选网页中的信息 url = 'https://movie.douban.com/top250' //请求需要爬取的网址 dic = { 'User-Agent' //User-Agent相关信息版本等数据 } resp=requests.get(url,headers=dic) //请求网站 a = resp.text //存储文本格式 print(a) //打印文本格式 b = re.compile(r'<li>.*?<span class="title">(?P<name>.*?)</span>.*?<span class="rating_num" property="v:average">(?P<name2>.*?)</span>',re.S) //需要爬取的数据 c = b.finditer(a) //解析文本内容 with open ('1.text','w',encoding='utf-8')as f: for i in c: f.write(i.group('name')+'\n') f.write(i.group('name2') + '\n') //打印爬取的数据,以文本格式输出 resp.close() //结束爬取
python爬虫,爬取数据
于 2022-09-26 10:36:18 首次发布