scrapy爬虫提示 list index out of range

最新推荐文章于 2024-07-01 17:12:36 发布

weixin_45233045

最新推荐文章于 2024-07-01 17:12:36 发布

阅读量372

点赞数

文章标签： list 爬虫正则表达式

本文链接：https://blog.csdn.net/weixin_45233045/article/details/120382966

版权

#导入模块
from bs4 import BeautifulSoup#数据获取网页解析
import re #正则表达式文字匹配
import urllib.request,urllib.error#制定url获取指定数据
import xlwt#进行excel操作
import sqlite3#数据库包

def main():
    baseurl = "https://movie.douban.com/top250?start=0"
    datalist = getData(baseurl)#爬取网页
    savepath = ".\\豆瓣电影.xls"
    # askURL("https://movie.douban.com/top250?start=0")

#影片详情链接的规则
findLink = re.compile(r'<a href="(.*?)">')#创建正则对象表示规则
#影片图片链接
findImgs = re.compile(r'<img.*src="(.*?)"',re.S)
#影片片名链接
findTitle = re.compile(r'<span class="title">(.*)</span> ')
#影片评分
findRating = re.compile(r'<span class="rating_num" property="v:average">(.*)</span>')
#评价人数
findJudge = re.compile(r'<span>(\d*)人评价</span>')#\d数字等价于0-9
#找到概况
findInq = re.compile(r'<span class="inq">(.*)</span>&