#导入模块 from bs4 import BeautifulSoup#数据获取网页解析 import re #正则表达式文字匹配 import urllib.request,urllib.error#制定url获取指定数据 import xlwt#进行excel操作 import sqlite3#数据库包 def main(): baseurl = "https://movie.douban.com/top250?start=0" datalist = getData(baseurl)#爬取网页 savepath = ".\\豆瓣电影.xls" # askURL("https://movie.douban.com/top250?start=0") #影片详情链接的规则 findLink = re.compile(r'<a href="(.*?)">')#创建正则对象表示规则 #影片图片链接 findImgs = re.compile(r'<img.*src="(.*?)"',re.S) #影片片名链接 findTitle = re.compile(r'<span class="title">(.*)</span> ') #影片评分 findRating = re.compile(r'<span class="rating_num" property="v:average">(.*)</span>') #评价人数 findJudge = re.compile(r'<span>(\d*)人评价</span>')#\d数字等价于0-9 #找到概况 findInq = re.compile(r'<span class="inq">(.*)</span>&
scrapy爬虫提示 list index out of range
最新推荐文章于 2024-07-01 17:12:36 发布