# -*- codeing = utf-8 -*-
# @Time : 2021/12/26 15点41分
# @Author : AKI
# @File :Aki.py
# @Software:PyCharm
import re # 正则表达式,进行文字匹配
import urllib.error # 制定url,获取网页数据
import urllib.request
import xlwt # 进行excel操作
from bs4 import BeautifulSoup # 网页解析,获取数据
def main():
baseurl = "https://movie.douban.com/top250?start="
#1.爬取网页
datalist = getData(baseurl)
savepath = "豆瓣电影Top250.xls"
#3.保存数据
saveData(datalist, savepath)
#askURL("https://movie.douban.com/top250?start=")
findlink = re.compile(r'<a href="(.*?)">')#影片详情链接
findImgSrc = re.compile(r'<img.*src="(.*?)"',re.S)#让换行符包含在字符中 #影片图片链接
findtitle = re.compile(r'<span class="title">(.*)</span>')#影片片名
findRating = re.compile(r'<span class="rating_nu
爬取豆瓣电影信息-基于BeautifulSoup,存储于excel
于 2021-12-29 16:58:48 首次发布