爬取豆瓣电影信息-基于BeautifulSoup，存储于excel

VIP文章 Aki酱Q

已于 2022-02-04 11:27:14 修改

阅读量686

点赞数 1

于 2021-12-29 16:58:48 首次发布

本文链接：https://blog.csdn.net/weixin_52722482/article/details/122219954

版权

#   -*- codeing = utf-8 -*-
#   @Time : 2021/12/26 15点41分
#   @Author ：   AKI
#   @File   ：Aki.py
#   @Software：PyCharm
import re  # 正则表达式，进行文字匹配
import urllib.error  # 制定url，获取网页数据
import urllib.request

import xlwt  # 进行excel操作
from bs4 import BeautifulSoup  # 网页解析，获取数据
def main():
    baseurl = "https://movie.douban.com/top250?start="
   #1.爬取网页
    datalist = getData(baseurl)
    savepath = "豆瓣电影Top250.xls"
   #3.保存数据
    saveData(datalist, savepath)
    #askURL("https://movie.douban.com/top250?start=")


findlink = re.compile(r'<a href="(.*?)">')#影片详情链接
findImgSrc = re.compile(r'<img.*src="(.*?)"',re.S)#让换行符包含在字符中 #影片图片链接
findtitle = re.compile(r'<span class="title">(.*)</span>')#影片片名
findRating = re.compile(r'<span class="rating_nu

最低0.47元/天解锁文章

优惠劵

Aki酱Q

关注关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
爬取豆瓣电影信息-基于BeautifulSoup，存储于excel

# -*- codeing = utf-8 -*-# @Time : 2021/12/26 15点41分# @Author ： AKI# @File ：Aki.py# @Software：PyCharmimport re # 正则表达式，进行文字匹配import urllib.error # 制定url，获取网页数据import urllib.requestimport xlwt # 进行excel操作from bs4 import Beautiful.
复制链接

扫一扫