Python豆瓣网Top250

最新推荐文章于 2024-07-08 00:01:13 发布

Yesir_C

最新推荐文章于 2024-07-08 00:01:13 发布

阅读量74

点赞数

分类专栏：爬虫 Python 文章标签： python 爬虫

本文链接：https://blog.csdn.net/y2629924166/article/details/120699606

版权

Python 同时被 2 个专栏收录

15 篇文章 0 订阅

订阅专栏

爬虫

14 篇文章 0 订阅

订阅专栏

代码

import requests
from bs4 import BeautifulSoup
import csv
start=25
Movie_url = []
Movie_name = []
top=[]
head=["电影名","链接"]
headers={
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.71 Safari/537.36"
                      }
def init(n):
    global Movie_url
    global Movie_name
    Movie_url.clear()
    Movie_name.clear()
    url=f"https://movie.douban.com/top250?start={25*n}&filter="
    page=requests.get(url=url,headers=headers)
    soup=BeautifulSoup(page.text,'lxml')
    moive_url=soup.select(".pic>a")
    moive_name=soup.select(".pic>a>img")
    for i in moive_url:
        Movie_url.append(i['href'])
    for i in moive_name:
        Movie_name.append(i['alt'])
    for i in range(25):
        top.append([Movie_name[i],Movie_url[i]])
if __name__=="__main__":
    # init(0)
    # print(Movie_url)
    # print(Movie_name)
    # # print(Movie_url)
    #csv文件保存
    with open("Top250.csv", 'w', newline='') as f:
        writer=csv.writer(f)
        writer.writerow(head)
        for i in range(10):
            init(i)
        for i in range(25*10):
            writer.writerows([top[i]])
            print(f"爬取{top[i][0]}成功")

效果图

在这里插入图片描述

Yesir_C

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Python豆瓣网Top250

代码import requestsfrom bs4 import BeautifulSoupimport csvstart=25Movie_url = []Movie_name = []top=[]head=["电影名","链接"]headers={ "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.
复制链接

扫一扫