用Python爬取豆瓣1~10页内容_如何爬取前10页数据-CSDN博客

本文链接：https://blog.csdn.net/weixin_55863908/article/details/115665460

用Python爬取豆瓣1~10页内容

建立excel并存入爬取的数据的函数
def cun(a,f,c,d):
    import pandas as pd	#存入excel需用到的函数库
    #表格路径
    io = r"D:\Python\ee.xlsx"	#excel路径
    df = pd.DataFrame({'电影': a,'导演': f,'公布时间':c,'评分':d})
    #将数据写入表格
    df.to_excel(io, sheet_name="工资表")  #可覆盖之前保存的数据
    print("完成")
#拿到页面源代码 需要用requests
#通过re来提取想要的有效信息  re
import requests
import re

#定义4个空列表
list1=[]
list2=[]
list3=[]
list4=[]

#定义变量
a=0 

#
def html(i):

	#拿到网页链接
    url = "https://movie.douban.com/top250?start="+str(i)+"&filter="

	#打印1~10的网页链接
    print(url)

    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.87 Safari/537.36 SLBrowser/6.0.1.3091"}
    a = requests.get(url, headers=headers)
    
    # 拿到页面源代码
    p = a.text  

	# 查找网页相关的数据
    obj = re.compile(
        r'<li>.*?<div class="item">.*?<span class="title">(?P<name>.*?)</span>.*?<p class="">(?P<daoyang>.*?)&nbsp.*?<br>(?P<year>.*?)&nbsp.*?'
        r'<span class="rating_num" property="v:average">(?P<pingfen>.*?)</span>', re.S)
        
      #定义result为全局变量
    global result	

	#解析相关网页数据
    result = obj.finditer(p)

#爬取1~10网页内容	
for x in range(10):	
    html(a)					#函数
    a=a+25				
    for it in result:
        list1.append(it.group("name"))	#拿到网页解析之后自己需要的结果
       
        list2.append(it.group("daoyang").strip())	#拿到网页解析之后自己需要的结果
       
        list3.append(it.group("year").strip())#拿到网页解析之后自己需要的结果
        list4.append(it.group("pingfen"))#拿到网页解析之后自己需要的结果
  print(a)
cun(list1,list2,list3,list4)#执行所有程序