豆瓣电影top250信息爬取

最新推荐文章于 2024-06-24 19:59:02 发布

叮个零叮咚

最新推荐文章于 2024-06-24 19:59:02 发布

阅读量8.3k

点赞数 7

文章标签： python

本文链接：https://blog.csdn.net/weixin_44127168/article/details/107060676

版权

摘要

python的网络爬虫可以方便抓取网页的消息，本文以豆瓣网站为例，实现了python网络爬虫抓取豆瓣电影排行榜top250的过程，以及其中遇到的问题和解决过程。

1．引言

网络爬虫又称网络蜘蛛，或网络机器人。是一种按照一定的规则，自动的抓取万维网信息的程序或者脚本。网络爬虫通过网页的链接地址来查找网页内容，并直接返回给用户所需要的数据，不需要人工操纵浏览器获取。Python 是一个高层次的结合了解释性、编译性、互动性和面向对象的脚本语言，具有易于学习、易于维护等优点，其自带了urlib、urlib2等库满足了爬虫的基本使用，同时网络爬虫对于python的入门具有非常大的帮助。

2．系统结构

在这里插入图片描述
分别使用了Beautiful Soup模块以及csv模块
Beautiful Soup是python的一个库，最主要的功能是从网页抓取数据。Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱，通过解析文档为用户提供需要抓取的数据，Beautiful Soup自动将输入文档转换为Unicode编码，输出文档转换为utf-8编码。所以不需要考虑编码方式。
CSV模块之中实现了读写CSV格式文件的一些类，他可以让你的程序以一种更容易被Excel处理的格式来输出或者读入数据，而不必纠结于CSV文件的一些麻烦的小细节。而且CSV模块可以让你更自由的定制你想要的CSV格式文件。

3. 实现代码

数据的抓取

import requests
import tkinter
import unicodecsv as csv
from bs4 import BeautifulSoup
from tkinter import *

首先导入几个基本的库：
Request相对于urllib来说既能满足需求，而且更加方便，
Tkinter为之后的gui界面设计提供条件，
Csv模块能让结果输出成csv文件，方便数据的处理，
Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能，通过解析文档为用户提供需要抓取的数据。
在这里插入图片描述
打开网页豆瓣电影top250，f12进行观察分析。
网址为：https://movie.douban.com/top250?start=0&filter=

通过分析观察得知，每次点下一页，则start增加25，且start初始值为0。

start = 0

使变量start=0，表示从第一页开始。

result = []

其次定义存储结果的列表result

header={
   
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36'
}

f12，在Headers中找到User-Agent，代码中定义headers，模拟浏览器访问。

for i in range(0,10):
    #250部电影，一页25部
    html = requests.get('https://movie.douban.com/top250?start='+

最低0.47元/天解锁文章

叮个零叮咚

关注

7
点赞
踩
101

收藏

觉得还不错? 一键收藏
1
评论
豆瓣电影top250信息爬取

摘要python的网络爬虫可以方便抓取网页的消息，本文以豆瓣网站为例，实现了python网络爬虫抓取豆瓣电影排行榜top250的过程，以及其中遇到的问题和解决过程。1．引言网络爬虫又称网络蜘蛛，或网络机器人。是一种按照一定的规则，自动的抓取万维网信息的程序或者脚本。网络爬虫通过网页的链接地址来查找网页内容，并直接返回给用户所需要的数据，不需要人工操纵浏览器获取。Python 是一个高层次的结合了解释性、编译性、互动性和面向对象的脚本语言，具有易于学习、易于维护等优点，其自带了urlib、urlib2等
复制链接

扫一扫