爬虫界的启蒙老师，python超爽爬取豆瓣并用Flask、Echarts、词云展示入门案例分享

最新推荐文章于 2024-04-08 11:40:10 发布

VIP文章万师兄

最新推荐文章于 2024-04-08 11:40:10 发布

阅读量556

点赞数

文章标签： python 爬虫

本文链接：https://blog.csdn.net/weixin_55643951/article/details/117399043

版权

爬虫，就是授权的或公开数据的自动采集。百度，就是一只爬虫，一条百足之虫。学会爬虫，会让你以为自己离超越百度指日可待。人有多大胆，地有多大产，梦想还是要有的，万一实现了呢。人不怕有梦想，就怕不知道，不敢想。
大数据这么火，核心是各种应用场景的开发，基础还是数据采集，比如天眼查APP，其实就是一条爬虫，爬取各种数据然后整合应用。
想学爬虫，不得不提的一个神奇网站，他是每一个爬虫小白的启蒙老师，每一个懵懂少年都是从这里开始了对互联网各个未知领域的探索，通过这位启蒙老师，初尝乐趣，欲罢不能，熟悉并掌握了各项技能，并沉迷其中，难以自拔，一发不可收拾。这位老师，善解人意，来者不拒，对各处来爬取数据的小虫子十分友善，没什么反爬机制，让爬虫小白初尝白嫖乐趣，体验异常畅快。
铺垫是不是有点过分了？好了，这个网站就是——豆瓣。
今天就对豆瓣电影Top250相关信息的爬取过程、数据分析、展示应用进行无私分享，具体会涉及到beautifulsoup模块、SQLite数据库、Flask后端框架、echarts前端模块、wordcloud词云模块。

一、爬虫数据采集

简单爬虫基本就三个步骤搞定：
第一步：发送请求。自动采集要构造好url地址。
第二步：解析数据。获得请求的响应后对网页进行解析，提取想要的数据。
第三步：保存和展示。将提取的数据保存到excel或者数据库，再通过GUI或者网站进行展示。
在这里插入图片描述

具体来说，先分析我们要爬取的目标网站：https://movie.douban.com/top250，分析目标数据所在的位置。我么要提取电影的详情链接、名称、主演、评分、评价人数、简介，这些数据基本都在当前页面下，不需要再进入电影的详情页进行提取。然后分析页面规律，Top250页面每页只包含25部电影，也就是说要自动爬取10页，点击后页，发现每个页码地址是按规律递增的，就是在https://movie.douban.com/top250?start=i（i是页数）。找到页面后就是想办法解析页面，获取我们想要的信息。具体如下：
1.发送请求：

request = urllib.request.Request(url, headers=headers)
    try:
        response = urllib.request.urlopen(request)
        html = response.read(

最低0.47元/天解锁文章

万师兄

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
爬虫界的启蒙老师，python超爽爬取豆瓣并用Flask、Echarts、词云展示入门案例分享

爬虫，就是授权的或公开数据的自动采集。百度，就是一只爬虫，一条百足之虫。学会爬虫，会让你以为自己离超越百度指日可待。人有多大胆，地有多大产，梦想还是要有的，万一实现了呢。人不怕有梦想，就怕不知道，不敢想。大数据这么火，核心是各种应用场景的开发，基础还是数据采集，比如天眼查APP，其实就是一条爬虫，爬取各种数据然后整合应用。想学爬虫，不得不提的一个神奇网站，他是每一个爬虫小白的启蒙老师，每一个懵懂少年都是从这里开始了对互联网各个未知领域的探索，通过这位启蒙老师，初尝乐趣，欲罢不能，熟悉并掌握了各项技能，并
复制链接

扫一扫