python爬虫案例之动态加载数据（一），爬取豆瓣案例

最新推荐文章于 2022-05-16 16:03:31 发布

thereisnospoon.

最新推荐文章于 2022-05-16 16:03:31 发布

阅读量997

点赞数 2

分类专栏： python爬虫

本文链接：https://blog.csdn.net/weixin_45580742/article/details/103062901

版权

python爬虫专栏收录该内容

4 篇文章 2 订阅

订阅专栏

目标网站：https://movie.douban.com/typerank?type_name=%E5%96%9C%E5%89%A7&type=24&interval_id=100:90&action=

当鼠标滚轮向下滑动的时候，发现网页内容是自己加载出来的
在这里插入图片描述
每加载一页就会有一个链接跳出来，那这个链接有没有包含我们想要抓取的内容呢，来到response发现json字符串，将json格式化的到这样一个列表。

说明这就是我们像要爬取的内容，接着分析该请求

start表示从第几个开始，limit表示显示多少条数据，每页出现的电影个数与其值有关，将其当作请求时的参数

代码如下

import requests
import pymysql

url = 'https://movie.douban.com/j/chart/top_list?type=11&interval_id=100%3A90&action='
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.120 Safari/537.36'}
movie_num = input('搜索电影数量：')
params = {
    'type': '11',
    'interval_id': '100:90',
    'action': '',
    'start': '0',
    'limit': movie_num
}
response = requests.get(url, params=params, headers=headers).json()
# f = open('movie.txt', 'w', encoding='utf-8')
conn = pymysql.connect(host='127.0.0.1', user='root', password='123', database='python_data')
cur = conn.cursor()
for movie in response:
    movie_name = movie['title']
    movie_score = movie['score']
    sql = 'insert into movies value (%s,%s)'
    cur.execute(sql, (movie_name, movie_score))
    conn.commit()
conn.close()
#     f.write(movie_name + ':' + movie_score + '\n')
# f.close()

thereisnospoon.

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
python爬虫案例之动态加载数据（一），爬取豆瓣案例

目标网站：https://movie.douban.com/typerank?type_name=%E5%96%9C%E5%89%A7&type=24&interval_id=100:90&action=当鼠标滚轮向下滑动的时候，发现网页内容是自己加载出来的每加载一页就会有一个链接跳出来，那这个链接有没有包含我们想要抓取的内容呢，来到response发现json字符串...
复制链接

扫一扫

专栏目录