爬取热搜排行榜数据(以微博为例)再保存数据库用的是selenium

最新推荐文章于 2023-12-07 10:03:57 发布

封妖师的徒弟

最新推荐文章于 2023-12-07 10:03:57 发布

阅读量923

点赞数 3

分类专栏：笔记爬虫文章标签：数据库 mysql pycharm

本文链接：https://blog.csdn.net/xy52wiue/article/details/112975149

版权

本文介绍如何使用selenium爬取微博热搜排行榜数据，并将其存储到数据库中。涉及第三方库安装、URL确定、请求发送、数据库连接及数据写入等步骤。

摘要由CSDN通过智能技术生成

爬取热搜排行榜数据(以微博为例)再保存数据库

[1] 下载好所需要的第三方库
[2] 先确定要爬取的url
[3] 开始我们的请求数据
[4] 确保数据库的正常连接输送
[5] 保存进自己的数据库
好了，大概就是以上五点。

第一点：第三方库的安装，

需要准备`
import requests

from selenium.webdriver import Chrome,ChromeOptions

import time
import pymysql
import traceback`
就上面的五个包就足够了。
可以看我的上一篇博客，有安装教程，这里我就不详细谢啦，附一下上篇连接https://blog.csdn.net/XY52wiue/article/details/112975003
下面开始我们的实际操作。

第二步，确定要爬取的url

url = https://s.weibo.com/top/summary

打开技术这个样子，当然你也可以换网站，其实都一样的啦。在这里插入图片描述

第三步，发送请求啦

先粘贴下代码吧各位，少安毋躁呀

def get_webhot():   #热搜函数
    url ="https://s.weibo.com/top/summary"  # 微博的地址

    res = requests.get(url)
    #这个就是再后台上面运行那个浏览器，不在表面上占用你的
    option = ChromeOptions()
    option.add_argument('--headless')