爬取新浪微博热搜排行

最新推荐文章于 2021-10-03 17:19:12 发布

「已注销」

最新推荐文章于 2021-10-03 17:19:12 发布

阅读量736

点赞数

分类专栏：爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_46984154/article/details/112777367

版权

爬取新浪微博热搜排行

1.1 爬虫基本原理解析

什么是爬虫
- 通过编写程序模拟浏览器上网在互联网抓取数据的过程
分类
- 通用爬虫
  - 搜索引擎用的爬虫系统
  - 尽可能把互联网的所有网页下载放到本地服务器形成备份在对这些网页做相关处理（提取关键字去掉广告）每隔一段时间重新获取
  - 举例
    - 百度搜索博为峰 --百度快照–访问的是百度服务器的缓存数据 –
    - 好处 – 如果网页被封掉了百度快照 – 服务器有可能会有备份（不能爬图片只能是文本 /文字相关的）
- 聚焦爬虫
  - 爬虫程序员写的针对某种内容爬虫面向需求
  - （这节课的新浪微博就是聚焦爬虫）
爬虫价值
- 获取数据
- 对于软件测试来讲
  - 获取有效数据为测试提供便捷（排行–获取数据–和数据库数据进行对比）
  - 提高编程技能
- 如何爬虫
  - 模拟浏览器发送请求
  - 对数据进行解析

1.2 网页源码获取及转换

环境配置类库安装
- python
- pip install requests
对获取数据进行解析
- etree
- pip install lxml
- lxml
  - 是一个python 的第三方模块主要功能是如何解析和提取 HTML/xml
  - 可以结合xpath语法进行快速定位特定元素以及节点信息
- 请求技术点
  - 如何发送请求
  - 获取响应数据（文本）
  - 伪造请求头
  - 将响应文本信息转化成xpath结构
```
from lxml import etree
import requests
# 伪装请求头
headers = {
     "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.141 Safari/537.36"}
res = requests.get("https://s.weibo.com/top/summary?Refer=top_hot&topnav=1&wvr=6"
```

最低0.47元/天解锁文章

「已注销」

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
爬取新浪微博热搜排行

爬取新浪微博热搜排行1.1 爬虫基本原理解析什么是爬虫通过编写程序模拟浏览器上网在互联网抓取数据的过程分类通用爬虫搜索引擎用的爬虫系统尽可能把互联网的所有网页下载放到本地服务器形成备份在对这些网页做相关处理（提取关键字去掉广告）每隔一段时间重新获取举例百度搜索博为峰 --百度快照–访问的是百度服务器的缓存数据 –好处 – 如果网页被封掉了百度快照 – 服务器有可能会有备份（不能爬图片只能是文本 /文字相关的）聚焦爬虫爬虫程序员写的针对某
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。