- 博客(2)
- 收藏
- 关注
原创 二、requests模块
urlib模块:比较古老,其封装的相关爬虫的操作是比较麻烦,复杂的requests模块:用法比较简洁并且很高效requests模块:python是原生的一款基于网络请求的模块,功能非常强大,简单便携,效率极高。作用:模拟浏览器发请求。如何使用:指定url基于requests模块发起请求获取响应对象中的数据值持久化存储环境安装:入手采集百度首页# 指定url# 发起请求# 获取请求 返回字符串# 持久化数据。
2022-12-08 22:04:10 338 2
原创 一、爬虫简介
爬虫是会干扰网站的正常运营爬虫不能抓取受到法律保护的特定类型的数据或信息如何避免?时常优化自己的程序,避免干扰网站正常允许在抓取敏感数据时,审查抓取的内容,如果发现了涉及到用户隐私的内容要停止爬取或传播爬虫再使用场景的分类:1、通用爬虫抓取系统重要的组成部分,抓取的是一整张页面数据2、聚焦爬虫是建立在通用爬虫的基础之上,抓取的页面中特定的局部内容3、增量式爬虫检测网站中数据更新的情况,只会抓取网站中最新更新出来的数据爬虫的矛与盾。
2022-12-08 17:34:50 189
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人