自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(2)
  • 收藏
  • 关注

原创 二、requests模块

urlib模块:比较古老,其封装的相关爬虫的操作是比较麻烦,复杂的requests模块:用法比较简洁并且很高效requests模块:python是原生的一款基于网络请求的模块,功能非常强大,简单便携,效率极高。作用:模拟浏览器发请求。如何使用:指定url基于requests模块发起请求获取响应对象中的数据值持久化存储环境安装:入手采集百度首页# 指定url# 发起请求# 获取请求 返回字符串# 持久化数据。

2022-12-08 22:04:10 338 2

原创 一、爬虫简介

爬虫是会干扰网站的正常运营爬虫不能抓取受到法律保护的特定类型的数据或信息如何避免?时常优化自己的程序,避免干扰网站正常允许在抓取敏感数据时,审查抓取的内容,如果发现了涉及到用户隐私的内容要停止爬取或传播爬虫再使用场景的分类:1、通用爬虫抓取系统重要的组成部分,抓取的是一整张页面数据2、聚焦爬虫是建立在通用爬虫的基础之上,抓取的页面中特定的局部内容3、增量式爬虫检测网站中数据更新的情况,只会抓取网站中最新更新出来的数据爬虫的矛与盾。

2022-12-08 17:34:50 189

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除