自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 cookie处理以及防盗链的处理

cookie处理网站为17k小说网的书架 防盗链为梨视频 登录 ——>得到cookie 带着cookie取请求到暑假url——>书架上的内容 必须得把上面两个操作联系 可以使用session进行请求——>session你可以认为是一连串的请求,在这个过程中的cookie不会丢失 ```python import requests # 1.登录 headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64;..

2021-06-05 21:09:39 173

原创 2021-05-21

xpath数据解析 具体使用 实例化一个etree对象,且需要将被解析的页面源码数据加载到该对象中 调用etree对象中的xpath方法结合着xpath表达式实现标签的定位和内容的捕获 如何实例化一个etree对象 将本地的html文档中的源码数据加载到etree对象中: etree.parse(filePath) 可以将从互联网上获取的源码数据加载到该对象中 etree.HTML('page_text')

2021-05-21 19:01:21 43

原创 2021-05-20

bs4进行数据解析 数据解析的原理 标签定位 提取标签,标签属性中存储的数据值 bs4数据解析的原理 实例化一个BeautifulSoup对象,并且将页面源码数据加载到该对象中 通过调用BeautifulSoup中对象中相关的属性或者方法进行标签定位和数据提取 如何实例化BeautifulSoup对象: 提供的用于数据解析的方法和属性: soup.tagName:返回的是文档中第一次出现的tagNa

2021-05-20 21:52:13 47

原创 2021-05-19

match:从开头字符串匹配,不是起始位置则匹配返回none search:扫描整个字符串,无位置规定 re.match/search(pattern, string, flag=0) pattern # 匹配的正则表达式 string # 要匹配的字符串 flags # 标志位,用于控制正则表达式的匹配方式。 检索和替换 re.sub(pattern, repl, string, count=0, flags=0) pattern: 正则中的模式字符串 ...

2021-05-19 22:36:33 45

原创 2021-05-17

聚焦爬虫:爬取指定的页面内容 编码流程 指定url 发起请求 获取响应数据 数据解析 持久化存储 数据解析分类: 正则 bs4 xpath(***) 数据解析原理概述 ---------解析的局部的文本内容都会在标签之间或者标签对应的属性中进行存储 进行指定的标签定位 标签或者标签对应的属..

2021-05-17 18:21:18 41

原创 2021-05-17

2021-05-17 16:28:36 33

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除