weixin_58051802-CSDN博客

原创 cookie处理以及防盗链的处理

cookie处理网站为17k小说网的书架防盗链为梨视频登录 ——>得到cookie 带着cookie取请求到暑假url——>书架上的内容必须得把上面两个操作联系可以使用session进行请求——>session你可以认为是一连串的请求，在这个过程中的cookie不会丢失 ```python import requests # 1.登录 headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64;..

2021-06-05 21:09:39 173

原创 2021-05-21

xpath数据解析具体使用实例化一个etree对象，且需要将被解析的页面源码数据加载到该对象中调用etree对象中的xpath方法结合着xpath表达式实现标签的定位和内容的捕获如何实例化一个etree对象将本地的html文档中的源码数据加载到etree对象中： etree.parse(filePath) 可以将从互联网上获取的源码数据加载到该对象中 etree.HTML('page_text')

2021-05-21 19:01:21 43

原创 2021-05-20

bs4进行数据解析数据解析的原理标签定位提取标签，标签属性中存储的数据值 bs4数据解析的原理实例化一个BeautifulSoup对象，并且将页面源码数据加载到该对象中通过调用BeautifulSoup中对象中相关的属性或者方法进行标签定位和数据提取如何实例化BeautifulSoup对象: 提供的用于数据解析的方法和属性： soup.tagName：返回的是文档中第一次出现的tagNa

2021-05-20 21:52:13 47

原创 2021-05-19

match:从开头字符串匹配，不是起始位置则匹配返回none search:扫描整个字符串，无位置规定 re.match/search(pattern, string, flag=0) pattern # 匹配的正则表达式 string # 要匹配的字符串 flags # 标志位，用于控制正则表达式的匹配方式。检索和替换 re.sub(pattern, repl, string, count=0, flags=0) pattern: 正则中的模式字符串 ...

2021-05-19 22:36:33 45

原创 2021-05-17

聚焦爬虫：爬取指定的页面内容编码流程指定url 发起请求获取响应数据数据解析持久化存储数据解析分类：正则 bs4 xpath(***) 数据解析原理概述 ---------解析的局部的文本内容都会在标签之间或者标签对应的属性中进行存储进行指定的标签定位标签或者标签对应的属..

2021-05-17 18:21:18 41

原创 2021-05-17

2021-05-17 16:28:36 33

weixin_58051802的博客

原创 cookie处理以及防盗链的处理

原创 2021-05-21

原创 2021-05-20

原创 2021-05-19

原创 2021-05-17

原创 2021-05-17

空空如也

空空如也