python爬虫随记

最新推荐文章于 2021-03-25 23:51:45 发布

李朋辉

最新推荐文章于 2021-03-25 23:51:45 发布

阅读量191

点赞数

本文链接：https://blog.csdn.net/weixin_43685378/article/details/103245221

版权

提取大的条目：//li[contains(@class," j_thread_list clearfix")]

python安装路径：C:\Users\17809\AppData\Local\Programs\Python\Python36

selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题

越过反爬用requests.post请求，把模仿的ajax请求传过去，跟get用法一样

用xpath需要用etree.HTML对response.text进行处理，正则不用

类型是字符串的用re正则表达式，是json的可以直接按字典或列表处理

split分割字符串，分割后的是一个列表

由于requests模块是一个不完全模拟浏览器行为的模块，只能爬取到网页的HTML文档信息，
无法解析和执行CSS、JavaScript代码，因此需要我们做人为判断；

selenium模块本质是通过驱动浏览器，完全模拟浏览器的操作
，比如跳转、输入、点击、下拉等，来拿到网页渲染之后的结果，可支持多种浏览器；
由于selenium解析执行了CSS、JavaScript所以相对requests它的性能是低下的；

滚动下拉模仿处理ajax，跟requests请求ajax两种方式

Redis，、MongoDB

scrapy中yield的功能：
1、 yield req
提交请求对象，
2、 yield item
提交数据给pipeline

rules过滤情况解决，在settings中添加：
SPIDER_MIDDLEWARES = {
‘scrapy.spidermiddlewares.offsite.OffsiteMiddleware’: None,
}

在item里面，然后用yield，指定输出红色信息

正则替换：
import re
x=‘http://www.ipyear.cn/copyright/list_20161031.html’
num=re.sub(’.html’,’_2.html’,x)
print(num)

有些通过点击才能实现的js代码以及数据爬取，用selenium模拟爬取
find-elements找不到不会报异常

dupefilter 记录的爬过的url数据

-i https://pypi.tuna.tsinghua.edu.cn/simple

scrapy是通过Twiseted异步网络框架来提高下载速度
手机app数据爬取：
airtest工具，类似于selenium，来进行自动化交互的，而folder抓包工具则是类似于从json中爬取数据

m.group() == m.group(0) == 所有匹配的字符(即匹配正则表达式整体结果)
group(1) 列出第一个括号匹配部分，group(2) 列出第二个括号匹配部分，group(3) 列出第三个括号匹配部分。
m.groups() 返回所有括号匹配的字符，以tuple格式。m.groups() == (m.group(0), m.group(1), …)
2. 没有匹配成功的，re.search（）返回None

当然正则表达式中没有括号，group(1)肯定不对了。

爬虫字体设置反爬思路：
首先找到是哪一种字体，可以用正则提取出来，进行下载，然后转化为xml文件，从xml文件中的
name属性（也可以通过正则来找）来找到字体中的一一对应的映射关系

数据分析：
numpy：用于对提取出来的数据进行数据的整理
matplotlib：用户画图来使数据显示更加易懂

列表pop按下标删除，remove按值删除

jupyter notebook

爬取数据调试js代码的时候页面总是乱跳说明是有location的js代码，可以吗源码复制下载，删除点location，在查看
在：：before里面隐藏文本内容，一般使用了addrule或insertrule方法

scrapy乱国家再度跳转是通过scrapy.Request

with open 用a是一只下载，w是覆盖下载

scrapy是异步采集入库的，采集小说如何按章节顺序入库呢
yield scrapy.Request(content_url,callback=self.parse_content,meta={‘charter_name’:charter_name})#传参
charter_name=response.meta[‘charter_name’]#接受参数

scrapy通过spider_redis来进行分布式爬虫

scrapy项目部署：在每台服务器上安装 scrapyd，并开启 scrapyd 服务
在开发爬虫的客户端安装上 scrapyd 的客户端 scrapyd-client
通过 scrapyd-client 把丌同网站的爬虫发送到丌同的服务器，使别的主机运行spiderweb来作为云服务器

有时候看着是字典或者列表，但类型是字符串，就需要用json。loads反序列化，变成字典或者列表
直接就是response。json（）

李朋辉

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python爬虫随记

提取大的条目：//li[contains(@class," j_thread_list clearfix")]python安装路径：C:\Users\17809\AppData\Local\Programs\Python\Python36selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题越过反爬用requests....
复制链接

扫一扫