python爬虫随记

提取大的条目://li[contains(@class," j_thread_list clearfix")]

python安装路径:C:\Users\17809\AppData\Local\Programs\Python\Python36

selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题

越过反爬用requests.post请求,把模仿的ajax请求传过去,跟get用法一样

用xpath需要用etree.HTML对response.text进行处理,正则不用

类型是字符串的用re正则表达式,是json的可以直接按字典或列表处理

split分割字符串,分割后的是一个列表

由于requests模块是一个不完全模拟浏览器行为的模块,只能爬取到网页的HTML文档信息,
无法解析和执行CSS、JavaScript代码,因此需要我们做人为判断;

selenium模块本质是通过驱动浏览器,完全模拟浏览器的操作
,比如跳转、输入、点击、下拉等,来拿到网页渲染之后的结果,可支持多种浏览器;
由于selenium解析执行了CSS、JavaScript所以相对requests它的性能是低下的;

滚动下拉模仿处理ajax,跟requests请求ajax两种方式

Redis,、MongoDB

scrapy中yield的功能:
1、 yield req
提交请求对象,
2、 yield item
提交数据给pipeline

rules过滤情况解决,在settings中添加:
SPIDER_MIDDLEWARES = {
‘scrapy.spidermiddlewares.offsite.OffsiteMiddleware’: None,
}

在item里面,然后用yield,指定输出红色信息

正则替换:
import re
x=‘http://www.ipyear.cn/copyright/list_20161031.html’
num=re.sub(’.html’,’_2.html’,x)
print(num)

有些通过点击才能实现的js代码以及数据爬取,用selenium模拟爬取
find-elements找不到不会报异常

dupefilter 记录的爬过的url数据

-i https://pypi.tuna.tsinghua.edu.cn/simple

scrapy是通过Twiseted异步网络框架来提高下载速度
手机app数据爬取:
airtest工具,类似于selenium,来进行自动化交互的,而folder抓包工具则是类似于从json中爬取数据

m.group() == m.group(0) == 所有匹配的字符(即匹配正则表达式整体结果)
group(1) 列出第一个括号匹配部分,group(2) 列出第二个括号匹配部分,group(3) 列出第三个括号匹配部分。
m.groups() 返回所有括号匹配的字符,以tuple格式。m.groups() == (m.group(0), m.group(1), …)
2. 没有匹配成功的,re.search()返回None

  1. 当然正则表达式中没有括号,group(1)肯定不对了。

爬虫字体设置反爬思路:
首先找到是哪一种字体,可以用正则提取出来,进行下载,然后转化为xml文件,从xml文件中的
name属性(也可以通过正则来找)来找到字体中的一一对应的映射关系

数据分析:
numpy:用于对提取出来的数据进行数据的整理
matplotlib:用户画图来使数据显示更加易懂

列表pop按下标删除,remove按值删除

jupyter notebook

爬取数据调试js代码的时候页面总是乱跳说明是有location的js代码,可以吗源码复制下载,删除点location,在查看
在::before里面隐藏文本内容,一般使用了addrule或insertrule方法

scrapy乱国家再度跳转是通过scrapy.Request

with open 用a是一只下载,w是覆盖下载

scrapy是异步采集入库的,采集小说如何按章节顺序入库呢
yield scrapy.Request(content_url,callback=self.parse_content,meta={‘charter_name’:charter_name})#传参
charter_name=response.meta[‘charter_name’]#接受参数

scrapy通过spider_redis来进行分布式爬虫

scrapy项目部署:在每台服务器上安装 scrapyd,并开启 scrapyd 服务
在开发爬虫的客户端安装上 scrapyd 的客户端 scrapyd-client
通过 scrapyd-client 把丌同网站的爬虫发送到丌同的服务器,使别的主机运行spiderweb来作为云服务器

有时候看着是字典或者列表,但类型是字符串,就需要用json。loads反序列化,变成字典或者列表
直接就是response。json()

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值