python爬虫学习笔记1

使用fiddler
1:基础配置:设置代理服务器
   方式1::左下角切换选择capture模式在这里插入图片描述
   方式2:浏览器——设置——高级——语言——打开代理设置——代理浏览器选择127:0:0:1:8888(谷歌浏览器)
也可以利用feddler内置浏览器直接上网进行抓包
2:工作原理:类似代理中介 主机——fiddler——浏览器
3:界面右半区分为request区和response区,分别为请求头和相应头
格式如下
1)请求(客户端->服务端[request])
GET(请求的方式) /newcoder/hello.html(请求的目标资源) HTTP/1.1(请求采用的协议和版本号)
Accept: /(客户端能接收的资源类型)
Accept-Language: en-us(客户端接收的语言类型)
Connection: Keep-Alive(维护客户端和服务端的连接关系)
Host: localhost:8080(连接的目标主机和端口号)
Referer: http://localhost/links.asp(告诉服务器我来自于哪里)
User-Agent: Mozilla/4.0(客户端版本号的名字)
Accept-Encoding: gzip, deflate(客户端能接收的压缩数据的类型)
If-Modified-Since: Tue, 11 Jul 2000 18:23:51 GMT(缓存时间)
Cookie(客户端暂存服务端的信息)
Date: Tue, 11 Jul 2000 18:23:51 GMT(客户端请求服务端的时间)

2)响应(服务端->客户端[response])
HTTP/1.1(响应采用的协议和版本号) 200(状态码) OK(描述信息)
Location: http://www.baidu.com(服务端需要客户端访问的页面路径)
Server:apache tomcat(服务端的Web服务端名)
Content-Encoding: gzip(服务端能够发送压缩编码类型)
Content-Length: 80(服务端发送的压缩数据的长度)
Content-Language: zh-cn(服务端发送的语言类型)
Content-Type: text/html; charset=GB2312(服务端发送的类型及采用的编码方式)
Last-Modified: Tue, 11 Jul 2000 18:23:51 GMT(服务端对该资源最后修改的时间)
Refresh: 1;url=http://www.it315.org(服务端要求客户端1秒钟后,刷新,然后访问指定的页面路径)
Content-Disposition: attachment; filename=aaa.zip(服务端要求客户端以下载文件的方式打开该文件)
Transfer-Encoding: chunked(分块传递数据到客户端)
Set-Cookie:SS=Q0=5Lb_nQ; path=/search(服务端发送到客户端的暂存数据)
Expires: -1//3种(服务端禁止客户端缓存页面数据)
Cache-Control: no-cache(服务端禁止客户端缓存页面数据)
Pragma: no-cache(服务端禁止客户端缓存页面数据)
Connection: close(1.0)/(1.1)Keep-Alive(维护客户端和服务端的连接关系)

————————————————

原文链接:https://blog.csdn.net/m0_37828249/article/details/78164320

4:关于乱码问题,有decode,有cmd-regedit型,但都未能解决我的问题。
但总结一两点心得:1:首先查看网页源代码,看charset后面的编码从而得到网页返回数据的编码类型,在python中使用
  1:IDEA:file-setting-file encoding 选择编码方式
   作用:文件的打开编码方式和存储编码方式,文件编码
   2:对浏览器的返回response的编码
resp.text返回的是Unicode型的数据,IDEA推测其编码方式并将其编 码成unicode,可能出错
resp.content返回的是bytes型也就是二进制的数据,需要手动编码,r.content.decode("")将编码XX编码转化成UNICODE编码。
decode:将XX编码转化成unicode编码
encode:将unicode编码转化成XX编码
编码关系:iso-8859-1(最原始)—GBK(能够解析中文)—unicode(统一编码)
例子:

# -*- coding:UTF-8 -*-
from bs4 import BeautifulSoup
import requests

if __name__ =='__main__':
  url='https://www.biqukan.com/1_1094/5428081.html'
  page_req=requests.get(url)
  # html=page_req.text.encode("iso-8859-1")
  html=page_req.content.decode("gbk")
  bf=BeautifulSoup(html,"html.parser")
  texts = bf.find_all('div',id='content')
  print(texts)
 
  
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值