python爬虫学习笔记1

最新推荐文章于 2022-03-08 21:52:36 发布

取个程序猿的名字

最新推荐文章于 2022-03-08 21:52:36 发布

阅读量200

点赞数

分类专栏： python爬虫文章标签： python爬虫

本文链接：https://blog.csdn.net/weixin_45680007/article/details/101270233

版权

python爬虫专栏收录该内容

1 篇文章 0 订阅

订阅专栏

使用fiddler
1：基础配置：设置代理服务器
　　　方式1：：左下角切换选择capture模式在这里插入图片描述
　　　方式2：浏览器——设置——高级——语言——打开代理设置——代理浏览器选择127:0:0:1:8888（谷歌浏览器）
也可以利用feddler内置浏览器直接上网进行抓包
2：工作原理：类似代理中介主机——fiddler——浏览器
3：界面右半区分为request区和response区，分别为请求头和相应头
格式如下
1)请求(客户端->服务端[request])
GET(请求的方式) /newcoder/hello.html(请求的目标资源) HTTP/1.1(请求采用的协议和版本号)
Accept: /(客户端能接收的资源类型)
Accept-Language: en-us(客户端接收的语言类型)
Connection: Keep-Alive(维护客户端和服务端的连接关系)
Host: localhost:8080(连接的目标主机和端口号)
Referer: http://localhost/links.asp(告诉服务器我来自于哪里)
User-Agent: Mozilla/4.0(客户端版本号的名字)
Accept-Encoding: gzip, deflate(客户端能接收的压缩数据的类型)
If-Modified-Since: Tue, 11 Jul 2000 18:23:51 GMT(缓存时间)
Cookie(客户端暂存服务端的信息)
Date: Tue, 11 Jul 2000 18:23:51 GMT(客户端请求服务端的时间)

2)响应(服务端->客户端[response])
HTTP/1.1(响应采用的协议和版本号) 200(状态码) OK(描述信息)
Location: http://www.baidu.com(服务端需要客户端访问的页面路径)
Server:apache tomcat(服务端的Web服务端名)
Content-Encoding: gzip(服务端能够发送压缩编码类型)
Content-Length: 80(服务端发送的压缩数据的长度)
Content-Language: zh-cn(服务端发送的语言类型)
Content-Type: text/html; charset=GB2312(服务端发送的类型及采用的编码方式)
Last-Modified: Tue, 11 Jul 2000 18:23:51 GMT(服务端对该资源最后修改的时间)
Refresh: 1;url=http://www.it315.org(服务端要求客户端1秒钟后，刷新，然后访问指定的页面路径)
Content-Disposition: attachment; filename=aaa.zip(服务端要求客户端以下载文件的方式打开该文件)
Transfer-Encoding: chunked(分块传递数据到客户端）
Set-Cookie:SS=Q0=5Lb_nQ; path=/search(服务端发送到客户端的暂存数据)
Expires: -1//3种(服务端禁止客户端缓存页面数据)
Cache-Control: no-cache(服务端禁止客户端缓存页面数据)
Pragma: no-cache(服务端禁止客户端缓存页面数据)
Connection: close(1.0)/(1.1)Keep-Alive(维护客户端和服务端的连接关系)

————————————————

原文链接：https://blog.csdn.net/m0_37828249/article/details/78164320

4：关于乱码问题，有decode,有cmd-regedit型，但都未能解决我的问题。
但总结一两点心得：1：首先查看网页源代码，看charset后面的编码从而得到网页返回数据的编码类型，在python中使用
　　１：IDEA:file-setting-file encoding 选择编码方式
　　作用：文件的打开编码方式和存储编码方式，文件编码
　　 2：对浏览器的返回response的编码
resp.text返回的是Unicode型的数据，IDEA推测其编码方式并将其编码成unicode，可能出错
resp.content返回的是bytes型也就是二进制的数据，需要手动编码，r.content.decode("")将编码XX编码转化成UNICODE编码。
decode：将XX编码转化成unicode编码
encode：将unicode编码转化成XX编码
编码关系：iso-8859-1（最原始）—GBK（能够解析中文）—unicode(统一编码)
例子：

# -*- coding:UTF-8 -*-
from bs4 import BeautifulSoup
import requests

if __name__ =='__main__':
  url='https://www.biqukan.com/1_1094/5428081.html'
  page_req=requests.get(url)
  # html=page_req.text.encode("iso-8859-1")
  html=page_req.content.decode("gbk")
  bf=BeautifulSoup(html,"html.parser")
  texts = bf.find_all('div',id='content')
  print(texts)

取个程序猿的名字

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python爬虫学习笔记1

使用fiddler1：基础配置：设置代理服务器　　　方式1：：左下角切换选择capture模式　　　方式2：浏览器——设置——高级——语言——打开代理设置——代理浏览器选择127:0:0:1:8888（谷歌浏览器）也可以利用feddler内置浏览器直接上网进行抓包2：工作原理：类似代理中介主机——fiddler——浏览器3：界面右半区分为request区和response区，分别为请...
复制链接

扫一扫

专栏目录