刘建桐-CSDN博客

原创爬虫需要知道的协议

robots.txt协议君子协议，规定了网站中哪些数据可以被爬取 http 协议概念：就是服务器和客户端进行数据交互的一种形式常用请求头信息 Uer-Agent:表示请求载体的身份标识 connection:请求结束后，是断开连接还是保持连接常用响应头信息： content-type：服务器响应客户端的数据类型 https协议：安全的超文本传输协议加密方式：对称密钥加密密钥和密文有可能会被拦截，然后暴露非对称密钥加密效率比较低，仍存在安全隐患证书密钥加密 .

2021-09-12 17:51:05 925

原创如何用Python写一篇代码做一个网页源代码采集器（附代码）

#简易网页采集器 #URL伪装：门户网站服务区会检测对应载体的身份标识 # 如果检测到请求的载体身份表示为某一款浏览器说明该载体是一个正常的请求。 # 但是如果检测到请求的载体的身份标识不是属于某一款浏览器的，则显示为不正常的请求（爬虫）可能会被拒绝 #UA伪装：User=Agent (请求载体的身份标识) #让爬虫对应的请求载体的身份伪装成某一款浏览器 import requests if __name__ =="__main__": #UA伪装：将对应的User-Agent封装搭配一个字.

2021-09-12 17:49:40 649

原创如何用Python写一篇代码爬取百度翻译结果（附代码）

实战编码： -需求：爬取搜狗首页页面的数据 import json import requests if __name__ == '__main__': post_url = 'https://fanyi.baidu.com/sug' #psot请求参数处理（和get请求一致） word = input('enter a word:') data = { 'kw':word } headers = { 'User-...

2021-09-12 17:43:12 113

原创 Python从零学起（1）

#imput交互使用 a=input('请输入一个加数') a=float(a) b=input('请输入另一个加数') b=float(b) print(a+b) i=3+4 print(i) a=b=c=20 print(a,id(a)) print(b,id(b)) print(c,id(c)) print('--------支持参数赋值-----------') #赋值运算符 a=20 a+=30 print(a) a*=2 print(a) a/=3 print(a) a//..

2021-09-12 17:38:20 117

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 爬虫 需要知道的协议

原创 如何用Python写一篇代码做一个网页源代码采集器（附代码）

原创 如何用Python写一篇代码爬取百度翻译结果（附代码）

原创 Python从零学起（1）

空空如也

空空如也

原创爬虫需要知道的协议

原创如何用Python写一篇代码做一个网页源代码采集器（附代码）

原创如何用Python写一篇代码爬取百度翻译结果（附代码）