- 博客(4)
- 收藏
- 关注
原创 爬虫 需要知道的协议
robots.txt协议 君子协议,规定了网站中哪些数据可以被爬取 http 协议 概念:就是服务器和客户端进行数据交互的一种形式 常用请求头信息 Uer-Agent:表示请求载体的身份标识 connection:请求结束后,是断开连接还是保持连接 常用响应头信息: content-type:服务器响应客户端的数据类型 https协议: 安全的超文本传输协议 加密方式: 对称密钥加密 密钥和密文有可能会被拦截,然后暴露 非对称密钥加密 效率比较低,仍存在安全隐患 证书密钥加密 .
2021-09-12 17:51:05 925
原创 如何用Python写一篇代码做一个网页源代码采集器(附代码)
#简易网页采集器 #URL伪装:门户网站服务区会检测对应载体的身份标识 # 如果检测到请求的载体身份表示为某一款浏览器说明该载体是一个正常的请求。 # 但是如果检测到请求的载体的身份标识不是属于某一款浏览器的,则显示为不正常的请求(爬虫)可能会被拒绝 #UA伪装:User=Agent (请求载体的身份标识) #让爬虫对应的请求载体的身份伪装成某一款浏览器 import requests if __name__ =="__main__": #UA伪装:将对应的User-Agent封装搭配一个字.
2021-09-12 17:49:40 649
原创 如何用Python写一篇代码爬取百度翻译结果(附代码)
实战编码: -需求:爬取搜狗首页页面的数据 import json import requests if __name__ == '__main__': post_url = 'https://fanyi.baidu.com/sug' #psot请求参数处理(和get请求一致) word = input('enter a word:') data = { 'kw':word } headers = { 'User-...
2021-09-12 17:43:12 113
原创 Python从零学起(1)
#imput交互使用 a=input('请输入一个加数') a=float(a) b=input('请输入另一个加数') b=float(b) print(a+b) i=3+4 print(i) a=b=c=20 print(a,id(a)) print(b,id(b)) print(c,id(c)) print('--------支持参数赋值-----------') #赋值运算符 a=20 a+=30 print(a) a*=2 print(a) a/=3 print(a) a//..
2021-09-12 17:38:20 117
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人