一、计算机网络编程
定义:将地理位置不同具有独立功能的多台计算机,通过通信线路(不是通过硬件存储),来进行互相通信实现数据的共享。
网络的七层结构:
应用层(最贴近用户使用者):http ftp
表示层
会话层
传输层: tcp udp
网络层:ip
数据链路层(设备和驱动)
物理层(最贴计算机的一层)
HTTP协议:超文本传输协议
IP协议:互联网传输协议
TCP协议:传输控制协议,安全有效的协议,基于连接的协议,点对点的通道,TCP协议可以保证一方发送后,外一方一定能准确(按接收顺序)接收
进行三次握手:客户端和服务端之间的交握如下:
step1、客户端说:我能与你连接吗
step2、服务端说:可以
step3、客户端说:知道了。发送信息
UDP协议:用户数据协议:无连接,不安全可靠协议。没有三次握手,直接发送信息。即不管对方是否接收,发送方直接发送
FTP:文件传输协议
IP地址号:如202.195.2.5
IP地址号:IP地址4个段,每段8位,一共是32位
端口号:一台计算机上区分不同程序 一共16位
二、url:统一资源定位,网络的资源地址
1、url的组成:
url分为两个部分(使用//分隔):协议的标识符 资源的名称
如:https://www.baidu.com
url中通常包含如下信息:使用的协议,主机名称,端口号,文件名,相关应用
2、python中解析url
urllib.parse下urlparse函数,返回值是元组
使用方式如下:
from urllib.parse import urlparse
url = "https://new.qq.com/omn/20210420/20210420A007NQ00.html"
result = urlparse(url)
print(result)
print(result[2])
print(result.path)
输出:
ParseResult(scheme='https', netloc='new.qq.com', path='/omn/20210420/20210420A007NQ00.html', params='', query='', fragment='')
/omn/20210420/20210420A007NQ00.html
/omn/20210420/20210420A007NQ00.html
3、发起请求
1、urllib.request的urlopen方法
参数:url
返回值:response对象(响应对象)
如下:
from urllib.request import urlopen,urlretrieve
response = urlopen("https://www.lagou.com/")
html = response.read()
print(html)
输出:
举例:下载图片到本地电脑
单纯的下载
练习:爬取html文件中所有的url
如下:
import re
from urllib.request import urlopen
url = "https://www.csdn.net/"
response = urlopen(url)
content = response.read().decode()
res_url