爬虫的基本原理:就是利用代码模拟浏览器,爬取网页上的一些基本的内荣
爬虫的一般步骤:
- 找到url
- 利用python代码请求数据
- 解析数据,重复2,3的一些步骤
- 数据的持久化、数据的持久化,一般使用表格或者数据库
python 爬虫的基础知识:
http协议:
user-agent;浏览器和用户的基本信息
cookie:用于验证码
host:域名
requestheader:请求头
import urllib.request
import urllib.parse
import string
def get_method_param():
url="https://www.baidu.com/s?wd="
#拼接
name="美女"
final_url=url+name
print(final_url)
#使用代码发送网络请求
#将包含汉子的网址转移
new_url=urllib.parse.quote(final_url,safe=string.printable)
print(new_url)
respose=urllib.request.urlopen(new_url)
#这里会出现错误,不支持中文
data=respose.read().decode()
print(data)
#保存到本地数据
with open("baidu01.html","w",encoding='utf-8') as f:
f.write(data)
get_method_param()