import requests # 定义需要爬取的网站,这里选取了百度的一个产品页面。 base_url = "https://www.baidu.com/more/" # 使用requests请求网址,并接收网页,返回的是状态码 response = requests.get(base_url) # 获取网页信息,接收的是文本信息 # html = response.text # 接收的是二进制数据类型 # html = response.content # 获取二进制(bytes)类型的页面并解码,从bytes类型转变为字符串类型 html = response.content.decode("utf-8") # 存储到指定的文件中 with open("baidu.html", "w", encoding="utf-8") as f: f.write(html) # html 必须是字符串才能写入
Python爬虫-从基础到大神——(基础的获取网站数据操作)
最新推荐文章于 2024-05-03 14:23:24 发布