response=requests.get(url=Url,headers=HEADERS) print(response.status_code) #有时会出现乱码,乱码是编码错误 response.encoding='utf-8' #查看网页源代码:text类型,此时的网页源代码是字符串类型 html_str=response.text#获取网页源代码 from bs4 import BeautifulSoup #BeautifulSoup(网页源代码,解析器) #使用BeautifulSoup方法对网页源代码进行文档解析 #返回一个BeautifulSoup对象(本质:树结构) #这个过程需要解析器 soup=BeautifulSoup(html_str,'html.parser') #对文档解析的过程其实就是将html源代码转化成树结构,便于后续的内容查找 # print(soup,type(soup)) #提取树结构中的方法和属性 #1,select: #使用css选择器(标签选择器,id选择器,class选择器) #父子选择器,后代选择器,nth-of-type选择器等 #从树结构中便利符合css选择器的所有结果
其他的被和谐了