2021-01-24

系列文章目录

爬取简单的网页


前言

昨天写了基本的爬虫语法,我刚开始学Java语法的时候,很多东西仅限于看懂,导致最后很多东西都不能掌握,这次找一个简单的来实践一下。


一、找一个简单的网站

疫情在家不能打球就很伤,今天NBA热火对篮网最后太tm顽强了。那爬个NBA的百度吧!
NBA后面那一大串我试了把他删了也没什么影响,带着看起来太繁琐了。
在这里插入图片描述在网页空白处右键,找到检查,进去后选择network(网络),然后找到它的user-agent

二、使用步骤

然后就重复昨天的四步

1.指定url

代码如下(示例):

import requests  #先导入板块
#定义伪装头
headers={
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.96 Safari/537.36 Edg/88.0.705.50'
}
#定义网址(url)
wd=input('你想查询的网站  ')
url='https://www.baidu.com/s?wd='+wd
注意user-agent 包括后面的网址用单引号印出的时候单引号中间不能空格,否则会报错

把wd后面的东西换成想搜的就可以进入相应的网站,那为何不把NBA换成一个变量让我们在程序里去选择自己想要的呢

2.发起请求

代码如下(示例):

#发起请求
response=requests.get(url=url,headers=headers)

3.获取响应数据

代码如下(示例):

#获取爬取的数据 转换成text模式
page_text=response.text
file_name=wd+'.html'

4.持久化存储

with open(file_name,'w',encoding='utf-8') as fp:
    fp.write(page_text)
    print(wd+'  已保存!')

``

5.总代码

#导入requests模块
import requests
#定义伪装头
headers={
‘user-agent’:‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.96 Safari/537.36 Edg/88.0.705.50’
}
#定义网址(url)
wd=input(‘你想查询的网站 ‘)
url=‘https://www.baidu.com/s?wd=’+wd
#发起请求
response=requests.get(url=url,headers=headers)
#获取爬取的数据 转换成text模式
page_text=response.text
file_name=wd+’.html’
with open(file_name,‘w’,encoding=‘utf-8’) as fp:
fp.write(page_text)
print(wd+’ 已保存!’)

总结

到现在还是比较简单的,循序渐进,十天小计划第一天,希望能开个好头,有什么错误和意见欢迎指出,共同进步!加油!

已标记关键词 清除标记
相关推荐
©️2020 CSDN 皮肤主题: 数字20 设计师:CSDN官方博客 返回首页