2021-10-13爬虫requests总结

#requests模块
#网络请求的两个模块:urllib模块;requests模块(模拟浏览器发请求)
#如何使用:指定URL;发起请求;获取响应数据;持久化存储

#requests模块

1.#需求:爬取搜狗首页的页面数据

url='  网址 '

response=requests.get(url=url)

page_text(或其他名称)=response.text

with open('./sogou.html','w',encoding='utf-8')as fp:
    fp.write(page_text)


#需求:爬取搜狗首页的页面数据
import requests
url='https://www.sogou.com/'
response=requests.get(url=url)
page_text=response.text
print(page_text)
with open('./sogou.html','w',encoding='utf-8')as fp:
    fp.write(page_text)
print('爬取数据结束')   

2.# 搜狗指定词条对应的搜索结果页面,简易网页采集器
#UA伪装
#UA:User_Agent(请求载体的身份标识)

有参数使用字典形式封装

headers={'user-agent':'   '}

url='

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值