《Python网络爬虫与信息提取》第一周 网络爬虫之规则 学习笔记(一)Requests库入门

 

目录

一、Requests库入门

0、引言

(1)主题

(2)理念

(3)常用的Python IDE工具

1、Requests库入门

(1)Requests库的官网

(2)Requests库的安装

(3)Requests库的测试

(4)Requests库的7个主要方法

(5)Requests库的get()方法

(6)Requests库的2个重要对象

2、爬取网页的通用代码框架

(1)理解Requests库的异常

(2)爬取网页的通用代码框架

3、HTTP协议及Requests库方法

(1)HTTP协议

(2)URL格式

(3)HTTP URL实例

(4)HTTP URL的理解

(5)HTTP协议对资源的操作

(6)理解PATCH和PUT的区别

(7)HTTP协议与Requests库

(8)Requests库的head()方法

(9)Requests库的post()方法

(10)Requests库的put()方法

4、Requests库主要方法解析

(1)requests.request(method, url, **kwargs)

(2)requests.get(url, params=None, **kwargs)

(3)requests.head(url, **kwarg)

(4)requests.post(url, data=None, json=None, **kwargs)

(5)requests.put(url, data=None, **kwargs)

(6)requests.patch(url, data=None, **kwargs)

(7)requests.delete(url, **kwargs)


一、Requests库入门

0、引言

(1)主题

掌握定向网络数据爬取和网页解析的基本能力。

(2)理念

The Website is the API...。

(3)常用的Python IDE工具

文本工具类IDE 集成工具类IDE
IDLE PyCharm
Notepad++ Wing
Sublime Text PyDev & Eclipse
Vim & Emacs Visual Studio
Atom Anaconda & Spyder
Komodo Edit Canopy

IDLE:自带;默认;常用;入门级。适用于:Python入门;功能简单直接;300+代码以内。

Sublime Text:专为程序员开发的第三方专用编程工具;专业编程体验;多种编程风格;工具非注册免费使用。

Wing:公司维护,工具收费;调试功能丰富;版本控制,版本同步;适合多人共同开发。

Visual Studio & PTVS:微软公司维护;Win环境为主;调试功能丰富。

Eclipse:开源IDE开发工具;需要有一定开发经验。

Pycharm:社区版免费;简单,集成度高;适合较复杂工程。

Canopy:公司维护,工具收费;支持近500个第三方库;适合科学计算领域应用开发。

Anaconda:开源免费;支持近800个第三方库。

1、Requests库入门

(1)Requests库的官网

http://www.python-requests.org

(2)Requests库的安装

管理员权限启动cmd。

输入:

pip install requests ­i https://pypi.douban.com/simple

常见的开源镜像网站:

①阿里云:https://mirrors.aliyun.com/pypi/simple/

②中国科技大学:https://pypi.mirrors.ustc.edu.cn/simple/

③豆瓣(douban):https://pypi.douban.com/simple/

④清华大学:https://pypi.tuna.tsinghua.edu.cn/simple/

⑤中国科学技术大学:https://pypi.mirrors.ustc.edu.cn/simple/

备注:直接安装Anaconda,更加方便。(https://blog.csdn.net/wyatt007/article/details/80369755

(3)Requests库的测试

# Requests库的测试
import requests

r = requests.get("http://www.baidu.com")  # 获取百度网页。
r.status_code  # 状态码,200是访问成功。
r.encoding = 'utf-8'  # 编码。
r.text  # 百度网页内容。
print(r.text)
# 百度网页内容。
# <!DOCTYPE html>
# <!--STATUS OK--><html> <head><meta http-equiv=content-type content=text/html;charset=utf-8><meta http-equiv=X-UA-Compatible content=IE=Edge><meta content=always name=referrer><link rel=stylesheet type=text/css href=http://s1.bdstatic.com/r/www/cache/bdorz/baidu.min.css><title>百度一下,你就知道</title></head> <body link=#0000cc> <div id=wrapper> <div id=head> <div class=head_wrapper> <div class=s_form> <div class=s_form_wrapper> <div id=lg> <img hidefocus=true src=//www.baidu.com/img/bd_logo1.png width=270 height=129> </div> <form id=form name=f action=//www.baidu.com/s class=fm> <input type=hidden name=bdorz_come value=1> <input type=hidden name=ie value=utf-8> <input type=hidden name=f value=8> <input type=hidden name=rsv_bp value=1> <input type=hidden name=rsv_idx value=1> <input type=hidden name=tn value=baidu><span class="bg s_ipt_wr"><input id=kw name=wd class=s_ipt value maxlength=255 autocomplete=off autofocus></span><span class="bg s_btn_wr"><input type=submit id=su value=百度一下 class="bg s_btn"></span> </form> </div> </div> <div id=u1> <a href=http://news.baidu.com name=tj_trnews class=mnav>新闻</a> <a href=http://www.hao123.com name=tj_trhao123 class=mnav>hao123</a> <a href=http://map.baidu.com name=tj_trmap class=mnav>地图</a> <a href=http://v.baidu.com name=tj_trvideo class=mnav>视频</a> <a href=http://tieba.baidu.com name=tj_trtieba class=mnav>贴吧</a> <noscript> <a href=http://www.baidu.com/bdorz/login.gif?login&amp;tpl=mn&amp;u=http%3A%2F%2Fwww.baidu.com%2f%3fbdorz_come%3d1 name=tj_login class=lb>登录</
  • 3
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值