urllib
urllib的特点:
- 较老的爬虫项目用的四urllib
- 做爬虫是需要requests+urllib一起使用
- python内置模块
- urllib在某些方面较强
urllib.request用法
- 创建请求对象urllib.request.Request()构建user-agent
- 发起请求获取对象urllib.request.urlopen()
- 读取响应对象的内容read().decode('utf-8')(bytes ➡ str)
urllib爬取贴吧指定主题及页面练习(get方式)
- 先分析各页面之间的规律,去掉无关代码,并验证,得到统一的网址格式,发现页数不同就是pn的值不同,规律为(页数-1)*50
https://tieba.baidu.com/f?ie=utf-8&kw=%E5%AD%A6%E7%94%9F&fr=search