爬虫
ZenGeek
代码乃需求之腿
展开
-
python - requests用法
Python标准库中提供了:urllib、urllib2、httplib等模块以供Http请求,但是,它的 API 太渣了。它是为另一个时代、另一个互联网所创建的。它需要巨量的工作,甚至包括各种方法覆盖,来完成最简单的任务。 Requests 是使用 Apache2 Licensed 许可证的 基于Python开发的HTTP 库,其在Python内置模块的基础上进行了高度的封装,从而使得Pyth...转载 2018-08-15 00:21:08 · 657 阅读 · 0 评论 -
python - BeautifulSoup教程
BeautifulSoup BeautifulSoup将网页元素的正则化查找简单化。 from bs4 import BeautifulSoup html_doc = """ <html><head><title>The Dormouse's story</title>&转载 2018-08-15 23:24:42 · 2183 阅读 · 0 评论 -
python爬虫基础
爬虫: 定向爬虫:指定域名进行爬取 非定向爬虫:不指定域名,自由地爬取,例如google,baidu 爬虫的应用领域: 搜索引擎 舆情系统 信息收集 爬虫的基本步骤: request: response = requests.get(url) 请求html response.text 返回文本 response.content 返回原始html response.en...原创 2018-08-14 00:43:20 · 323 阅读 · 0 评论