爬虫
ZenGeek
代码乃需求之腿
展开
-
python - requests用法
Python标准库中提供了:urllib、urllib2、httplib等模块以供Http请求,但是,它的 API 太渣了。它是为另一个时代、另一个互联网所创建的。它需要巨量的工作,甚至包括各种方法覆盖,来完成最简单的任务。Requests 是使用 Apache2 Licensed 许可证的 基于Python开发的HTTP 库,其在Python内置模块的基础上进行了高度的封装,从而使得Pyth...转载 2018-08-15 00:21:08 · 580 阅读 · 0 评论 -
python - BeautifulSoup教程
BeautifulSoupBeautifulSoup将网页元素的正则化查找简单化。from bs4 import BeautifulSouphtml_doc = """<html><head><title>The Dormouse's story</title>&转载 2018-08-15 23:24:42 · 2068 阅读 · 0 评论 -
python爬虫基础
爬虫:定向爬虫:指定域名进行爬取非定向爬虫:不指定域名,自由地爬取,例如google,baidu爬虫的应用领域:搜索引擎舆情系统信息收集爬虫的基本步骤:request:response = requests.get(url) 请求htmlresponse.text 返回文本response.content 返回原始htmlresponse.en...原创 2018-08-14 00:43:20 · 277 阅读 · 0 评论