python 爬虫
yinger_0131
这个作者很懒,什么都没留下…
展开
-
python3爬虫学习-day1
网络爬虫,也叫网络蜘蛛(Web Spider)网络爬虫就是根据网页的地址来寻找网页的,也就是URL。举一个简单的例子,我们在浏览器的地址栏中输入的字符串就是URL,例如:https://www.baidu.com/URL就是同意资源定位符(Uniform Resource Locator),它的一般格式如下(带方括号[]的为可选项):protocol :// hostname[:port]...原创 2018-03-10 16:37:17 · 318 阅读 · 0 评论 -
python爬虫学习-day2
模式修改符: I:忽略大小写 M:多行匹配 U:unicode编码 L:本地化匹配 S:点任意匹配模式,改变’.’的行为利用正则表达式对豆瓣出版社信息的提取:import reimport urllib.requesturl='https://read.douban.com/provider/all'data=urllib.request.urlopen(url)....原创 2018-03-11 09:29:00 · 155 阅读 · 0 评论 -
python爬虫学习-淘宝图片爬取
import reimport urllib.requestkey="短裙"key=urllib.request.quote(key)headers=("User-Agent","Mozilla/5.0 (Windows NT 6.1; WOW64; rv:49.0) Gecko/20100101 Firefox/49.0")opener=urllib.request.build_ope...原创 2018-03-11 19:57:49 · 1486 阅读 · 8 评论 -
python爬虫-day3
搜狗-微信爬虫实例import reimport urllib.requestimport urllib.errorimport time#自定义代理服务器爬虫函数:def proxy(proxy_addr,url): try: #添加报头伪装成浏览器 req=urllib.request.Request(url) req.add_header('User-Age...原创 2018-03-12 10:16:02 · 150 阅读 · 0 评论 -
python爬虫-多线程
import urllib.requestimport threadingimport reimport urllib.errorheaders=("User-Agent","Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.22 Safari/537.36...原创 2018-03-13 10:44:41 · 389 阅读 · 0 评论