Python爬虫
晓东邪
扎实基础,记录学习点滴。
展开
-
Python3写简单爬虫
最近开始研究python爬虫的抓取技术,发现网上很少能找到比较入门的简单Python3爬虫,正好自己在学,根据学习心得写了个爬取百度贴吧图片并保存在本地的简单小爬虫记录一下学习进度。import reimport urllib.requestdef get_content(url):"""定义一个抓取百度贴吧壁纸源代码的小爬虫""" html =urllib.request.urlop原创 2016-05-16 22:22:37 · 5595 阅读 · 0 评论 -
使用python去除HTML中标签的几种方式
这个repo 用来记录一些python技巧、书籍、学习链接等,欢迎stargithub地址待删除HTML示例标签如下:In [96]: testOut[96]: '<p>just for test</p><br/><font>just for test</font><b>test</b>'方法原创 2018-03-08 17:53:48 · 24882 阅读 · 1 评论 -
爬取代理IP记录
爬取代理IP因工作需要,爬取了几十万数据加数百万图片,因为需要用到代理IP,作为程序员,当然是先爬为敬了…可选的有快代理89IP西祠代理站大爷蚂蚁代理西祠、快代理、89ip都没啥难度,西祠不要太频繁爬取,会封IP,不过一天左右就会解封,快代理,89ip完全一个模式,基本爬取代码都不用改,这个比较入门,就不细讲解了,主要讲下蚂蚁代理的爬取。蚂蚁代理显示页面如下:可以看到,端口号...原创 2019-04-09 21:12:39 · 925 阅读 · 2 评论 -
scrapy 爬取数据时踩到的几个坑
1、将配置放在settings.py 中时,注意该脚本中配置会被使用pickle 进行持久化操作,因此,如使用redis,不要在此处进行如rdb = redis.Redis(db=0 此类操作,可以放到执行脚本中2、使用CrawlerProcess 进行替代scrapy crawl CrawlerName 时,对 CrawlerProcess 进行实例化时,不要放到函数中去,可以作为全局变量,...原创 2019-04-17 16:32:01 · 1815 阅读 · 0 评论