- 博客(4)
- 收藏
- 关注
原创 爬虫多线程
多线程在之前的scrapy里面已经接触过了,就是里面的yiled,开启一个新的线程。但是这是这是基于这个高级框架的,用的时候只知道这是开启了一个新的线程,并不是很清楚到底是怎么执行的。 而在python里面有包import threading引入这个包之后就可以写自己的多线程了 写多线程的时候需要注意数据的一直性,比如说俩个线程,一个列表, 线程一二同时开始对一个列表进行操作,线程一删除了列表
2017-03-26 14:37:24 805
原创 scrapy的简单学习
scrapy 功能很强大,但我学习的是入门级别的 http://docs.pythontab.com/scrapy/scrapy0.24/topics/selectors.html中文官方文档 http://blog.csdn.net/qq_30242609/article/details/52810840 参考博客教程 http://blog.csdn.ne
2016-12-19 19:31:06 255
原创 python爬取网易动态评论
打开网易的一条新闻的源代码后,发现并没有所要得评论内容。 经过学习后发现,源代码只是一个完整页面的“骨架”,而我所需要的内容是它的填充物,这时候需要打开工具里面的开发人员工具,从加载的“骨肉”里找到我所要的评论圈住的是类型 找到之后打开网页,发现json类型的格式,用我已学过的正则,bs都不好闹,于是便去了解了正则,发现把json的格式换化成python的格式后,用列表提取内容是一条明朗的道路。
2016-11-03 20:36:52 1429 1
原创 python的bs的简单实例爬取58同城手机信息
58同城我所爬的地址 import reimport urllibfrom bs4 import BeautifulSoupdef gethtml(url): page= urllib.urlopen(url) html=page.read() return htmlhtml=gethtml("http://zjk.58.com/shouji/?PGTID=0d0
2016-10-24 19:44:33 2228
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人