python
小傲娇的认真
这个作者很懒,什么都没留下…
展开
-
python爬取网易动态评论
打开网易的一条新闻的源代码后,发现并没有所要得评论内容。 经过学习后发现,源代码只是一个完整页面的“骨架”,而我所需要的内容是它的填充物,这时候需要打开工具里面的开发人员工具,从加载的“骨肉”里找到我所要的评论圈住的是类型 找到之后打开网页,发现json类型的格式,用我已学过的正则,bs都不好闹,于是便去了解了正则,发现把json的格式换化成python的格式后,用列表提取内容是一条明朗的道路。原创 2016-11-03 20:36:52 · 1364 阅读 · 1 评论 -
scrapy的简单学习
scrapy 功能很强大,但我学习的是入门级别的 http://docs.pythontab.com/scrapy/scrapy0.24/topics/selectors.html中文官方文档 http://blog.csdn.net/qq_30242609/article/details/52810840 参考博客教程 http://blog.csdn.ne原创 2016-12-19 19:31:06 · 237 阅读 · 0 评论 -
爬虫多线程
多线程在之前的scrapy里面已经接触过了,就是里面的yiled,开启一个新的线程。但是这是这是基于这个高级框架的,用的时候只知道这是开启了一个新的线程,并不是很清楚到底是怎么执行的。 而在python里面有包import threading引入这个包之后就可以写自己的多线程了 写多线程的时候需要注意数据的一直性,比如说俩个线程,一个列表, 线程一二同时开始对一个列表进行操作,线程一删除了列表原创 2017-03-26 14:37:24 · 763 阅读 · 0 评论