自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 爬虫多线程

多线程在之前的scrapy里面已经接触过了,就是里面的yiled,开启一个新的线程。但是这是这是基于这个高级框架的,用的时候只知道这是开启了一个新的线程,并不是很清楚到底是怎么执行的。 而在python里面有包import threading引入这个包之后就可以写自己的多线程了 写多线程的时候需要注意数据的一直性,比如说俩个线程,一个列表, 线程一二同时开始对一个列表进行操作,线程一删除了列表

2017-03-26 14:37:24 763

原创 scrapy的简单学习

scrapy 功能很强大,但我学习的是入门级别的 http://docs.pythontab.com/scrapy/scrapy0.24/topics/selectors.html中文官方文档 http://blog.csdn.net/qq_30242609/article/details/52810840 参考博客教程 http://blog.csdn.ne

2016-12-19 19:31:06 237

原创 python爬取网易动态评论

打开网易的一条新闻的源代码后,发现并没有所要得评论内容。 经过学习后发现,源代码只是一个完整页面的“骨架”,而我所需要的内容是它的填充物,这时候需要打开工具里面的开发人员工具,从加载的“骨肉”里找到我所要的评论圈住的是类型 找到之后打开网页,发现json类型的格式,用我已学过的正则,bs都不好闹,于是便去了解了正则,发现把json的格式换化成python的格式后,用列表提取内容是一条明朗的道路。

2016-11-03 20:36:52 1364 1

原创 python的bs的简单实例爬取58同城手机信息

58同城我所爬的地址 import reimport urllibfrom bs4 import BeautifulSoupdef gethtml(url): page= urllib.urlopen(url) html=page.read() return htmlhtml=gethtml("http://zjk.58.com/shouji/?PGTID=0d0

2016-10-24 19:44:33 2161

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除