Crawler
文章平均质量分 62
zhyz_zheng
这个作者很懒,什么都没留下…
展开
-
学习网站集合
Python入门教程: http://www.jb51.net/article/926.htm 正则表达式30分钟入门教程:http://www.jb51.net/tools/zhengze.html 在线正则表达式测试工具: http://www.jb51.net/tools/zhengze.htm原创 2013-05-04 20:54:25 · 677 阅读 · 1 评论 -
网页爬虫(Python)
1. 有些网址后面有spm值,比如 http://bendi.koubei.com/shenzhen/list--page-1?spm=5026.1000614.1000245.2.3jN3A1,spm是淘宝统计反向链接用的,便于统计流量,定位来源,这个网址与 http://bendi.koubei.com/shenzhen/list--page-1打开的是同一个网页。 2.去掉所有HTML标签原创 2013-02-27 14:31:01 · 2283 阅读 · 3 评论 -
Python实现布隆过滤器
转载自:转载 2014-06-19 13:46:50 · 4356 阅读 · 0 评论 -
test
import urllib2 import socket def spider(self,url,headers,tryTime=3): try: req = urllib2.Request(url=url,headers=headers) page = urllib2.urlopen(req,timeout=30) except urllib2.原创 2014-06-19 16:03:27 · 462 阅读 · 0 评论