爬虫获取CSDN用户的排名

最新推荐文章于 2024-04-29 21:26:07 发布

量化分析

最新推荐文章于 2024-04-29 21:26:07 发布

阅读量665

点赞数

本文链接：https://blog.csdn.net/yagamil/article/details/72372442

版权

原文链接：http://30daydo.com/article/185

可以参考原文链接去看看使用方法。

#Get your range of csdn
'''
http://30daydo.com
contact: weigesysu@qq.com
'''
import urllib2,re
import time
link='http://blog.csdn.net/[b]用户名[/b]/article/details/52858314'
user_agent = "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0)"
header = {"User-Agent": user_agent}
req = urllib2.Request(link, headers=header)
resp = urllib2.urlopen(req)
content = resp.read()
#print content
p=re.compile(r'<li>排名：<span>第(\d+)名</span></li>')
result=p.findall(content)
print result[0]

today=time.strftime("%Y-%m-%d")
print today

f=open("data/csdn_range.txt",'a')
contents=today+'\t'+result[0]+'\n'
f.write(contents)
f.close()