网络爬虫实践二

网络爬虫实践二

目标:为了获得cnblogs中,blog名,作者名,发布时间,评论数,阅读数

第一步

建立graSpider框架

第二步

在pycharm中settings打开headline
打开网站,用class定位标签titlelnk,看当前页面中有多少个class为titelnk的标签

第三步

打开cmd
workon ,Screip shell
response.css(".titelnk::text").extract()得到正确的数据后,将他复制到pycharm
可以找到他的副节点,双重定位

作者名:response.css(".tlightblue::text").extract(),复制到pycharm
(/a代表class结束)
发布时间:找到副标签
response.css(".poot_item_foot::text").extract()
a=response.css(".poot_item_foot::text").extract()
看列表长度:len(a),输出结果是40
pycharm:createTimeRaw=response.css(".poot_item_foot::text").extract()
createTime=[]

createTimeRaw=response.css(".poot_item_foot::text").extract()
createTime=[]
for i in range(40):
	if(i%2!=0):
		createTime.append(creaTimeRow[i].strip().replace("发布于",""))
commentRow = response.css(".article_comment a::text").extract()
commentNums=[]
for cR in commentRow:
	cRre = re.match(".*?(\d+).*?",cR,re.S)
	commentNums.append(cRre.group(1))
pass

viewRaw = response.css(".article_view a::text").extract()
viewNums = []
for cR in viewRow:
	cRre = re.match(".*?(\d+).*?",cR,re.S)
	viewNums.append(cRre.group(1))
pass
articleInfos = list(zip(tiile,author,createTime,commentNums,viewNums))

评论数:
response.css(".article_comment a::text").extract()
阅读数同上
用zip函数统一:zip函数

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值