网络爬虫实践二

最新推荐文章于 2023-06-03 14:49:36 发布

weixin_45898104

最新推荐文章于 2023-06-03 14:49:36 发布

阅读量164

点赞数

分类专栏：爬虫

本文链接：https://blog.csdn.net/weixin_45898104/article/details/103346247

版权

爬虫专栏收录该内容

2 篇文章 0 订阅

订阅专栏

网络爬虫实践二

目标：为了获得cnblogs中，blog名，作者名，发布时间，评论数，阅读数

第一步

建立graSpider框架

第二步

在pycharm中settings打开headline
打开网站，用class定位标签titlelnk,看当前页面中有多少个class为titelnk的标签

第三步

打开cmd
workon ,Screip shell
response.css(".titelnk::text").extract()得到正确的数据后，将他复制到pycharm
可以找到他的副节点，双重定位

作者名：response.css(".tlightblue::text").extract()，复制到pycharm
（/a代表class结束）
发布时间：找到副标签
response.css(".poot_item_foot::text").extract()
a=response.css(".poot_item_foot::text").extract()
看列表长度：len(a)，输出结果是40
pycharm：createTimeRaw=response.css(".poot_item_foot::text").extract()
createTime=[]

createTimeRaw=response.css(".poot_item_foot::text").extract()
createTime=[]
for i in range(40):
	if(i%2!=0):
		createTime.append(creaTimeRow[i].strip().replace("发布于",""))
commentRow = response.css(".article_comment a::text").extract()
commentNums=[]
for cR in commentRow:
	cRre = re.match(".*?(\d+).*?",cR,re.S)
	commentNums.append(cRre.group(1))
pass

viewRaw = response.css(".article_view a::text").extract()
viewNums = []
for cR in viewRow:
	cRre = re.match(".*?(\d+).*?",cR,re.S)
	viewNums.append(cRre.group(1))
pass
articleInfos = list(zip(tiile,author,createTime,commentNums,viewNums))

评论数：
response.css(".article_comment a::text").extract()
阅读数同上
用zip函数统一:zip函数

weixin_45898104

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
网络爬虫实践二

网络爬虫实践二目标：为了获得cnblogs中，blog名，作者名，发布时间，评论数，阅读数第一步建立graSpider框架第二步在pycharm中settings打开headline打开网站，用class定位标签titlelnk,看当前页面中有多少个class为titelnk的标签第三步打开cmdworkon ,Screip shellresponse.css(".titeln...
复制链接

扫一扫