网络爬虫实践二
目标:为了获得cnblogs中,blog名,作者名,发布时间,评论数,阅读数
第一步
建立graSpider框架
第二步
在pycharm中settings打开headline
打开网站,用class定位标签titlelnk,看当前页面中有多少个class为titelnk的标签
第三步
打开cmd
workon ,Screip shell
response.css(".titelnk::text").extract()得到正确的数据后,将他复制到pycharm
可以找到他的副节点,双重定位
作者名:response.css(".tlightblue::text").extract(),复制到pycharm
(/a代表class结束)
发布时间:找到副标签
response.css(".poot_item_foot::text").extract()
a=response.css(".poot_item_foot::text").extract()
看列表长度:len(a),输出结果是40
pycharm:createTimeRaw=response.css(".poot_item_foot::text").extract()
createTime=[]
createTimeRaw=response.css(".poot_item_foot::text").extract()
createTime=[]
for i in range(40):
if(i%2!=0):
createTime.append(creaTimeRow[i].strip().replace("发布于",""))
commentRow = response.css(".article_comment a::text").extract()
commentNums=[]
for cR in commentRow:
cRre = re.match(".*?(\d+).*?",cR,re.S)
commentNums.append(cRre.group(1))
pass
viewRaw = response.css(".article_view a::text").extract()
viewNums = []
for cR in viewRow:
cRre = re.match(".*?(\d+).*?",cR,re.S)
viewNums.append(cRre.group(1))
pass
articleInfos = list(zip(tiile,author,createTime,commentNums,viewNums))
评论数:
response.css(".article_comment a::text").extract()
阅读数同上
用zip函数统一:zip函数