xpath爬取当当网

xpath爬取当当网

import requests
from lxml import etree
#from itertools import chain
#import json # 利用接口读取访问json文件
import time
'''
xpath爬取当当网图书畅销榜
'''

def main():
	#r = []
	d = {}

	for i in range(1,26):
		resp = requests.get('http://bang.dangdang.com/books/bestsellers/01.00.00.00.00.00-recent7-0-0-1-'+str(i))
		res_xpath = etree.HTML(resp.text)
		title = res_xpath.xpath('///div[@class="name"]/a/text()') # 书名
		author = res_xpath.xpath('///div[@class="publisher_info"]/a[@title]/text()') # 作者
		price = res_xpath.xpath('///div[@class="price"]/p/span[@class="price_n"]/text()') # 价格
		#publisher = res_xpath.xpath('///div[@class="publisher_info"]/a[@href]/text()') # 出版社
		star = res_xpath.xpath('///div[@class="star"]/span[@class="tuijian"]/text()') # 推荐度
		date = res_xpath.xpath('///div[@class="publisher_info"]/span/text()') # 出版日期
		d.setdefault('_title',[]).append(title) # 格式化字典
		d.setdefault('_author',[]).append(author)
		d.setdefault('_price',[]).append(price)
		d.setdefault('_star',[]).append(star)
		d.setdefault('_date',[]).append(date)
		print('第%s页爬取完成!' % i)

		#r = list(chain(r,rst))
		time.sleep(1)
	print(d)
	# with open('D:/r/book4.txt','a+',encoding='utf-8') as f:
	# 	for i in range(0,len(r)):
	# 		f.write(str(i+1)+'. '+r[i]+'\n')
	# 	# data_model = json.loads(i)
	# 	# for news in data_model:
	# 	# 	print(news)
	# 	# #print(rst)

	# 	print('已全部写入!')
		


if __name__ == '__main__':
    main()
  • 3
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值