【爬虫】scrapy下载股票列表（二）—— 内容解析及中间件模拟翻页

最新推荐文章于 2023-04-09 20:03:04 发布

迷迷迷迷路的鹿鹿

最新推荐文章于 2023-04-09 20:03:04 发布

阅读量510

点赞数 1

分类专栏：实战区爬虫文章标签： scrapy 中间件 selenium 翻页 XPATH

本文链接：https://blog.csdn.net/yao09605/article/details/94435238

版权

上回做到把一个页面里面的整个HTML爬下来，下面我们要从中提取我们需要的数据。先试一下取一个数方法很简单，找到网页中对应的HTML代码，右键copy->copy Xpath def parse(self,response): stock_id = response.xpath('//*[@id="table_wrapper-table"]/tbody/tr[1]/td[2]/a...

摘要由CSDN通过智能技术生成

上回做到把一个页面里面的整个HTML爬下来，下面我们要从中提取我们需要的数据。
先试一下取一个数
方法很简单，找到网页中对应的HTML代码，右键copy->copy Xpath
在这里插入图片描述

	def parse(self,response):

		stock_id = response.xpath('//*[@id="table_wrapper-table"]/tbody/tr[1]/td[2]/a/text()')
		self.log('stock id %s' % stock_id)
		'''
		filename = 'stock_file'
		with open(filename,'wb') as f:
			f.write(response.body)
		'''
		# self.log('save file %s' % filename)

可以看到已经取到一个股票代码了
在这里插入图片描述
下面试下把一页当中的股票代码都弄下来：

	def parse(self,response):
		items = response.xpath('//*[@id="table_wrapper-table"]/tbody/tr')
		for item in items:
			stock_id = item.xpath('td[2]/a/text()').extract()[0]
			self.log(stock_id)

可以看到代码了
在这里插入图片描述
用同样方法把需要的数据都弄下来，打个日志检查一下数据

	def parse(self,response):
		items = response.xpath('//*[@id="table_wrapper-table"]/tbody/tr')
		for item in items:
			stock_id = item.xpath('td[2]/a/text()').extract()[0]  # 股票编号
			stock_name = item.xpath('td[3]/a/text()').extract()[0]  # 股票名称
			last_price = item.xpath('td[5]/span/text()').extract()[0]  # 最新价格
			increase_percent = item.xpath('td[6]/span/text()').extract()[0]  # 最新涨幅
			increase_amount = item.xpath('td[7]/span/text()').extract()[0]  # 最新增长额
			turn_over_hand = item.xpath('td[8]/text()').extract()[0]  # 成交量（手）
			turn_over_amount = item.xpath('td[9]/text()').extract()[0]  # 成交额
			amplitude = item.xpath('td[10]/text()').extract()[0]  # 振幅
			highest = item.xpath('td[11]/span/text()').extract()[0

最低0.47元/天解锁文章

迷迷迷迷路的鹿鹿

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
2
评论
【爬虫】scrapy下载股票列表（二）—— 内容解析及中间件模拟翻页

上回做到把一个页面里面的整个HTML爬下来，下面我们要从中提取我们需要的数据。先试一下取一个数方法很简单，找到网页中对应的HTML代码，右键copy->copy Xpath def parse(self,response): stock_id = response.xpath('//*[@id="table_wrapper-table"]/tbody/tr[1]/td[2]/a...
复制链接

扫一扫