爬虫zjzx.py

最新推荐文章于 2024-08-16 17:41:41 发布

weixin_46945014

最新推荐文章于 2024-08-16 17:41:41 发布

阅读量249

点赞数

文章标签：爬虫 linq html

本文链接：https://blog.csdn.net/weixin_46945014/article/details/122266720

版权

import scrapy
import re
import requests
from ..items import ZjzxItem
def getURL(No):
for i in range(No):
url="http://finance.stockstar.com/finance/macrodata/gdplist.aspx?page={}&order=1&by=1".format(i)
yield url
class Zjzx1Spider(scrapy.Spider):
name = 'zjzx1'
allowed_domains = ['finance.stockstar.com/finance/macrodata/gdplist.aspx']
start_urls = [url for url in getURL(4)]

def parse(self, response):
# pagelist=response.xpath("//div[@class='pager right']//a/text()").extract()
# page=pagelist[:-1]
trlist =response.xpath("//div[@class='mainFrame']//tr")
trlist =trlist[2:]
for i in range(0,len(trlist)):
tdlist =trlist[i].xpath("td/text()").extract()
spanlist=trlist[0].xpath("td/span[@class='red_color']/text()").extract()
shujuriqi = tdlist[0]
gnsczzjde = tdlist[1]
dycyjde =tdlist[2]
decyjde = tdlist[3]
dscyjde =tdlist[4]

gnsczztbzj = spanlist[0]
dycytbzj = spanlist[1]
decytbzj = spanlist[2]
dscytbzj = spanlist[3]
yield ZjzxItem( shujuriqi = shujuriqi , gnsczzjde= gnsczzjde,gnsczztbzj=gnsczztbzj,dycyjde=dycyjde,dycytbzj=dycytbzj,decyjde=decyjde,
decytbzj= decytbzj, dscyjde = dscyjde , dscytbzj=dscytbzj )
for i in range(2,5):
url="http://finance.stockstar.com/finance/macrodata/gdplist.aspx?page={}&order=1&by=1".format(i)
yield scrapy.http.Request(url,self.parse,meta={"stockcode":i})

weixin_46945014

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
爬虫zjzx.py

import scrapyimport reimport requestsfrom ..items import ZjzxItemdef getURL(No): for i in range(No): url="http://finance.stockstar.com/finance/macrodata/gdplist.aspx?page={}&order=1&by=1".format(i) yield urlclass Zjzx1Spide...
复制链接

扫一扫