1 问题描述
使用Scrapy框架,完成必联网招标信息采集,采集字段:
2 解题提示
- 必联网有些页面需要登录才可以得到响应,需要手动登录,并得到浏览器中的Cookie值,把Cookie加入到请求头中
- 关于数据的提取,有些需要定制正则表达式,比如项目编号可能在详细页的文本中,用普通的XPath无法提取出来,这个需要多看几个页面,多做测试,分析数据格式
- 数据的持久化可以在管道文件中进行,以课程中讲解的为例,把招标信息保存到MySQL数据库中
- 代理IP应该在下载中间件中进行设置,代理IP需要访问第三方的接口,具体参照录播中的步骤讲解
3 评分标准
- 爬虫可以对必联网的招标数据进行采集 20分
- 数据提取的准确性,例如可以更有效的提取出招标编号 10分
- 代码注释,规范10分
4 要点解析
- 注册
- cookie
5 实现步骤
- 创建scrapy,spider
- spider文件
import scrapy
import re
from copy import deepcopy
class TenderdataSpider(scrapy.Spider):
name = 'tender_data'
# 将ss.ebnew.com也添加进来,防止过滤
allowed_domains = ['www.ebnew.com', 'ss.ebnew.com']
# start_urls = ['http://www.ebnew.com/']
# 数据库中存储的数据模式为字典:sql_data
sql_data = dict(
projectcode='', # 项目编号
web='必联网', # 信息来源网站(例如:必联网)
keyword='', # 关键字
detail_url='', # 招标详细页网址
title='', # 第三方网站发布标题
toptype='', # 信息类型
province='', # 归属省份
product='', # 产品范畴
industry='', # 归属行业
tendering_manner='', # 招标方式
publicity_date='', # 招标公示日期
expiry_date='', # 招标截止时间
)
# 因为其提交的方式是POST方式,其form_data按照网站的Form_Data存储
form_data = dict(
infoClassCodes='', #
rangeTyp='', #
projectType='bid', # 这个值不会变换,所以直接默认
fundSourceCodes='', #
dateType='', #
startDateCode='', #
endDateCode='', #
normIndustry='', #
normIndustryName='', #
zone='', #
zoneName='', #
zoneText='', #
key='', # 路由器用户输入的关键词:
pubDateType='', #
pubDateBegin='', #
pubDateEnd='', #
sortMethod='timeDesc', # 这个值不会变换,所以直接默认
orgName='', #
currentPage='', # 当前页面2
)
keyword_s = ['路由器', '变压器']
# 设置start_request
def start_requests(self):
# request需要提交表单
for keyword in self.keyword_s:
# 因为多线程操作,在存储上需要deepcopy
form_data = deepcopy(self.form_data)
form_data['key'] = keyword
form_data['currentPage'] = '1'
# 设置为FormRequest而不是Request,因为需要提交表单数据
request = scrapy.FormRequest(
url='http://ss.ebnew.com/tradingSearch/index.htm',
formdata=form_data,
# 将response提交给start_parse处理,拿到最大的页码
callback=self.start_parse,
)
# 封装form_data数据,因为start_parse需要
request.meta['form_data'] = form_data
yield request
# start_parse 找到所有的页码,然后将这些页码封装在request中,提交给scheduler处理
# 循环将所有的url一次传递给scheduler
def start_parse(self, response):
# 获取包含最大页码的列表
page_max_s = response.xpath('//form[@id="pagerSubmitForm"]/a/text()').extract()
# re.match找到数字
page_max = max([int(page_max) for page_max in page_max_s if re.match('\d+', page_max)])
# 测试用
# page_max = 2
# 提交每一页的表单到parse_page1
for page in range(1,page_max + 1):
# 先获取表单数据,并且deepcopy
form_data = deepcopy(response.meta['form_data'])
# 表单提交的数据就是str:currentPage=''
form_data['currentPage'] = str(page)
request = scrapy.FormRequest(
url='http://ss.ebnew.com/tradingSearch/index.htm',
formdata=form_data,
callback=self.parse_page1,
)
request.meta['form_data'] = form_data
yield request
# parse_page1将第一个页面的xpath的list提取出来,并且保存一部分sql_data数据
# detail_url = '', # 招标详细页网址
# title='', # 第三方网站发布标题
# toptype='', # 信息类型
# province='', # 归属省份
# product='', # 产品范畴
# tendering_manner='', # 招标方式
# publicity_date='', # 招标公示日期
# expiry_date='', # 招标截止时间
def parse_page1(self, response):
form_data = response.meta['form_data']
# xpath所有的页面div,其是一个列表
div_x_s = response.xpath('//div[contains(@class,"abstract-box")]')
for div_x in div_x_s:
# 第一次引用class属性,所以用self
sql_data = deepcopy(self.sql_data)
# sql_data['web']='必联网',在class属性中已经默认
sql_data['detail_url'] = div_x.xpath('./div[1]/a/@href').extract_first()
sql_data['toptype'] = div_x.xpath('./div[1]/i[1]/text()').extract_first()
sql_data['title'] = div_x.xpath('./div[1]/a/text()').extract_first()
sql_data['province'] = div_x.xpath('./div[2]/div[2]/p[2]/span[2]/text()').extract_first()
sql_data['product'] = div_x.xpath('./div[2]/div[1]/p[2]/span[2]/text()').extract_first()
sql_data['tendering_manner'] = div_x.xpath('./div[2]/div[1]/p[1]/span[2]/text()').extract_first()
sql_data['publicity_date'] = div_x.xpath('./div[1]/i[2]/text()').extract_first()
# 去掉'发布日期:'
sql_data['publicity_date'] = re.sub('[^0-9\-]', '', sql_data['publicity_date'])
sql_data['expiry_date'] = div_x.xpath('./div[2]/div[2]/p[1]/span[2]/text()').extract_first()
if sql_data['expiry_date']:
sql_data['expiry_date'] = re.sub('[0-9]{2}[:][0-9]{2}[:][0-9]{2}', '', sql_data['expiry_date'])
else:
sql_data['expiry_date'] = ""
sql_data['keyword'] = form_data.get('key')
# print( sql_data['detail_url'],sql_data['toptype'],sql_data['title'])
# 因为page2是get请求,所以不需要FormRequest
request = scrapy.Request(
url=sql_data['detail_url'],
callback=self.parse_page2,
)
# 将sql_data封装在meta里面,传值
request.meta['sql_data'] = sql_data
# print(sql_data)
yield request
# 页面2处理sql_data的其他部分数据
# projectcode='', # 项目编号
# industry='', # 归属行业
def parse_page2(self, response):
sql_data = response.meta['sql_data']
# print(sql_data)
sql_data['projectcode'] = response.xpath(
'//ul[contains(@class,"ebnew-project-information")]/li[1]/span[2]/text()').extract_first()
# 在页面中使用正则找到项目编号
if not sql_data['projectcode']:
projectcode_find = re.findall(
'(项目编码|项目标号|采购文件编号|招标编号|项目招标编号为|项目编号|竞价文件编号|招标文件编号)[::]{0,1}\s{0,2}\n*(</span\s*>)*\n*(<span.*?>)*\n*(<u*?>)*\n*([a-zA-Z0-9\-_\[\]]{1,100})',
response.body.decode('utf-8'))
if projectcode_find:
sql_data['projectcode'] = projectcode_find[0][4] if projectcode_find else ""
sql_data['industry'] = response.xpath(
'//ul[contains(@class,"ebnew-project-information")]/li[8]/span[2]/text()').extract_first()
# sql_data是一个字典的时候,scrapy engine自动判断将sql_data传递给pipeline
yield sql_data
- 中间件
- 连接数据库,存储数据