【2019全国职业技能大赛大数据技术】任务二:3-数据采集(20分_答案<图片+分值>)

本文详细介绍了使用Python进行网络数据爬取的步骤,包括使用Chrome浏览器查找网站异步请求数据,编写爬虫脚本,如hotelscrawl.py中的各个函数,以及数据处理和存储在MySQL数据库的过程。同时,展示了如何创建数据库表结构,并在爬虫运行后从数据库中查询和展示数据。
摘要由CSDN通过智能技术生成

1、 使用 chrome 浏览器,查找网站异步请求的数据,在计算机桌面“GZ-032 竞赛文档”文件夹“XXX-02.docx(XXX 代表赛位号、02 代表任务二)”文件中创建并编写完成下表:(2 分)
参考答案见下表:网页源码对应字段每个字段一致得 0.5 分;

内容网页源码对应字段
酒店评分grade
酒店名称hotel_name
酒店星级star_level
用户点评数num_comment


2、 完善 hotelscrawl.py 中内容,将函数内容截图并保存
1) 将完整的 start_requests 函数内容截图并保存;(2 分)
参考答案截图:每个红框区域 一致得1  分; (两个红框共 1 分 )
2) 将完整的 get_city 函数内容截图并保存;(5 分)
参考答案截图:每个红框区域 一致得 1分; (五个红框共 5 分 )
3) 将完整的 get_page 函数内容截图并保存;(1 分)
参考答案截图:每个红框区域 一致得 1 分;
4) 将完整的 get_hotel_id 函数内容截图并保存;(4 分)
参考答案截图:每个红框区域 一致得 1 分; (四个红框共 4 分 )
5) 将完整的 parse 函数内容截图并保存;(2 分)
参考答案截图:红框区域 每行代码 一致得 0.5 分; (四行代码共 2 分 )
3、 根据爬取字段,在 MySQL 中创建 crawl 数据库,根据爬虫字段,在该数据库中创建hotels 表,并查看表结构,将查看结果(含字段总行数)截图并保存;(1 分)
参考答案截图:红框区域 结果一致得 得 1 分;
4、 完善 pipelines.py 中内容,将函数内容截图并保存;
1) 将完整的 process_item 函数内容截图并保存;(1 分)
参考答案截图:红框区域 结果一致得 得 1 分;
5、 爬虫程序运行结束后查看 MySQL 数据库,按 seq 倒序排序,返回前 4 行数据,将命令与查看结果截图并保存。(2 分)
参考答案截图: 每个 红框区域 结果一致得1分;(两个红框共 2 分 )

  • 7
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

濯一一

你的鼓励:我最大的动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值