【2019全国职业技能大赛大数据技术】任务二：3-数据采集（20分_答案＜图片+分值＞）

最新推荐文章于 2024-03-09 11:52:10 发布

濯一一

最新推荐文章于 2024-03-09 11:52:10 发布

阅读量1.8k

点赞数 7

分类专栏：全国职业技能“大数据技术与应用”赛题文章标签：大数据技术 Hadoop 全国职业技能竞赛 Python 数据采集

本文链接：https://blog.csdn.net/weixin_44015669/article/details/115333447

版权

全国职业技能“大数据技术与应用”赛题专栏收录该内容

25 篇文章 127 订阅

订阅专栏

本文详细介绍了使用Python进行网络数据爬取的步骤，包括使用Chrome浏览器查找网站异步请求数据，编写爬虫脚本，如hotelscrawl.py中的各个函数，以及数据处理和存储在MySQL数据库的过程。同时，展示了如何创建数据库表结构，并在爬虫运行后从数据库中查询和展示数据。

摘要由CSDN通过智能技术生成

1、使用 chrome 浏览器，查找网站异步请求的数据，在计算机桌面“GZ-032 竞赛文档”文件夹“XXX-02.docx（XXX 代表赛位号、02 代表任务二）”文件中创建并编写完成下表：（2 分）
参考答案见下表：网页源码对应字段每个字段一致得 0.5 分；

内容	网页源码对应字段
酒店评分	grade
酒店名称	hotel_name
酒店星级	star_level
用户点评数	num_comment

2、完善 hotelscrawl.py 中内容，将函数内容截图并保存
1）将完整的 start_requests 函数内容截图并保存；（2 分）
参考答案截图：每个红框区域一致得1 分；（两个红框共 1 分）
2）将完整的 get_city 函数内容截图并保存；（5 分）
参考答案截图：每个红框区域一致得 1分；（五个红框共 5 分）
3）将完整的 get_page 函数内容截图并保存；（1 分）
参考答案截图：每个红框区域一致得 1 分；
4）将完整的 get_hotel_id 函数内容截图并保存；（4 分）
参考答案截图：每个红框区域一致得 1 分；（四个红框共 4 分）
5）将完整的 parse 函数内容截图并保存；（2 分）
参考答案截图：红框区域每行代码一致得 0.5 分；（四行代码共 2 分）
3、根据爬取字段，在 MySQL 中创建 crawl 数据库，根据爬虫字段，在该数据库中创建hotels 表,并查看表结构，将查看结果（含字段总行数）截图并保存;（1 分）
参考答案截图：红框区域结果一致得得 1 分；
4、完善 pipelines.py 中内容，将函数内容截图并保存；
1）将完整的 process_item 函数内容截图并保存；（1 分）
参考答案截图：红框区域结果一致得得 1 分；
5、爬虫程序运行结束后查看 MySQL 数据库，按 seq 倒序排序，返回前 4 行数据，将命令与查看结果截图并保存。（2 分）
参考答案截图：每个红框区域结果一致得1分;（两个红框共 2 分 )

濯一一

关注

7
点赞
踩
18

收藏

觉得还不错? 一键收藏
打赏
1
评论
【2019全国职业技能大赛大数据技术】任务二：3-数据采集（20分_答案＜图片+分值＞）

1、使用 chrome 浏览器，查找网站异步请求的数据，在计算机桌面“GZ-032 竞赛文档”文件夹“XXX-02.docx（XXX 代表赛位号、02 代表任务二）”文件中创建并编写完成下表：（2 分）参考答案见下表：网页源码对应字段每个字段一致得 0.5 分；内容网页源码对应字段酒店评分 grade 酒店名称 hotel_name 酒店星级 star_level 用户点评数 num_comment 2、完善 hotelscrawl.py 中内
复制链接

扫一扫