前言
最近,本可人儿最近在学习大数据的分析和计算,正好利用所学的Spark的相关知识做一点小东西。使用的语言是python。
使用工具
爬虫:Scrapy框架和Xpath数据解析
数据存储:MySQL
数据分析:Spark 3.2.0
数据可视化:pyecharts库
IED:Pycharm
OS:Ubuntu 20.04
设计步骤
一、Hadoop和Spark的安装配置
这些工具的安装和配置都在站内可以找到,本可人儿安装的Hadoop和Spark只是本地模式,没有构建集群。
二、爬虫代码的编写
1、登录链家官网、进入二手房页面,进入二手房具体页面,观察具体需要爬取数据的位置。
可以发现,主要爬取的信息(楼盘名,房价,所在区名)位于body标签下的class值为overview的div标签下的class值为aroundInfo的div标签下,可以通过右键点击相应信息的标签,复制xpath路径,从而定位信息
2、定制爬虫
在Scrapy爬虫模板下的item.py文件中定制爬取信息,在middleware.py中编写代理中间件和随机请求头中间件,随机请求头使用fake_useragent库。在新建的爬虫文件中编写爬虫代码。修改pipeline.pyÿ