4月1日
经过了对爬虫框架各部分组件的学习与分析,我明白了爬虫框架Scrapy的使用,并进行了网站爬取的尝试,实现了招聘信息爬取的功能。
爬虫文件的配置:
首先,在spiders目录下创建并编写51job.py的爬虫文件,并配置基本的信息,包括爬虫文件名name、过滤爬取的域名allowed_domains、爬取的当前页号current_page、总页数max_page、起始地址start_urls。我们首先选择了51job招聘网站,先以全国范围、关键字搜索为Java、面向在校生/应届生的信息来进行岗位搜索,起始URL为 https://m.51job.com/search/joblist.php?jobarea=000000&keyword=Java&workyear=01&pageno=1 。
name = "51job"
allowed_domains = ["m.51job.com"]
current_page = 1
max_page = 40
# 全国Java应届生的搜索
start_urls = [
"https://m.51job.com/search/joblist.php?jobarea=000000&keyword=Java&workyear=01&pageno=1",
]
定义需要获取的字段:
其次,通过解析爬取目标网页的内容,确定好需要获取的字段,并将结构化数据字段定义在item.py中。需要获取的数据字段定义及字段说明为:
class PositionItem(scrapy.Item):
head_