众所周知爬虫是用python编程语言实现的,主要用于网络数据的抓取和处理,例如爬取豆瓣电影TOP250、爬取小说等等...
而爬取岗位对于刚毕业的大学生也是非常有必要的,下面我们来看看如何实现吧(用到的编程工具是python3.7)
- 目录
一、抓取岗位信息
1.导库
简单方法:cmd中输入pip install 库名
urllib.request用于模拟浏览器发起HTTP请求
xlwt库是支持python语言对excel表格操作的
re库则是用于对字符串进行正则表达式的匹配和替换
pandas库是一个开放源码、BSD 许可的库,提供高性能、易于使用的数据结构和数据分析工具。
读取爬取到的excel表格
这一部分主要使用pycharts来编辑图表,主要库如下图
2.模拟浏览器发起请求
首先指明请求爬取资源的域名'Host':'search.51job.com'
最关键的是使用正则表达式,弄懂字符串是如何存放到正确列表的,例如像findall,就是在字符串中找到正则表达式所匹配的所有子串,并返回一个列表,如果有多个匹配模式,则返回元组列表,如果没有找到匹配的,则返回列表