python爬虫
用实践检验真知
鱼小洲
一名在Java行业慢慢自学而且摸爬滚打的弟中弟,技术没有,只会吹牛逼,精通各大框架以及开发语言单词的拼写,很高兴认识你。
展开
-
基于大数据平台分析前程无忧大数据招聘信息实现数据可视化
目录前言环境搭建Hadoop分布式平台环境前提准备安装VMware和三台centoos起步jdk环境(我这儿用的1.8)1、卸载现有jdk2、传输文件flume环境基于scrapy实现的数据抓取分析网页实现代码抓取全部岗位的网址字段提取代码改进利用hdfs存储文件导出数据存储数据数据分析思路分析具体要求分析“数据分析”、“大数据开发工程师”、“数据采集”等岗位的平均工资、最高工资、最低工资,并作条形图将结果展示出来;分析“数据分析”、“大数据开发工程师”、“数据采集”等大数据相关岗位在成都、北京、上海、广州原创 2020-07-14 16:40:16 · 13467 阅读 · 8 评论 -
使用scrapy爬取前程无忧所有大数据岗位并做出数据可视化
项目目录项目要求工具软件具体知识点具体要求数据源爬取字段数据存储数据分析与可视化具体步骤分析网页实现代码抓取全部岗位的网址字段提取可视化分析“数据分析”、“大数据开发工程师”、“数据采集”等岗位的平均工资、最高工资、最低工资,并作条形图将结果展示出来分析“数据分析”、“大数据开发工程师”、“数据采集”等大数据相关岗位在成都、北京、上海、广州、深圳的岗位数,并做条形图将结果展示出来分析大数据相关岗位1-3年工作经验的薪资水平(平均工资、最高工资、最低工资),并做出条形图展示出来将数据采集岗位要求的技能做出词云原创 2020-06-24 21:41:29 · 7131 阅读 · 16 评论 -
利用scrapy批量下载个人简历
1、前言写这个程序和博客的原因,纯粹是出于无聊。上课老师不准我们带耳机,所以就看不了视频,学不了新知识。所以,正想着马上毕业了,正好也需要个人简历来参加面试,我呢,又不想自己去下载,就只有写个程序来搞他了。2、前景准备2.1、工具pycharm2020.1.1python3.7chrome2.2、用到的工具库scrapy,requests,os2.3、实现思路既然是批量下载,那么就需要每个网页的所有简历的url,我们就可以使用scrapy的yield推送网址解析。3、步骤实现3.1原创 2020-06-22 10:48:16 · 715 阅读 · 1 评论 -
解决fake_useragent.errors.FakeUserAgentError: Maximum amount of retries reached问题
直接上手,不多bbfake_useragent中存储的UserAgent列表发生了变动,而本地UserAgent的列表未更新所导致的,在更新fake_useragent后报错就消失了。pip install -U fake-useragentPython的其他包也可以用这种方法完成更新pip install -U 包名。...原创 2020-06-03 17:52:04 · 16693 阅读 · 13 评论