爬虫+数据库+大数据分析

最新推荐文章于 2024-10-03 15:15:00 发布

人生无重来

最新推荐文章于 2024-10-03 15:15:00 发布

阅读量5.1k

点赞数 11

分类专栏：大数据学习文章标签：大数据数据分析 python hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44701468/article/details/107149637

版权

本文介绍了利用Python爬虫从前程无忧网站抓取大数据相关岗位数据，存储到MongoDB，再进行Hadoop环境下的数据清洗和分析。通过Hive进行薪资、岗位分布等统计，并用图表展示结果，加深了对爬虫、数据库和大数据分析的理解。

摘要由CSDN通过智能技术生成

总体要求
利用python编写爬虫程序，从招聘网站上爬取数据，将数据存入到MongoDB数据库中，将存入的数据作一定的数据清洗后做数据分析，最后将分析的结果做数据可视化。
**

前期准备

**
1、配置大数据需要的环境
（1）配置Hadoop环境：可看博客：
（2）配置zookeeper环境：https://blog.csdn.net/weixin_44701468/article/details/106822805
（3）配置spark环境：
（3）配置hive环境：
（3）配置spark环境：
2、下载好需要的数据库：Mysql、MangoDB
3、准备好需要的数据：
在这里插入图片描述
爬取的是招聘网站前程无忧，由于爬取的一个数据不是很多，我就爬取了几个分别保存到了几个表中，大约有个百多兆的数据（数据量越多越好），第一次学习

具体实现过程

1、编写爬虫框架，爬取数据

最低0.47元/天解锁文章

人生无重来

关注

11
点赞
踩
69

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。