python3 数据挖掘 之 爬取 智联招聘网站来巩固pandas

本文通过Python3爬取智联招聘网站的数据,利用pandas进行分析,旨在加深对pandas的理解,为数据挖掘学习奠定基础。提供了相关学习资源链接。
摘要由CSDN通过智能技术生成

写在前面

通过使用pandas对智联招聘上的数据进行分析,进一步的了解,熟悉pandas为后面学习数据挖掘打基础

更多学习链接可访问主页:
https://blog.csdn.net/xudailong_blog

运行环境:

python3 ,jupyter notebook

## 下面为jupyter notebook上代码(含详细注释) # 数据表基本信息(维度,列名称,数据格式,所占空间) df.info()

    <class 'pandas.core.frame.DataFrame'>
    RangeIndex: 4541 entries, 0 to 4540
    Data columns (total 7 columns):
    address     4453 non-null object
    company     4541 non-null object
    job_info    4541 non-null object
    job_link    4541 non-null object
    job_name    4541 non-null object
    job_tags    4541 non-null object
    salary      4541 non-null float64
    dtypes: float64(1), object(6)
    memory usage: 248.4+ KB



```python




<div class="se-preview-section-delimiter"></div>

# 每一列数据的格式
df.dtypes




<div class="se-preview-section-delimiter"></div>
address object company object job_info object job_link object job_name object job_tags object salary float64 dtype: object




<div class="se-preview-section-delimiter"></div>

# 某一列格式
df['job_name'].dtype




<div class="se-preview-section-delimiter"></div>
dtype(‘O’)




<div class="se-preview-section-delimiter"></div>

# 空值
df.isnull()




<div class="se-preview-section-delimiter"></div>
.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }
address company job_info job_link job_name job_tags salary
0 False False False False False False False
1 False False False False False False False
2 False False False False False False False
3 False False False False False False False
4 False False False False False False False
5 False False False False False False False
6 False False False False False False False
7 False False False False False False False
8 False False False False False False False
9 False False False False False False False
10 False False False False False False False
11 False False False False False False False
12 False False False False False False False
13 False False False False False False False
14 False False False False False False False
15 False False False False False False False
16 False False False False False False False
17 False False False False False False False
18 False False False False False False False
19 False False False False False False False
20 False False False False False False False
21 False False False False False False False
22 False False False False False False False
23 False False False False False False False
24 False False False False False False False
25 False False False False False False False
26 False False False False False False False
27 False False False False False False False
28 False False False False False False False
29 False False False False False False False
4511 False False False False False False False
4512 False False False False False False False
4513 False False False False False False False
4514 False False False False False False False
4515 False False False False False False False
4516 False False False False False False False
4517 False False False False False False False
4518 False False False False False False False
4519 False False False False False False False
4520 False False False False False False False
4521 False False False False False False False
4522 False False False False False False False
4523 False False False False False False False
4524 False False False False False False False
4525 False False False False False False False
4526 False False False False False False False
4527 False False False False False False False
4528 False False False False False False False
4529 False False False False False False False
4530 False False False False False False False
4531 False False False False False False False
4532 False False False False False False False
4533 False False False False False False False
4534 False False False False False False False
4535 False False False False False False False
4536 False False False False False False False
4537 False False False False False False False
4538 False False False False False False False
4539 False False False False False False False
4540 False False False False False False False

4541 rows × 7 columns





<div class="se-preview-section-delimiter"></div>

# 某一列的格式
df.dtypes




<div class="se-preview-section-delimiter"></div>
address      object
company      object
job_info     object
job_link     object
job_name     object
job_tags     object
salary      float64
dtype: object




<div class="se-preview-section-delimiter"></div>

# 查看某一列的唯一值
df['job_tags'].unique()




<div class="se-preview-section-delimiter"></div>
array(['五险一金;年底双薪;绩效奖金;加班补助;交通补助;餐补;采暖补贴;定期体检',
       '五险一金;年底双薪;绩效奖金;补充医疗保险;定期体检;员工旅游;带薪年假;弹性工作',
       '五险一金;年底双薪;绩效奖金;补充医疗保险;员工旅游;带薪年假;弹性工作;加班补助', ...,
       '创业公司;周末双休;五险一金;带薪年假;弹性工作;通讯补贴',
       '14薪;健身俱乐部;周末双休;五险一金;餐补;带薪年假;弹性工作;补充医疗保险', '五险一金;股票期权'], dtype=object)




<div class="se-preview-section-delimiter"></div>

# 查看数据表的值
df.values




<div class="se-preview-section-delimiter"></div>
array([['北京市朝阳区裕民路12号 中国国际科技会展中心A座10层', '大连飞创信息技术有限公司',
        '岗位职责:1、按照有关制度和规范的要求,承担代码的编写工作。对开发任务、需求理解透彻,积极配合测试团队开展集成测试工作;2、按照有关制度和规范的要求,参与项目和产品的详细设计工作,并编写设计文档、操作手册;3、可在一定程度上指导初级别开发人员完成相关研发工作。与同事之间进行技术交流,知识共享;4、前沿技术研究,难点攻关。任职要求:1、IT方面学士或学士以上学历;2、工作经验不限;3、掌握C/C++编程, 基本功扎实;4、熟练掌握STL、boost、apr、ACE库中的一种;5、熟悉常用数据结构、算法;6、熟悉TCP/IP协议,熟练掌握Socket编程;7、熟练掌握多线程编程,对并发控制有深入理解;8、熟悉Linux系统,了解Linux C/C++开发、调试工具gcc,g++,gdb,make;9、熟悉Windows图形界面开发技术MFC或WTL,熟练使用开发工具VisualC++。',
        ..., 'C++开发工程师', '五险一金;年底双薪;绩效奖金;加班补助;交通补助;餐补;采暖补贴;定期体检', 17500.0],
       ['丰台区航丰路一号时代财富天地大厦28层', '深圳市八斗才数据有限公司',
        '岗位职责:1、 负责互联网网站产品开发;2、 参与产品设计、架构设计和代码编写;3、 负责问题排查、调试、性能调优等开发相关工作。岗位要求:1、 本科及以上学历2、 学习能力强;3、 精通Python,有2年以上开发经验;4、 熟悉Django开发框架;5、 了解HTML5,JavaScript,CSS3 等前端技术;6、 熟悉MySQL、MongoDB数据库、数据建模、数据处理调优;7、 熟悉Linux环境下的开发环境;8、 熟练掌握git代码管理工具和敏捷开发流程;9、 习惯阅读英文技术文档;10、富有团队合作精神,乐于接受挑战,能承受工作压力。',
        ..., 'python开发工程师(北京)',
        '五险一金;年底双薪;绩效奖金;补充医疗保险;定期体检;员工旅游;带薪年假;弹性工作', 14000.0],
       ['北京市海淀区东北旺西路八号中关村软件园9号楼国际软件大厦', '深圳市芒柠科技有限公司',
        '岗位职责:1、维护现有的平台代码。2、参与项目的架构设计,明确负责开发部分的设计需求。3、按照设计要求和源代码编写规范编写程序代码,对其质量、性能负责。4、编写相关技术文档,负责进行开发阶段的软件测试,包括:单元测试、集成测试。5、产品上线后,配合运维团队保障运营平台的稳定,解决相关技术问题。任职要求:1、熟悉Linux系统操作,精通Python语言开发,同时有C++语言开发经验优先。2、熟悉Gevent/Eventlet 和常用web框架(cherrypy,tornado)优先考虑。3、熟悉网络编程,熟悉Socket、TCP/IP、HTTP及相关标准。4、熟练使用Mysql, 熟练使用Couchbase, Memcache, Redis。5、熟悉常用数据结构和算法。6、熟悉软件开发流程,具备独立开发调试,测试等实践能力。7、具有良好的沟通能力、团队合作能力和创新精神,具备较好的文档创作能力,能承受一定的工作压力。8、有较强的英文读写能力。',
        ..., 'python开发工程师(北京)',
        '五险一金;年底双薪;绩效奖金;补充医疗保险;员工旅游;带薪年假;弹性工作;加班补助', 12500.0],
       ..., 
       ['北京市东城区灯市口大街33号国中商业大厦423室', '北京树优信息技术有限公司',
        '工作职责:    1 负责或参与流体分析技术服务项目2 负责或参与流体优化技术服务项目3 负责软件售前/售后技术支持服务任职要求:1 具有责任感,较强的沟通能力和发现问题与解决问题能力2 具有1~2年或以上的工程应用经验,如汽车热管理、除霜除雾、气动噪声计算、船舶阻力计算、航空航天、电子等领域的CFD分析和优化3 熟练使用至少一种CAD建模工具(如UG,ProE,Catia,Rihno, NAPA等)和前处理软件(如hypermesh,ANSA,tgrid等)进行几何修补和建模处理4 具有通用CFD软件(如Xflow, Fluent,StarCCM+,Shipflow, NUMECA, CFX等)的学习和应用经验5 最好有优化软件(如 Isight,PIAnO, CAESES, Sculptor,TOSCA等)的学习和应用经验6 最好具有DEM离散元软件(如EDEM, StreamDEM等)的学习和应用经验7 最好具有用VB、C、C++、PCL、Python、APDL等相关语言进行二次开发经验8 具有良好的中英文文献调研和报告论文的撰写能力',
        ..., '流体力学仿真优化工程师', '五险一金;绩效奖金;加班补助;交通补助;房补;带薪年假;员工旅游;节日福利', 7000.0],
       ['朝阳区来广营叶青大厦北园308', '北京行易道科技有限公司',
        '岗位职责:1、进行高可靠高安全嵌入式软件测试,包含代码测试、功能测试、性能测试、安全性测试等;2、编写测试计划、规划详细的测试方案、编写测试用例;3、根据测试计划搭建和维护测试环境;4、执行测试工作,提交测试报告。包括编写用于测试的自动测试脚本,完整地记录测试结果,编写完整的测试报告等相关的技术文档;5、对测试中发现的问题进行详细分析和准确定位,与开发人员讨论缺陷解决方案;6、提出对产品的进一步改进的建议,并评估改进方案是否合理;对测试结果进行总结与统计分析,对测试进行跟踪,并提出反馈意见;7、为业务部门提供相应技术支持,确保软件质量指标。任职资格:1)计算机、汽车等相关专业本科以上学历,2年以上测试工作经验;2)具有计算机嵌入式编程、软件测试、系统集成等相关基础知识;3)熟练掌握C语言,理解能力强,善于阅读并理解代码,正确理解开发文档并编写用例;4)熟练掌握至少1门脚本语言(Tcl,PYTHON、SHELL等);5)有责任心、踏实、努力,具有良好的沟通能力、表达能力与逻辑思维能力;工作认真细致、善于思考、勤于学习;',
        ..., '嵌入式软件测试工程师', '14薪;健身俱乐部;周末双休;五险一金;餐补;带薪年假;弹性工作;补充医疗保险',
        10500.0],
       ['东城区王府井东街8号 澳门中心B1层funwork', '睿医(北京)数据技术有限公司',
        '职位描述:1.根据项目需求,独立完成各类型的临床数据的统计分析工作2.参与产品统计模块的功能设计和测试3.根据产品、应用方向,对医疗大数据整体进行统计分析及数据挖掘岗位要求1.卫生统计、流行病学、统计学、应用统计等相关专业背景,硕士及以上学历;至少1年以上统计师、SAS Programmer、医疗行业数据分析等相关工作经验2.有临床经验优先,有医疗/健康数据分析及建模的经验优先3.熟悉医学研究相关的统计方法;熟练掌握至少一门统计编程软件:SAS、R、Python、Stata;4.熟悉临床研究思路、方案设计、样本量计算、随机方案等;5.良好的学习能力、逻辑思维和语言表达能力。',
        ..., '医学统计经理', '五险一金;股票期权', 22500.0]], dtype=object)




<div class="se-preview-section-delimiter"></div>

# 查看列名称
df.columns




<div class="se-preview-section-delimiter"></div>
Index(['address', 'company', 'job_info', 'job_link', 'job_name', 'job_tags',
       'salary'],
      dtype='object')




<div class="se-preview-section-delimiter"></div>

# 查看前10行,后10行数据




<div class="se-preview-section-delimiter"></div>

# 默认前10行数据
df.head()




<div class="se-preview-section-delimiter"></div>

# 默认后10行数据




<div class="se-preview-section-delimiter"></div>

# df.tail()




<div class="se-preview-section-delimiter"></div>
.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }
address company job_info job_link job_name job_tags salary
0 北京市朝阳区裕民路12号 中国国际科技会展中心A座10层 大连飞创信息技术有限公司 岗位职责:1、按照有关制度和规范的要求,承担代码的编写工作。对开发任务、需求理解透彻,积极配… https://m.zhaopin.com//jobs/210653218250637/ C++开发工程师 五险一金;年底双薪;绩效奖金;加班补助;交通补助;餐补;采暖补贴;定期体检 17500.0
1 丰台区航丰路一号时代财富天地大厦28层 深圳市八斗才数据有限公司 岗位职责:1、 负责互联网网站产品开发;2、 参与产品设计、架构设计和代码编写;3、 负责问… https://m.zhaopin.com//jobs/cz562550030j000298… python开发工程师(北京) 五险一金;年底双薪;绩效奖金;补充医疗保险;定期体检;员工旅游;带薪年假;弹性工作 14000.0
2 北京市海淀区东北旺西路八号中关村软件园9号楼国际软件大厦 深圳市芒柠科技有限公司 岗位职责:1、维护现有的平台代码。2、参与项目的架构设计,明确负责开发部分的设计需求。3、按… https://m.zhaopin.com//jobs/cz466965980j000547… python开发工程师(北京) 五险一金;年底双薪;绩效奖金;补充医疗保险;员工旅游;带薪年假;弹性工作;加班补助 12500.0
3 北京市朝阳区高碑店陈家林9号院华腾世纪总部公园A座3楼 深圳市源极光科技有限公司 技术要求:1、精通Python语言,熟悉Python多线程 socket通信机制;2、精通流… https://m.zhaopin.com//jobs/cz897833860j000551… python工程师(北京) 五险一金;补充医疗保险;定期体检;绩效奖金;年底双薪;带薪年假;弹性工作;员工旅游 12500.0
4 海淀区中关村软件园11号楼大洋大厦 深圳市芒柠科技有限公司 岗位职责:1. 负责云平台应用的开发维护;2. 负责服务器端API的设计与开发。岗位要求:1… https://m.zhaopin.com//jobs/cz730936640j000955… Python开发工程师(北京) 五险一金;补充医疗保险;定期体检;绩效奖金;员工旅游;带薪年假;弹性工作;节日福利 12500.0




<div class="se-preview-section-delimiter<
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值