写在前面
通过使用pandas对智联招聘上的数据进行分析,进一步的了解,熟悉pandas为后面学习数据挖掘打基础
更多学习链接可访问主页:
https://blog.csdn.net/xudailong_blog
运行环境:
python3 ,jupyter notebook
## 下面为jupyter notebook上代码(含详细注释) # 数据表基本信息(维度,列名称,数据格式,所占空间) df.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4541 entries, 0 to 4540
Data columns (total 7 columns):
address 4453 non-null object
company 4541 non-null object
job_info 4541 non-null object
job_link 4541 non-null object
job_name 4541 non-null object
job_tags 4541 non-null object
salary 4541 non-null float64
dtypes: float64(1), object(6)
memory usage: 248.4+ KB
```python
<div class="se-preview-section-delimiter"></div>
# 每一列数据的格式
df.dtypes
<div class="se-preview-section-delimiter"></div>
address object company object job_info object job_link object job_name object job_tags object salary float64 dtype: object
<div class="se-preview-section-delimiter"></div>
# 某一列格式
df['job_name'].dtype
<div class="se-preview-section-delimiter"></div>
dtype(‘O’)
<div class="se-preview-section-delimiter"></div>
# 空值
df.isnull()
<div class="se-preview-section-delimiter"></div>
.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }
address | company | job_info | job_link | job_name | job_tags | salary | |
---|---|---|---|---|---|---|---|
0 | False | False | False | False | False | False | False |
1 | False | False | False | False | False | False | False |
2 | False | False | False | False | False | False | False |
3 | False | False | False | False | False | False | False |
4 | False | False | False | False | False | False | False |
5 | False | False | False | False | False | False | False |
6 | False | False | False | False | False | False | False |
7 | False | False | False | False | False | False | False |
8 | False | False | False | False | False | False | False |
9 | False | False | False | False | False | False | False |
10 | False | False | False | False | False | False | False |
11 | False | False | False | False | False | False | False |
12 | False | False | False | False | False | False | False |
13 | False | False | False | False | False | False | False |
14 | False | False | False | False | False | False | False |
15 | False | False | False | False | False | False | False |
16 | False | False | False | False | False | False | False |
17 | False | False | False | False | False | False | False |
18 | False | False | False | False | False | False | False |
19 | False | False | False | False | False | False | False |
20 | False | False | False | False | False | False | False |
21 | False | False | False | False | False | False | False |
22 | False | False | False | False | False | False | False |
23 | False | False | False | False | False | False | False |
24 | False | False | False | False | False | False | False |
25 | False | False | False | False | False | False | False |
26 | False | False | False | False | False | False | False |
27 | False | False | False | False | False | False | False |
28 | False | False | False | False | False | False | False |
29 | False | False | False | False | False | False | False |
… | … | … | … | … | … | … | … |
4511 | False | False | False | False | False | False | False |
4512 | False | False | False | False | False | False | False |
4513 | False | False | False | False | False | False | False |
4514 | False | False | False | False | False | False | False |
4515 | False | False | False | False | False | False | False |
4516 | False | False | False | False | False | False | False |
4517 | False | False | False | False | False | False | False |
4518 | False | False | False | False | False | False | False |
4519 | False | False | False | False | False | False | False |
4520 | False | False | False | False | False | False | False |
4521 | False | False | False | False | False | False | False |
4522 | False | False | False | False | False | False | False |
4523 | False | False | False | False | False | False | False |
4524 | False | False | False | False | False | False | False |
4525 | False | False | False | False | False | False | False |
4526 | False | False | False | False | False | False | False |
4527 | False | False | False | False | False | False | False |
4528 | False | False | False | False | False | False | False |
4529 | False | False | False | False | False | False | False |
4530 | False | False | False | False | False | False | False |
4531 | False | False | False | False | False | False | False |
4532 | False | False | False | False | False | False | False |
4533 | False | False | False | False | False | False | False |
4534 | False | False | False | False | False | False | False |
4535 | False | False | False | False | False | False | False |
4536 | False | False | False | False | False | False | False |
4537 | False | False | False | False | False | False | False |
4538 | False | False | False | False | False | False | False |
4539 | False | False | False | False | False | False | False |
4540 | False | False | False | False | False | False | False |
4541 rows × 7 columns
<div class="se-preview-section-delimiter"></div>
# 某一列的格式
df.dtypes
<div class="se-preview-section-delimiter"></div>
address object
company object
job_info object
job_link object
job_name object
job_tags object
salary float64
dtype: object
<div class="se-preview-section-delimiter"></div>
# 查看某一列的唯一值
df['job_tags'].unique()
<div class="se-preview-section-delimiter"></div>
array(['五险一金;年底双薪;绩效奖金;加班补助;交通补助;餐补;采暖补贴;定期体检',
'五险一金;年底双薪;绩效奖金;补充医疗保险;定期体检;员工旅游;带薪年假;弹性工作',
'五险一金;年底双薪;绩效奖金;补充医疗保险;员工旅游;带薪年假;弹性工作;加班补助', ...,
'创业公司;周末双休;五险一金;带薪年假;弹性工作;通讯补贴',
'14薪;健身俱乐部;周末双休;五险一金;餐补;带薪年假;弹性工作;补充医疗保险', '五险一金;股票期权'], dtype=object)
<div class="se-preview-section-delimiter"></div>
# 查看数据表的值
df.values
<div class="se-preview-section-delimiter"></div>
array([['北京市朝阳区裕民路12号 中国国际科技会展中心A座10层', '大连飞创信息技术有限公司',
'岗位职责:1、按照有关制度和规范的要求,承担代码的编写工作。对开发任务、需求理解透彻,积极配合测试团队开展集成测试工作;2、按照有关制度和规范的要求,参与项目和产品的详细设计工作,并编写设计文档、操作手册;3、可在一定程度上指导初级别开发人员完成相关研发工作。与同事之间进行技术交流,知识共享;4、前沿技术研究,难点攻关。任职要求:1、IT方面学士或学士以上学历;2、工作经验不限;3、掌握C/C++编程, 基本功扎实;4、熟练掌握STL、boost、apr、ACE库中的一种;5、熟悉常用数据结构、算法;6、熟悉TCP/IP协议,熟练掌握Socket编程;7、熟练掌握多线程编程,对并发控制有深入理解;8、熟悉Linux系统,了解Linux C/C++开发、调试工具gcc,g++,gdb,make;9、熟悉Windows图形界面开发技术MFC或WTL,熟练使用开发工具VisualC++。',
..., 'C++开发工程师', '五险一金;年底双薪;绩效奖金;加班补助;交通补助;餐补;采暖补贴;定期体检', 17500.0],
['丰台区航丰路一号时代财富天地大厦28层', '深圳市八斗才数据有限公司',
'岗位职责:1、 负责互联网网站产品开发;2、 参与产品设计、架构设计和代码编写;3、 负责问题排查、调试、性能调优等开发相关工作。岗位要求:1、 本科及以上学历2、 学习能力强;3、 精通Python,有2年以上开发经验;4、 熟悉Django开发框架;5、 了解HTML5,JavaScript,CSS3 等前端技术;6、 熟悉MySQL、MongoDB数据库、数据建模、数据处理调优;7、 熟悉Linux环境下的开发环境;8、 熟练掌握git代码管理工具和敏捷开发流程;9、 习惯阅读英文技术文档;10、富有团队合作精神,乐于接受挑战,能承受工作压力。',
..., 'python开发工程师(北京)',
'五险一金;年底双薪;绩效奖金;补充医疗保险;定期体检;员工旅游;带薪年假;弹性工作', 14000.0],
['北京市海淀区东北旺西路八号中关村软件园9号楼国际软件大厦', '深圳市芒柠科技有限公司',
'岗位职责:1、维护现有的平台代码。2、参与项目的架构设计,明确负责开发部分的设计需求。3、按照设计要求和源代码编写规范编写程序代码,对其质量、性能负责。4、编写相关技术文档,负责进行开发阶段的软件测试,包括:单元测试、集成测试。5、产品上线后,配合运维团队保障运营平台的稳定,解决相关技术问题。任职要求:1、熟悉Linux系统操作,精通Python语言开发,同时有C++语言开发经验优先。2、熟悉Gevent/Eventlet 和常用web框架(cherrypy,tornado)优先考虑。3、熟悉网络编程,熟悉Socket、TCP/IP、HTTP及相关标准。4、熟练使用Mysql, 熟练使用Couchbase, Memcache, Redis。5、熟悉常用数据结构和算法。6、熟悉软件开发流程,具备独立开发调试,测试等实践能力。7、具有良好的沟通能力、团队合作能力和创新精神,具备较好的文档创作能力,能承受一定的工作压力。8、有较强的英文读写能力。',
..., 'python开发工程师(北京)',
'五险一金;年底双薪;绩效奖金;补充医疗保险;员工旅游;带薪年假;弹性工作;加班补助', 12500.0],
...,
['北京市东城区灯市口大街33号国中商业大厦423室', '北京树优信息技术有限公司',
'工作职责: 1 负责或参与流体分析技术服务项目2 负责或参与流体优化技术服务项目3 负责软件售前/售后技术支持服务任职要求:1 具有责任感,较强的沟通能力和发现问题与解决问题能力2 具有1~2年或以上的工程应用经验,如汽车热管理、除霜除雾、气动噪声计算、船舶阻力计算、航空航天、电子等领域的CFD分析和优化3 熟练使用至少一种CAD建模工具(如UG,ProE,Catia,Rihno, NAPA等)和前处理软件(如hypermesh,ANSA,tgrid等)进行几何修补和建模处理4 具有通用CFD软件(如Xflow, Fluent,StarCCM+,Shipflow, NUMECA, CFX等)的学习和应用经验5 最好有优化软件(如 Isight,PIAnO, CAESES, Sculptor,TOSCA等)的学习和应用经验6 最好具有DEM离散元软件(如EDEM, StreamDEM等)的学习和应用经验7 最好具有用VB、C、C++、PCL、Python、APDL等相关语言进行二次开发经验8 具有良好的中英文文献调研和报告论文的撰写能力',
..., '流体力学仿真优化工程师', '五险一金;绩效奖金;加班补助;交通补助;房补;带薪年假;员工旅游;节日福利', 7000.0],
['朝阳区来广营叶青大厦北园308', '北京行易道科技有限公司',
'岗位职责:1、进行高可靠高安全嵌入式软件测试,包含代码测试、功能测试、性能测试、安全性测试等;2、编写测试计划、规划详细的测试方案、编写测试用例;3、根据测试计划搭建和维护测试环境;4、执行测试工作,提交测试报告。包括编写用于测试的自动测试脚本,完整地记录测试结果,编写完整的测试报告等相关的技术文档;5、对测试中发现的问题进行详细分析和准确定位,与开发人员讨论缺陷解决方案;6、提出对产品的进一步改进的建议,并评估改进方案是否合理;对测试结果进行总结与统计分析,对测试进行跟踪,并提出反馈意见;7、为业务部门提供相应技术支持,确保软件质量指标。任职资格:1)计算机、汽车等相关专业本科以上学历,2年以上测试工作经验;2)具有计算机嵌入式编程、软件测试、系统集成等相关基础知识;3)熟练掌握C语言,理解能力强,善于阅读并理解代码,正确理解开发文档并编写用例;4)熟练掌握至少1门脚本语言(Tcl,PYTHON、SHELL等);5)有责任心、踏实、努力,具有良好的沟通能力、表达能力与逻辑思维能力;工作认真细致、善于思考、勤于学习;',
..., '嵌入式软件测试工程师', '14薪;健身俱乐部;周末双休;五险一金;餐补;带薪年假;弹性工作;补充医疗保险',
10500.0],
['东城区王府井东街8号 澳门中心B1层funwork', '睿医(北京)数据技术有限公司',
'职位描述:1.根据项目需求,独立完成各类型的临床数据的统计分析工作2.参与产品统计模块的功能设计和测试3.根据产品、应用方向,对医疗大数据整体进行统计分析及数据挖掘岗位要求1.卫生统计、流行病学、统计学、应用统计等相关专业背景,硕士及以上学历;至少1年以上统计师、SAS Programmer、医疗行业数据分析等相关工作经验2.有临床经验优先,有医疗/健康数据分析及建模的经验优先3.熟悉医学研究相关的统计方法;熟练掌握至少一门统计编程软件:SAS、R、Python、Stata;4.熟悉临床研究思路、方案设计、样本量计算、随机方案等;5.良好的学习能力、逻辑思维和语言表达能力。',
..., '医学统计经理', '五险一金;股票期权', 22500.0]], dtype=object)
<div class="se-preview-section-delimiter"></div>
# 查看列名称
df.columns
<div class="se-preview-section-delimiter"></div>
Index(['address', 'company', 'job_info', 'job_link', 'job_name', 'job_tags',
'salary'],
dtype='object')
<div class="se-preview-section-delimiter"></div>
# 查看前10行,后10行数据
<div class="se-preview-section-delimiter"></div>
# 默认前10行数据
df.head()
<div class="se-preview-section-delimiter"></div>
# 默认后10行数据
<div class="se-preview-section-delimiter"></div>
# df.tail()
<div class="se-preview-section-delimiter"></div>
.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }
address | company | job_info | job_link | job_name | job_tags | salary | |
---|---|---|---|---|---|---|---|
0 | 北京市朝阳区裕民路12号 中国国际科技会展中心A座10层 | 大连飞创信息技术有限公司 | 岗位职责:1、按照有关制度和规范的要求,承担代码的编写工作。对开发任务、需求理解透彻,积极配… | https://m.zhaopin.com//jobs/210653218250637/ | C++开发工程师 | 五险一金;年底双薪;绩效奖金;加班补助;交通补助;餐补;采暖补贴;定期体检 | 17500.0 |
1 | 丰台区航丰路一号时代财富天地大厦28层 | 深圳市八斗才数据有限公司 | 岗位职责:1、 负责互联网网站产品开发;2、 参与产品设计、架构设计和代码编写;3、 负责问… | https://m.zhaopin.com//jobs/cz562550030j000298… | python开发工程师(北京) | 五险一金;年底双薪;绩效奖金;补充医疗保险;定期体检;员工旅游;带薪年假;弹性工作 | 14000.0 |
2 | 北京市海淀区东北旺西路八号中关村软件园9号楼国际软件大厦 | 深圳市芒柠科技有限公司 | 岗位职责:1、维护现有的平台代码。2、参与项目的架构设计,明确负责开发部分的设计需求。3、按… | https://m.zhaopin.com//jobs/cz466965980j000547… | python开发工程师(北京) | 五险一金;年底双薪;绩效奖金;补充医疗保险;员工旅游;带薪年假;弹性工作;加班补助 | 12500.0 |
3 | 北京市朝阳区高碑店陈家林9号院华腾世纪总部公园A座3楼 | 深圳市源极光科技有限公司 | 技术要求:1、精通Python语言,熟悉Python多线程 socket通信机制;2、精通流… | https://m.zhaopin.com//jobs/cz897833860j000551… | python工程师(北京) | 五险一金;补充医疗保险;定期体检;绩效奖金;年底双薪;带薪年假;弹性工作;员工旅游 | 12500.0 |
4 | 海淀区中关村软件园11号楼大洋大厦 | 深圳市芒柠科技有限公司 | 岗位职责:1. 负责云平台应用的开发维护;2. 负责服务器端API的设计与开发。岗位要求:1… | https://m.zhaopin.com//jobs/cz730936640j000955… | Python开发工程师(北京) | 五险一金;补充医疗保险;定期体检;绩效奖金;员工旅游;带薪年假;弹性工作;节日福利 | 12500.0 |
<div class="se-preview-section-delimiter<