今年就业形势如何?爬取全国数据分析岗招聘信息【爬虫部分】

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档


前言

每年都有招聘信息,我们可以通过编写一个爬虫程序来获取这些信息,从而了解招聘情况。

提示:以下是本篇文章正文内容,下面案例可供参考

一、说明

 

二、使用步骤

1.导入

代码如下(示例):

import requests
from lxml import etree
import pandas as pd
if __name__ == '__main__':
    headers = {
        'User-Agent': '',
        'Cookie': ''
    }

2.读取每一页数据

代码如下(示例):

    # 获取用户输入的页数
    num_pages = int(input('请输入要爬取的页数:'))
    # 爬取指定页数的内容
    data_div = []
    for page in range(1, num_pages + 1):
        # jl=548,这里是要搜索的城市,在网页中自己看,我选的是广东
        url = f'https://sou.zhaopin.com/?jl=548&kw=数据分析&p={page}'
        page_text = requests.get(url=url, headers=headers).text
        tree = etree.HTML(page_text)
        div_list = tree.xpath('//*[@id="positionList-hook"]/div/div[@class="joblist-box__item clearfix"]')
        print(f'第{page}页开始爬取')
        if not div_list:    # 输入的数足够大,可以爬完所有的数据,没有数据自动跳出(最多好像是34页)
            # 如果当前页没有数据,则跳出循环
            break
        for div in div_list:
            job = div.xpath('./a/div[1]/div[1]/span/@title')
            job = job[0] if job else '' 判断空值,不跳过会报错

            workcopany = div.xpath('./a/div[1]/div[2]/span/text()')
            workcopany = workcopany[0] if workcopany else ''

            salary = div.xpath('./a/div[2]/div[1]/p/text()')
            salary = salary[0] if salary else ''

            place = div.xpath('./a/div[2]/div[1]/ul/li[1]/text()')
            place = place[0] if place else ''

            experience = div.xpath('./a/div[2]/div[1]/ul/li[2]/text()')
            experience = experience[0] if experience else ''

            education = div.xpath('./a/div[2]/div[1]/ul/li[3]/text()')
            education = education[0] if education else ''

            job_type = div.xpath('./a/div[2]/div[2]/span[1]/text()')
            job_type = job_type[0] if job_type else ''

            scale = div.xpath('./a/div[2]/div[2]/span[2]/text()')
            scale = scale[0] if scale else ''

            describe = div.xpath('./a/div[3]/div[1]/div/text()')

            ahref = div.xpath('./a/@href')  # 岗位链接
            ahref = ahref[0] if ahref else ''
            describe_str = '、'.join(describe)
            data_lis = [job, workcopany, salary, place, experience, education, job_type, scale, describe_str, ahref]
            data_div.append(data_lis)
# 保存到excel
data = pd.DataFrame(data_div, columns=['职位', '公司名称', '薪水', '地点', '经验', '学历', '公司类型', '公司规模', '岗位标签', '链接'])
# 将数据框保存为CSV文件
data.to_csv('广东数据分析岗位.csv', index=False, encoding='utf-8', decimal=",")
print('爬取完成!!!')

这里使用了7个xpath,个人觉得看起来舒服点。


最后

可以爬取多个城市的csv文件,拼接起来

import pandas as pd
import numpy as np
data1 = pd.read_csv('广东数据分析岗位.csv')
data2 = pd.read_csv('海南数据分析岗位.csv')
result = pd.concat([data1, data2], axis=0)
result.to_csv('广东海南数据分析岗位表.csv', index=False)

参考来源:工作台 - Heywhale.com

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: Python是网络爬虫数据分析的很好的工具,可以用它来获取招聘网站上的数据并进行分析。以下是一些步骤: 1. 选择要抓取的网站:可以选择一些知名的招聘网站,如智联招聘、拉钩网、前程无忧等。 2. 使用Python爬虫库,如requests、beautifulsoup4或Scrapy等,编写代码抓取网站上的数据。可以使用多线程或异步编程以提高效率。 3. 对抓取到的数据进行清洗和处理,去除不需要的信息,如广告、重复信息等。 4. 将处理后的数据存储到数据库或文件中,如MySQL、MongoDB、CSV等。 5. 使用Python数据分析库,如pandas、numpy、matplotlib等,对数据进行分析和可视化。 6. 根据数据分析结果,可以得出一些有价值的结论,并对招聘网站的数据进行优化或改进。 需要注意的是,在进行爬虫数据分析时,需要遵守相关法律法规和网站的规定,不得进行非法爬取和滥用数据的行为。 ### 回答2: Python基于网络爬虫的招聘网数据分析是指利用Python编程语言和网络爬虫技术,从各个招聘网站中获取数据,并通过数据分析的方法,对这些招聘数据进行整理、统计和分析的过程。 首先,利用Python编写网络爬虫程序,通过请求URL、解析HTML网页、提取有用的信息等技术,爬取招聘网站上的职位信息、公司信息、薪资待遇、要求等数据。例如可以使用Python的第三方库,如BeautifulSoup或Scrapy来进行数据爬取。 然后,对获取到的数据进行整理和清洗。使用Python数据处理和清洗库,如Pandas,可以对数据进行格式化、筛选、去除重复等操作,确保数据的准确性和一致性。 接下来,通过数据分析的方法对招聘数据进行统计和分析。利用Python数据分析库,如NumPy和Matplotlib,可以对数据进行数据汇总、统计指标分析、可视化等操作。例如可以进行职位热门度排行、不同位的薪资分布、不同地区的招聘需求等分析。 最后,根据数据分析的结果,可以对招聘网站的招聘市场进行深入了解。基于这些数据分析结果,企业可以制定更加合理的招聘策略和薪资待遇,求职者可以了解到市场需求和薪资水平,从而选择更加合适的职位和公司。 总之,Python基于网络爬虫的招聘网数据分析可以帮助企业和求职者更好地了解招聘市场,做出更加明智的决策。同时,Python作为一种简洁而强大的编程语言,具备丰富的数据处理和分析库,非常适合进行大数据量的招聘数据分析。 ### 回答3: 招聘网数据分析是指通过爬取招聘网站的数据,并利用Python进行处理和分析,从而获得有价值的招聘信息以及相关统计数据。 首先,我们可以使用Python中的网络爬虫工具,如BeautifulSoup或Scrapy等,来爬取招聘网站上的数据。通过分析网页结构、标签等信息,我们可以定位到招聘信息所在的位置,并将其提取出来,包括职位名称、公司名称、工作地点、薪资等关键信息。 接下来,我们可以使用Python中的数据处理和分析库,如pandas和numpy等,对爬取到的数据进行处理和清洗。我们可以去除重复的数据,处理缺失值,转换数据类型等操作,以确保数据的质量和准确性。 一旦数据清洗完成,我们可以利用Python中的数据可视化库,如matplotlib和seaborn等,对数据进行可视化分析。通过绘制柱状图、折线图、饼图等,我们可以直观地了解招聘市场的热门职位、薪资分布、工作地点分布等趋势和规律。 此外,我们还可以利用Python中的机器学习库,如scikit-learn和tensorflow等,对招聘数据进行进一步的分析和预测。通过构建模型,我们可以预测某个职位的薪资范围、预测某个地区的就业需求等,为求职者和招聘者提供决策支持。 总之,利用Python基于网络爬虫的招聘网数据分析,可以帮助我们深入了解招聘市场的动态,提供有价值的信息和统计数据,帮助求职者和招聘者做出更准确和明智的决策。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值