[python学习]使用python语言对数据爬取与处理并存入Excel

这是对招聘网站进行读取并写入Excel,包括职位,招聘名称, 薪资, 招聘地区(城市), 招聘要求, 公司名称 ,公司规模。

from bs4 import BeautifulSoup
import requests
from openpyxl import workbook  # 写入Excel表所用
# from openpyxl import load_workbook
url = 'https://www.liepin.com/zhaopin/?inputFrom=www_index&workYearCode=0&key=大数据'

headers = {'user-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36'}
def getData(src):
    global ws

    job_salary = []
    job_name = []
    job_city = []
    job_requirement = []
    job_company_name = []
    job_company_type = []

    resp = requests.get(url, headers=headers)
    context = resp.text
        # print(context)
    soup = BeautifulSoup(context, 'html.parser')

    div_findall = soup.find_all('div',class_='job-detail-box')

    for item in div_findall:
        job_salary1 = item.find('span',class_='job-salary')
        job_name1 = item.find('div', class_='ellipsis-1')
        job_city1 = item.find('span', class_='ellipsis-1')
        job_requirement1 = item.find('span',class_='labels-tag')
        job_company_name1 = item.find('span',class_='company-name ellipsis-1')
        job_company_type1 = item.find('div',class_='company-tags-box ellipsis-1')

        job_name.append(job_name1.text)
        job_salary.append(job_salary1.text)
        job_city.append(job_city1.text)
        job_requirement.append(job_requirement1.text)
        job_company_name.append(job_company_name1.text)
        job_company_type.append(job_company_type1.text)

    for i in range(40):
        ws.append([job_name[i],job_salary[i],job_city[i],job_requirement[i],job_company_name[i],job_company_type[i]])
    # list = (['职位招聘名称', '薪资', '招聘地区(城市)', '招聘要求', '公司名称', '公司规模'])
    # job_tag = item.find('span',class_='job-tag') 这个tag有的有,有的信息没有,没有信息就报错不知怎样解决
    # def tag():
    #     if 'None' in job_tag:
    #         print("None")
    #     else:
    #         print(job_tag.text)

    # print(job_tag) 这个tag有的有有的信息没有,没有信息就报错不知怎样解决
    # print(job_name.text, job_city.text,job_salary.text,job_requirement.text,job_company_name.text,job_company_type.text)
if __name__ == '__main__':
    wb = workbook.Workbook()  # 创建Excel对象
    ws = wb.active  # 获取当前正在操作的表对象
    # ws = (['职位招聘名称', '薪资', '招聘地区(城市)', '招聘要求', '公司名称', '公司规模'])
    # 表头添加不上,加上上面的这行execl表就清空了
    src = 'https://www.liepin.com/zhaopin/?inputFrom=www_index&workYearCode=0&key=大数据'
    getData(src)
    wb.save('text01.xlsx')  # 存入所有信息后,保存为filename.xlsx


借鉴了一些大佬的代码,纯手打改了两个小时

思路是对已有的列表依次读取并写入6组不一样的数据

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值