Python采集招聘数据信息(+详情页)并实现可视化

最新推荐文章于 2023-02-20 14:34:21 发布

「已注销」

最新推荐文章于 2023-02-20 14:34:21 发布

阅读量637

点赞数 2

分类专栏： python 爬虫小案例文章标签： python pycharm 开发语言

本文链接：https://blog.csdn.net/weixin_62853513/article/details/125376079

版权

本文由青灯教育-自游老师提供，介绍如何使用Python 3.8和Pycharm进行数据采集。讲解了通过requests库发送请求、解析网页数据，特别是应对反爬策略，并使用re和csv模块处理数据。最后，文章展示了如何进行数据可视化，包括安装和配置Pycharm的Python解释器、安装插件的方法。

摘要由CSDN通过智能技术生成

本篇代码提供者: 青灯教育-自游老师

[环境使用]:

Python 3.8
Pycharm

[模块使用]:

requests >>> pip install requests
re
json
csv

如果安装python第三方模块:

win + R 输入 cmd 点击确定, 输入安装命令 pip install 模块名 (pip install requests) 回车
在pycharm中点击Terminal(终端) 输入安装命令

如何配置pycharm里面的python解释器?

选择file(文件) >>> setting(设置) >>> Project(项目) >>> python interpreter(python解释器)
点击齿轮, 选择add
添加python安装路径

pycharm如何安装插件?

选择file(文件) >>> setting(设置) >>> Plugins(插件)
点击 Marketplace 输入想要安装的插件名字比如:翻译插件输入 translation / 汉化插件输入 Chinese
选择相应的插件点击 install(安装) 即可
安装成功之后是会弹出重启pycharm的选项点击确定, 重启即可生效

基本流程思路: <可以通用>

一. 数据来源分析

网页开发者工具进行抓包分析…

F12打开开发者工具, 刷新网页
通过关键字进行搜索, 找到相应的数据, 查看response响应数据
确定数据之后, 查看headers确定请求url地址请求方式以及请求参数

二. 代码实现过程:

发送请求, 用python代码模拟浏览器对于url地址发送请求
获取数据, 获取服务器返回response响应数据
解析数据, 提取我们想要招聘信息数据
保存数据, 保存到表格文件里面

代码

导入模块

# 导入数据请求模块
import requests
# 导入正则表达式模块
import re
# 导入json模块
import json
# 导入格式化输出模块
import pprint
# 导入csv模块
import csv
# 导入时间模块
import time
# 导入随机模块
import random
# 有没有用utf-8保存表格数据,乱码的?
源码、解答、教程可加Q裙：832157862免费领取

f = open('data多页_1.csv', mode='a', encoding='utf-8', newline='')  # 打开一个文件 data.csv
csv_writer = csv.DictWriter(f, fieldnames=[
    '职位',
    '城市',
    '经验',
    '学历',
    '薪资',
    '公司',
    '福利待遇',
    '公司领域',
    '公司规模',
    '公司类型',
    '发布日期',
    '职位详情页',
    '公司详情页',
])
csv_writer.writeheader()

1. 发送请求,

用python代码模拟浏览器对于url地址发送请求

不要企图一节课, 掌握所有内容, 要学习听懂思路, 每一步我们为什么这么做…
知道headers 1
不知道headers 2

headers 请求头, 作用伪装python代码, 伪装成浏览器
字典形式, 构建完整键值对

如果当你headers伪装不够的时候, 你可能会被服务器识别出来, 你是爬虫程序, 从而不给你相应的数据内容

for page in range(1, 15):
    print(f'正在采集第{page}页的数据内容')
    time.sleep(random.randint(1, 2))
    url = f'https://search.51job.com/list/010000%252C020000%252C030200%252C040000%252C090200,000000,0000,00,9,99,python,2,{page}.html'
    headers = {
   
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari/537.36'
    }
    response = requests.get(url=url, headers=headers)
    print(response)  # <Response [200]> 响应对象
    源码、解答、教程可加Q裙：832157862免费领取

2. 获取数据

得到数据, 不是你想要数据内容, 你可能是被反爬了, 要多加一些伪装 <小伏笔>

# print(response.text)  字符串数据类型

3. 解析数据, 提取我们想要数据内容

re.findall() 就是从什么地方去找什么样数据内容

[0] 表示提取列表里面第一个元素 —> list index out of range 所以你的列表是空列表

用正则表达式/css/xpath提取数据返回是空列表 —> 1. 你语法写错 2. response.text 没有你想要数据

—> 是不是被反爬(验证码需要登陆) 是不是headers参数给少了是不是被封IP

    html_data = re.findall('window.__SEARCH_RESULT__ = (.*?)</script>', response.text)[0]
    # print(html_data)
    json_data = json.loads(html_data)
    # pprint.pprint(json_data)
    # 通过字典取值方法 把职位信息列表提取出来, 通过for循环遍历一个一个提取职位信息
    for index in json_data['engine_jds']:
        # 根据冒号左边的内容, 提取冒号右边的内容
        # pprint.pprint(index)
        try:
            dit = {
   
                '职位': index['job_title'],
                '城市': index['attribute_text'][0],
                '经验': index['attribute_text'][1],
                '学历': index['attribute_text'][2],
                '薪资': index['providesalary_text'],
                '公司': index['company_name'],
                '福利待遇': index['jobwelf'],
                '公司领域': index['companyind_text'],
                '公司规模': index['companysize_text'],
                '公司类型': index['companytype_text'],
                '发布日期': index['issuedate'],
                '职位详情页': index['job_href'],
                '公司详情页': index['company_href'],
                源码、解答、教程可加Q裙：832157862免费领取
            }
            csv_writer.writerow(dit)
            print(dit)
        except:
            pass

详情页数据

----> 爬虫基本思路是什么?

数据来源分析

请求响应请求那个网站呢? 网址是什么请求方式是什么请求参数要什么?

发送请求 —> 获取数据 —> 解析数据 —> 保存数据

导入模块

import requests
import parsel

url = 'https://jobs.51job.com/shanghai-jdq/137393082.html?s=sou_sou_soulb&t=0_0'
headers = {
   
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari/537.36',
}
response = requests.get(url=url, headers=headers)
response.encoding = response.apparent_encoding  # 自动识别编码
print(response.text)
selector = parsel.Selector(response.text)
content_1 = selector.css('.cn').get()
content_2 = selector.css('.tCompany_main').get()
content = content_1 + content_2
# 文件名 公司名字 + 职位名字
with ope

最低0.47元/天解锁文章

「已注销」

关注

2
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
Python采集招聘数据信息(+详情页)并实现可视化

选择file(文件) >>> setting(设置) >>> Project(项目) >>> python interpreter(python解释器)点击齿轮, 选择add添加python安装路径选择file(文件) >>> setting(设置) >>> Plugins(插件)点击 Marketplace 输入想要安装的插件名字比如:翻译插件输入 translation / 汉化插件输入 Chinese选择相应的插件点击 install(安装) 即可安装成功之后...
复制链接

扫一扫