大数据项目开发

最新推荐文章于 2024-06-29 21:53:36 发布

置顶

weke666

最新推荐文章于 2024-06-29 21:53:36 发布

阅读量1.7k

点赞数 4

文章标签： mysql mongodb spark hadoop hdfs

本文链接：https://blog.csdn.net/weke666/article/details/107333796

版权

该博客详细介绍了如何从招聘网站爬取大数据相关岗位信息，如职位名称、薪资等，存储到HDFS并通过Flume收集日志。接着，使用Hive进行数据分析，包括不同岗位的薪资分布、地域岗位数量、工作经验与薪资的关系，以及岗位需求趋势，并利用Pyecharts进行数据可视化。

摘要由CSDN通过智能技术生成

大数据项目开发

# -*- coding: utf-8 -*-
import scrapy
class QcSpider(scrapy.Spider):
    name = 'qc'
    allowed_domains = ['51job.com']
    x = 0
    def start_requests(self):
        job = input("请输入需要爬取的职位：")
        c = int(input('输入你想爬取的页数：'))
        for x in range(1,c):
            url = "https://search.51job.com/list/020000%252C030200%252C090200%252C010000%252C040000,000000,0000,00,9,99,"+ job +",2,"+ str(x) + ".html?lang=c&stype=&postchannel=0000&workyear=99&cotype=99&degreefrom=99&jobterm=99&companysize=99&providesalary=99&lonlat=0%2C0&radius=-1&ord_field=0&confirmdate=9&fromType=&dibiaoid=0&address=&line=&specialarea=00&from=&welfare="
            yield scrapy.Request(url,callback = self.parse)
    def parse(self, response):
        selectors = response.xpath('//div[@class="el"]')
        for selector in selectors:

            url = selector.xpath('./p/span/a/@href').get()
            if url:
                yield scrapy.Request(url,callback=self.parseDatail)

    def parseDatail(self,response):
        x=self.x+1
        print('正在爬取第'+str(x)+'条数据.........')
        self.x = x
        '''
        这个函数  用来处理详情页的数据
        :param response:详情页的结果
        :return:详情页提取的数据
        '''
        job_name=response.xpath('/html/body/div[3]/div[2]/div[2]/div/div[1]/h1/text()').get(default='')
        qinxi=response.xpath('/html/body/div[3]/div[2]/div[2]/div/div[1]/strong/text()').get(default='')
        s = ''.join(qinxi)
        qinxis = s.split('-')
        try:
            job_gongzi = qinxis[1]
        except:
            job_gongzi = ''
        job_danwei = response.xpath('/html/body/div[3]/div[2]/div[2]/div/div[1]/p[1]/a[1]/text()').get(default='')
        job_dizhi = response.xpath('/html/body/div[3]/div[2]/div[2]/div/div[1]/p[2]/text()[1]').get(default='')
        job_jingyan=response.xpath('/html/body/div[3]/div[2]/div[2]/div/div[1]/p[2]/text()[2]').get(default='')
        job_xueli = response.xpath('/html/body/div[3]/div[2]/div[2]/div/div[1]/p[2]/text()[3]').get(default='')
        re = response.xpath('/html/body/div[3]/div[2]/div[3]/div[1]/div/*/text()').getall()
        s=