简易爬虫爬取51job招聘信息

目标:
http://www.51job.com/上的python相关招聘信息——>入门级别

import re
import urllib.request

class Grab(object):
    # 定义类属性
    num = 0
    def __init__(self):
        # 请求的网址
        self.url = "http://search.51job.com/list/010000,000000,0000,00,9,99,python,2,1.html?"
        # 请求头
        self.headers = {"Host": "search.51job.com",
                "User-Agent":"Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36"
                }

    def openurl(self):
        # 创建请求对象
        fin_url = urllib.request.Request(url=self.url,headers=self.headers)
        # 请求网址
        read_data = urllib.request.urlopen(fin_url)
        # 读取内容
        data = read_data.read().decode("gbk")
        # 正则匹配字符,取出存放信息的链接
        mes_list = re.findall(r"http://jobs\.51job\.com.+\.html", data)
        # 遍历存放链接的列表
        for i in mes_list:

            self.deal(i)


    def deal(self,url):
        # 请求取出的网址
        files = urllib.request.urlopen(url)
        # 读取网站
        data = files.read()
        # 正则匹配内容
        find_list = re.findall(r"<p>.*</p>",data.decode("gbk"))
        # 打开文件写入
        new_file = open("zhaopin"+"/"+str(Grab.num)+".txt","w")
        new_file.write(str(find_list))
        new_file.close()
        Grab.num += 1
def main():
    # 创建对象
    g = Grab()
    g.openurl()




if __name__ == "__main__":
    main()
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值