腾讯招聘网站信息爬取,用到了伪造headers信息,xpath进行内容解析以及存储为json文件等。
开发环境:Windows10
开发语言:Python3.6
开发工具:pycharm
抓包工具:Charles
import requests
import random
import json
import time
from lxml import etree
class TencentSpider(object):
def __init__(self):
self.base_url = "http://hr.tencent.com/position.php?&start="
self.offset =