初次使用selenium

导入:from selenium import webdriver

对于需要登录的网站进行爬取,需要提供cookie等信息,
有的需要手动添加header头字段,而如果头字段的值是cookie的某个值呢,需要保持登陆状态

首先获取cookie,为后面做铺垫

#手动登录,获取cookie
#当然,如果你一开始就需要添加header头,可以掉过获取cookie这一步

#默认配置创建WebDriver 实例
driver = webdriver.Chrome()
#指定url
url = "https://tianyancha.com"
#打开该url,手动登录
driver.get(url)
#预留足够的时间进行密码输入
time.sleep(25)
#获取cookie,注意是get_cookies()不是get_cookie()
cookie = driver.get_cookies()\
#关闭浏览器
driver.quit()

接下来指定用户数据目录,就可以不需要登录了
 

#创建 ChromeOptions 对象,写入配置后再创建实例
options = webdriver.ChromeOptions()

#指定用户数据目录   chrome浏览器可以再url输入:chrome://version/  就可以看到了
options.add_argument('--user-data-dir=/path/to/user/data/directory')
#启动WebDriver 实例,并传递配置选项
driver = webdriver.Chrome(options=options)


# 添加自定义的请求头
headers = {
    'User-Agent': 'Your User Agent String',
    'Accept-Language': 'en-US,en;q=0.9',
    'Custom-Header': 'Custom Value',
}

for key, value in headers.items():
    options.add_argument(f'--header={key}: {value}')



#接下来你访问url就会自动登录  并  带入自定义的header头字段
# 打开一个页面
driver.get("https://example.com")

# 获取页面的 HTML 源代码
html_source = driver.page_source

  • 3
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值