爬虫
追梦小凯
统计在读|强逻辑遵守者|知识偏好型选手|计算机金融|web3探索中|棋手|
展开
-
爬虫 之 反省
当我们爬取部分网站的时候,如果他的反爬能力较强,我们又没有代理ip可以换的时候,通常可以先把网站下载到本地,再进行关键信息的提取,这样可以提高我们的效率。 with open('315.html','w+',encoding='utf-8') as f: f.write(resp.text) with open('315.html','r',encoding='utf-8') as f: resp=f.read(resp.text) ...原创 2022-03-16 09:46:58 · 82 阅读 · 0 评论 -
爬虫 之 Selenium
Selenium 准备工作: 需要预安装Chromedriver,根据Chrome浏览器的版本来选择,需要把下载好的Chromedriver.exe 放入python源目录,或者项目的目录。 驱动地址:chrome驱动地址:https://npm.taobao.org/mirrors/chromedriver 初始化操作 from selenium.webdriver import Chrome from selenium.webdriver.common.keys import Keys#键盘操作库原创 2022-03-14 19:56:27 · 885 阅读 · 0 评论 -
爬虫 之 requests
request import requests requests.get() 获取网页的主要方法 requests.post() 向HTML网页提交POST请求的方法 requests.head() 获取HTML网页头的方法 request.patch() 向网页提交局部修改请求 请求头 headers = { ‘User-Agent’: ‘Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36原创 2022-03-14 19:43:49 · 3364 阅读 · 0 评论