![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python爬虫
相信光的奥特王小懒
为未来而奋斗,为美好生活而拼搏。
展开
-
selenium.common.exceptions.ElementNotInteractableException: Message: element not interactable: [obje
我自己感觉出现这种问题是反扒造成的,故我查看了window.navigator.webdriver正常使用网页爬虫爬取网页故我先修改了该参数的值,发现问题解决了最后淘宝登陆成功如果我们没有处理该参数的话,我们可能面临需要滑动模块的情况,但是应该是淘宝检测到我们是自动控制浏览器,在设置拖拽的代码时,发现没有效果btn = web.find_element_by_xpath('//*[@id="nc_1_n1z"]')ActionChains(web).drag_and_drop_by_o原创 2022-04-08 12:34:54 · 2050 阅读 · 0 评论 -
selenium.common.exceptions.NoSuchElementException: Message: no such element: Unable to locate elemen
博主未解决问题: 爬取csdn时滑块可以滑过去,但是不跳转页面,欢迎大家指点.**此问题是因为我们在爬虫的过程中,网站识别到了我们是在使用爬虫,进行自动网站操作.属于反扒.****怎么查看我们的程序被识别到?****以下是查看代码,在我们正常登录的网站中**window.navigator.webdriver = false以下是我们使用爬虫获取的网页window.navigator.webdriver = true解决方案如下:chrome的版本大于等于88# optio原创 2022-04-04 18:22:12 · 3900 阅读 · 1 评论 -
通过爬虫中的selenium控制chrome,Firefox等浏览器自动操作获取相关信息
1. 首先将我们需要的selenium的包导入 from selenium.webdriver import Chrome(如果使用chrome浏览器就导入chrome,如果使用别的浏览器则将名称换掉即可) 2. 创建浏览器对象 web = Chrome() 3. 打开浏览器 web.get("http://www.baidu.com")(此处以百度举例) 4. 找到某个元素. 点击它 el = web.find_element_by_xpath(..原创 2022-04-02 19:08:16 · 860 阅读 · 0 评论 -
selenium chrome浏览器驱动的安装
chrome浏览器驱动下载网址http://chromedriver.storage.googleapis.com/index.html找到自己的浏览器对应的版本然后进行下载,下载结果为压缩包,将压缩包进行解压.方法一:最后把解压后的exe文件放到Python的安装目录下就可以了如果不记得自己的Python安装目录import sysprint (sys.executable)可以查看自己的Python安装目录方法二:我们可以手动创建一个存放浏览器驱动的文件夹,如:D原创 2022-04-01 11:17:21 · 888 阅读 · 4 评论 -
异步http请求aiohttp的学习(关于同步的requests.get和requests.post的异步应用)
首先需要导入aiohttp模块import aiohttp其次通过aiohttp.ClientSession()来代替requestsasync with aiohttp.ClientSession() as session: # requests async with session.get(url) as resp: # resp = requests.get()执行完上述操作后即可获得所请求的url的内容使用异步操作时,需要注意的是与同步操作的细微差异 -原创 2022-03-31 11:33:21 · 2958 阅读 · 0 评论 -
cv2.error: OpenCV(4.5.4-dev) D:aopencv-pythonopencv-pythonopencvmodulesimgprocsrccolor.cpp:1
解决这个问题需要注意两点: - 1.查看自己的路径当中是否出现中文,如果有的话修改路径 - 2.如果路径不存在问题,则要注意转义的问题 (如果路径出现"\"的话需要在路径最前边加r,意思是防止转义.) (如果是"/"则不存在其他问题)......原创 2022-03-27 11:10:36 · 16037 阅读 · 0 评论 -
爬虫使用过程中cookie模拟用户登录和防盗链的使用
cookie和防盗链原创 2022-03-24 12:23:45 · 3179 阅读 · 0 评论 -
python中的Xpath解析
- 1.安装lxml模块 - 2.pip install lxml (此处如果下载速度比较慢,可以通过查看之前的博客所写的方法) - 3.导入extree(from lxml import etree) - 4.tree = extree.XML() - 5.tree = extree.html() - 6.tree = extree.parse() - 然后通过tree即可进行相关的xpath操作......原创 2022-03-23 12:12:05 · 1242 阅读 · 0 评论 -
Bs4使用过程中常见的问题
- 1.通过pip install bs4将bs4包进行安装 - 2.导入包from bs4 import BeautifulSoup - 3.把页面源代码交给BeautifulSoup进行处理, 生成bs对象 page = BeautifulSoup(resp.text, "html.parser") # 指定html解析器,如果不指定解析器不会报错,但是会爆红 - 4.从bs对象中查找数据 # find(标签, 属性=值) # find_all(标签, 属性=值) - 5..原创 2022-03-21 11:37:03 · 1007 阅读 · 0 评论 -
python中正则表达式re模块的应用案例
当我们需要调用的时候可以 通过pandas包进行直接调用1.需要导入的包是csv包,表示可以将相关信息存入csv表中2.需要导入的包是re包,用于正则表达式的书写3.需要导入额包是requests包,用于获取网页源代码获取网页源码的代码是:url = "https://www.baidu.com"headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML,原创 2022-03-18 12:15:00 · 200 阅读 · 0 评论 -
python爬虫的正则表达式(re模块)
正则表达式1. findall(返回的是列表)findall: 匹配字符串中所有的符合正则的内容lst = re.findall(r"\d+", "我的电话号是:10086 我女朋友的电话是:10010")print(lst)2. finditer(返回的是迭代器)finditer: 匹配字符串中所有的内容[返回的是迭代器], 从迭代器中拿到内容需要.group()it = re.finditer(r"\d+", "我的电话号是:10086, 我女朋友的电话是:10010")for i原创 2022-03-17 19:23:50 · 1195 阅读 · 0 评论 -
爬虫中常见的问题
请求头中最常⻅的⼀些重要内容(爬⾍需要):User-Agent : 请求载体的身份标识(⽤啥发送的请求)Referer: 防盗链(这次请求是从哪个⻚⾯来的? 反爬会⽤到)cookie: 本地字符串数据信息(⽤户登录信息, 反爬的token)响应头中⼀些重要的内容:cookie: 本地字符串数据信息(⽤户登录信息, 反爬的token)各种神奇的莫名其妙的字符串( 防⽌各种攻击和反爬)请求方式:1.GET方式(显示提交)2.POST方式(隐示提交,请求参数加密)...原创 2022-03-17 12:01:59 · 849 阅读 · 0 评论