爬虫
裸睡的雨
菜鸟自学中
展开
-
头条 _signature、 __ac_nonce、 __ac_signature参数
头条 _signature、 __ac_nonce、 __ac_signature参数接口中有参数 _signature 参数直接全局搜索这个参数,会在一个 index-*.js 中搜索到, 虽然 captcha.js 中也有,不过没用在文件中找到该字符串位置,打断点,调试。继续下一步,调试会跳转到 acrawler.js 文件中.acrawler.js 文件下一步直接将 js 文件拿出来, 执行。1、简化 js, 删除一些没有用的东西参数后改为空列表即可2、node 中 w原创 2020-12-08 15:42:19 · 1412 阅读 · 0 评论 -
无限 debugger 问题的解决
无限 debugger 问题的解决这几天碰到了一个网站,打开 F12 直接 debugger ,点击下一步,一直 debugger什么都做不了。然后就开始百度,看大家怎么解决的。基本上大多数都是通过查看调用栈,找到调用函数的地方,然后在 console 中重写这个函数。但是不知道大家有没有遇到一种情况,重写是没用的,重写完之后再次点击下一步,或者关闭 F12 后,打开还是 debugger 的,还是不可以打断点。所以也就没啥用,或者就是我没找对地方。解决办法:使用抓包工具,注入修改过的 js。原创 2020-05-16 10:19:47 · 3335 阅读 · 0 评论 -
使用 pyppeteer 碰到的错误
pyppeteer 实在是有点坑,坑太多了,填不完。使用 pyppeteer 碰到的错误pyppeteer.errors.ElementHandleError: Error: failed to find element matching selector ".btn_ok"我使用了下面的代码后出现的:为了实现检测元素是否存在,存在则程序结束,不存在则重试btn_ok = await page.Jeval('.btn_ok', 'node => node.style')解决办法:bt原创 2020-05-16 09:51:53 · 3098 阅读 · 0 评论 -
Python3 使用execjs执行js出现编码错误UnicodeEncodeError: 'gbk' codec can't encode character '\u0540' in positio
execjs 库执行js时报编码错误参考大神的博客:https://blog.csdn.net/sergiojune/article/details/88423694不过还是不太懂什么意思,不过问题解决了报错的地方找到 subprocess.py,点进去找到Popen类的__init__,将 encoding=None 改为 encoding=‘utf-8’ 就OK了...原创 2019-10-16 16:12:14 · 1224 阅读 · 0 评论 -
请求头,cookie转字典,时间戳转时间
headers转字典(传递复制的header字符串)def headers_to_dict(headers): row_headear = headers.split('\n') row_dict = dict() for i in row_headear: if i == '': continue row = i....原创 2019-07-23 10:08:33 · 525 阅读 · 0 评论 -
js逆向,破解企名片网站的加密参数
打开网站–企名片主要是破解企业数据列表的加密,红框圈起来的链接:企名片直接请求网站,response 响应的信息里面没有想要的数据,那应该就是js动态加载的数据,所以直接点击 XHR 你就会看到这两个请求响应的信息里面都有一个超长的加密字符串,所以大胆猜测一下,应该就是我们需要的数据,其他的点进去啥也没有。然后怎么去解析这个参数呢?解析加密数据 encrypt_data最简单,...原创 2019-05-17 00:11:39 · 1084 阅读 · 0 评论 -
一行代码解决 window.navigator.webdrive 的问题
from selenium.webdriver import Chromefrom selenium.webdriver import ChromeOptionsoption = ChromeOptions()option.add_experimental_option('excludeSwitches', ['enable-automation'])driver = Chrom...转载 2019-04-26 13:08:08 · 716 阅读 · 3 评论 -
爬取知乎碰到的问题------------------4、使用redis时碰到的错误:redis.exceptions.ResponseError
使用scrapy-redis爬取知乎,当redis中存的数据量多的时候碰到的问题。解决办法参考:https://blog.csdn.net/song19890528/article/details/38536871这个最好还是用redis集群比较好,可以去参考崔庆才博客https://cuiqingcai.com/6058.html2019-01-31 01:11:46 [twiste...原创 2019-02-01 00:27:58 · 1244 阅读 · 0 评论 -
python爬虫进阶使用多线程爬取小说
Python多线程,thread标准库。都说Python的多线程是鸡肋,推荐使用多进程。Python为了安全考虑有一个GIL。每个CPU在同一时间只能执行一个线程 GIL的全称是Global Interpreter Lock(全局解释器锁),就相当于通行证,每一次线程会先要去申请通行证,通行证申请下来了,才能进入CPU执行。每个线程的执行方式: 1、获取GIL 2...原创 2019-01-03 15:30:10 · 1608 阅读 · 0 评论 -
关于爬虫模拟美团登陆后,解决302重定向的问题的方法
帮忙测测我的博客,别太夸张,谢谢http://123.207.61.85:6789/在使用requests中的方法模拟登陆,没有用scrapy中本来的方法。self.session.get(self.get_url, data=post_data, headers=self.headers)登陆之后去请求下一个链接的时候,就会出现下面的错误scrapy DEBUG Redir...原创 2018-09-04 17:32:04 · 10300 阅读 · 7 评论 -
安装splash及解决点击Docker出现windows 正在查找bash.exe。如果想亲自查找文件,请点击“浏览”的问题
chromedriver下载地址:http://chromedriver.storage.googleapis.com/index.htmltoolbox下载地址:https://get.daocloud.io/toolbox/安装splash,需要先安装Docker,第一步:下载toolbox,地址在上面点击下一步直到完成。点击桌面的快捷方式可能会有下面的问题解决点击Dock...原创 2018-09-26 11:05:29 · 946 阅读 · 0 评论 -
scrapy中xpath将某一个节点下的文本内容串起来
在爬取数据的时候碰到这样的情况想要拿到红框里的东西源码里面显示的是这样如果直接用text(),只能拿到的是单个li中的字符串这就需要使用xpath中的string()函数,string函数可以将ul底下的字符串全部获取出来,但是string中只能传递单个节点所以,直接用string函数获取出来,使用截取字符串的方式,截取,就能获取到每一个点更多内容关注我的微...原创 2018-10-11 09:52:28 · 2304 阅读 · 4 评论 -
CentOS7在python3的基础上安装scrapy
安装python3centos7安装python3的步骤需要做pip3和python3的软连接,这样python3和pip3就都能用了ln -s /usr/local/python3/bin/pip3 /usr/bin/pip3直接执行pip3 install scrapy可能会报下面的错误 Could not find a version that satisfi...原创 2018-10-12 18:05:43 · 256 阅读 · 0 评论 -
scrapy+selenium中关于同一个页面模拟点击后,打开新的标签页,切换到新页面的方法
帮忙测测我的博客,别太夸张,谢谢 windows = spider.browser.current_window_handle # 定位当前页面句柄 time.sleep(5) target = spider.browser.find_element_by_id("toolber-keyword") keyword = input('输入你要拉取的数据:') target.send...原创 2018-10-15 15:54:51 · 5109 阅读 · 13 评论 -
爬虫爬取抖音热门音乐
爬取抖音的热门 音乐详细代码在下面响应体内容工作流默认情况下,当你进行网络请求后,响应体会立即被下载。你可以通过stream参数覆盖这个行为,推迟下载响应体直到访问Response.content属性:tarball_url = 'https://github.com/kennethreitz/requests/tarball/master'r = reques...原创 2018-10-09 11:04:25 · 3481 阅读 · 0 评论 -
爬取哔哩哔哩弹幕制作词云
爬取哔哩哔哩的弹幕,http://comment.bilibili.com/6315651.xml需要知道cid,可以F12,F5刷新,找cid,找到之后拼接url也可以写代码,解析response获取cid,然后再拼接 使用requests或者urllib都可以我是用requests,请求该链接获取到xml文件代码:获取xmldef get_data()...转载 2018-10-22 15:08:31 · 991 阅读 · 0 评论 -
爬虫爬取表情
#!/usr/bin/env python# -*- coding: utf-8 -*-# @Time : 2018/10/26 15:27# @Author : jia.zhao# @Desc : # @File : doutu_request.py# @Software: PyCharmfrom selenium import webdriverimpo...原创 2018-10-26 17:58:19 · 536 阅读 · 0 评论 -
使用urllib爬取图片时出现的错误urllib.error.ContentTooShortError
urllib.error.ContentTooShortError: <urlopen error retrieval incomplete这是因为urlretrieve下载文件不完整造成的可以接受这种异常重新写一个方法处理这个问题,可以在去调用这个方法重新去下载,也可以重新用requests下载。因为重新调用这个方法,有时下载会超时。参考博客https://blog.csdn....原创 2018-11-16 11:00:17 · 8649 阅读 · 0 评论 -
将csdn的文章爬取,并将图片保存到本地
#!/usr/bin/env python# -*- coding: utf-8 -*-# @Time : 2018/11/13 10:20# @Author : jia.zhao# @Desc : # @File : csdn_demo.py# @Software: PyCharmimport requestsfrom lxml import etree...原创 2018-11-16 16:27:49 · 553 阅读 · 1 评论