![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
那些反爬和反反爬
文章平均质量分 82
zcongfly
物流工程专业,主攻算法,涉猎机器学习、深度学习、区块链开发和数据库相关的一些东西,写博客完全出于工作和学习的习惯性记录,不喜欢CSDN上的资源分享策略,所以所有博客相关的资料(包括需要积分下载的资料)可前往公众号“拾烩”后台私信我获取,希望能帮到你!
展开
-
【那些反爬和反反爬】xpath根据兄弟节点定位元素、根据祖先节点排除标签、数据存储
正常对于一个百科类网站而言,一拿到这个需求,第一反应肯定是先弄一个游戏角色名的list,然后挨个进行search,抓取返回的页面内容。然而当我想进一步索要游戏角色名的list时,得到的回复是:没有现成的游戏角色名,把萌娘上有的游戏角色爬了就行。即便在度娘的帮助下,我能找到的游戏角色也就那么几个,再去除一些萌娘没有收录的词条,就所剩无几了。观察页面源代码发现,表格的第一列(即带有xx角色字样的标题列)跟其右边的内容是一一对应的,同在一个tr标签下,也就是说,他们是兄弟节点。这分类都是啥啊,太乱了吧。原创 2023-11-10 17:13:11 · 1045 阅读 · 0 评论 -
【那些反爬与反反爬】网页中嵌入随机不可见字符的解决方法
标签内部可能包含其他标签,如果编写的正则表达式没有遍历所有情况,可能导致获取到的文本带有为过滤掉的其他标签(如。示例网站:https://www.psychspace.com/psych/category-333。标签下的所有节点,包括标签节点和文本节点。然后,我们通过遍历这些节点,并使用。如果只想获取纯文本内容,可以考虑其他方法代替正则表达式,比如。获取字符串形式的文本后,编写正则表达式进行文本的进一步清洗。标签下的所有内容组成的字符串。,其中包括了标签和文本。(这个我也还没探索过)。原创 2023-10-13 17:49:58 · 883 阅读 · 0 评论 -
【那些反爬和反反爬】JA3指纹
而Fiddler则更侧重于Web应用程序的调试和分析,它提供了更高级的功能,可以拦截、修改和监控特定的HTTP/HTTPS请求和响应。通过观察和分析网络流量中的TLS握手消息,可以提取并计算出相应的JA3指纹。需要注意的是,由于JA3指纹是基于客户端发送的握手消息生成的,因此可能会受到一些因素的影响,例如中间人攻击、网络代理等。总结来说,Wireshark和Fiddler是两个功能强大的网络分析工具,Wireshark适用于全面的网络协议分析,而Fiddler更适合于Web应用程序的调试和分析。原创 2023-09-15 16:24:54 · 2664 阅读 · 0 评论