爬虫
文章平均质量分 84
荒野火狐
这个作者很懒,什么都没留下…
展开
-
【从零开始】自建高质量免费ip代理池(截止2024.4.1最新版)
为了防止ip被封后还能爬取网页,最常见的方法就是自己构建一个ip代理池。本来用的是下面这个开源项目ip代理池,github开源项目就是这个开源项目上好多免费的ip网站做了更新,导致它能获取的可用的代理频率不高,且它只是做了获取工作,没有做任何的测试,导致获取的代理匿名性层次不齐。用它获取的ip,用来做目标url,一个循环20次,也不能每次都能拿到网页上的数据,于是得自己做一个高质量的ip获取池。不过它开源的代码上也是有不少可以借鉴的。原创 2024-04-02 22:51:20 · 9700 阅读 · 1 评论 -
【任务计划程序】打卡签到(自用)
【github action+python】完成定时任务并推送(学会自制)(这里的github上这个glados签到不能用了,glados上的部分功能也变了,这里代码也跟着变一下。总是忘记给glados签到,试用了一下电脑自带的任务计划程序,给我每天打卡。原创 2024-03-13 10:14:04 · 595 阅读 · 0 评论 -
【github action+python】完成定时任务并推送(学会自制)
参考图文解释Glados自动签到免费获取天数(github action版)之前用了一阵sever酱,然后前两天说cookie过期了,后来改了也没用,于是想自己写一份cookie不过期的。我尝试了半天,一直报一个json格式的错。(在电脑是可行的,在action上就报错)最后原博客回答:我看了下目前用github action的方式会触发cloudflare的五秒盾,阻止了脚本的签到行为。估计github上用这种方式打卡的人太多了就把这个ip给封了可能。就简单记一下学习过程。(不过其他的行为都是可以的)原创 2022-07-02 14:21:11 · 6428 阅读 · 1 评论 -
爬小说(按章节输出)
解决评论区问题,爬取小说按章节输出用import os 来给当前文件夹创建新的文件夹后来遇到问题1后来查资料最后在replace这边出现了点问题,replace只能单个字符单个字符转换,所以用正则表达式的import rel来修改代码代码如下(示例):最后在文件夹里按照时间顺序排序就能得到按顺序输出的章节目录了。上一个版本零基础学爬小说中爬取的txt是一个整的,然后应评论区回复写了一个按章节输出的,不过前一个版本如果用手机看的话,手机上有自动的章节目录,不过是乱序的,......原创 2022-06-19 14:13:38 · 763 阅读 · 0 评论 -
【零基础学爬虫】用python爬取小说
文章目录前言一、先上效果图二、使用步骤1.引入库2.读入数据总结前言之前因为想研究怎么让esp8266上校园网,折腾半天,请教大佬后,说要先学爬虫,就能知道怎么模拟登录上网了。大佬学的是c#,我学的是python,于是就开始学习了python爬虫,这是学习中觉得好玩的事,也遇到了不少困难。一、先上效果图这本书一共两千四百多章二、使用步骤1.引入库代码如下(示例):import numpy as npimport pandas as pdimport matplotlib.pypl原创 2022-04-28 13:14:03 · 18864 阅读 · 23 评论