迷失小行星-CSDN博客

原创什么是Scrapy

负责下载Scrapy Engine(引擎)发送的所有Requests请求，并将其获取到的Responses交还给Scrapy Engine(引擎)，由引擎交给Spider来处理，：它负责处理所有Responses,从中分析提取数据，获取Item字段需要的数据，并将需要跟进的URL提交给引擎，再次进入Scheduler(调度器).: 它负责接受引擎发送过来的Request请求，并按照一定的方式进行整理排列，入队，当引擎需要时，交还给引擎。这些是Scrapy重要组成部分，他们之间的运作关系也是非常有趣的！

2024-07-16 11:47:46 344

原创在PyCharm中一般的爬虫模板

爬虫：很好理解，就是一段自动抓取互联网信息的程序，从互联网上抓取对于我们有价值的信息。至于如何爬取，我们娓娓道来。首先，我们得有一个明确的目标网站，即url。然后，我们需要使用电脑来模拟发出请求，即request既然都发送请求了，不出意外的话我们会得到一个返回值，不论是否访问成功，都会有返回，即respons。对于response，我们得把他转换一下保存对不对？唉？一个简单的思路咱们就有了！接下来，咱们对着一个代码来讨论url = ''headers就是来模拟人来发起的请求，简称请求头。

2024-07-05 14:08:56 1084

原创对于爬虫中debug的使用总结

我试了三个变量，这里我们看到这三个变量目前都是没被定义的，我们可以在控制台里给它定义，也可以通过执行下一步，利用代码中的赋值来定义。有一次我无意在for循环处打了一个断点，又恰好点到'DUBUG'，你猜怎么着，嘿，点一下它循环一次，我感觉瞬间找到了新大陆，在以前我在测试的时候，都是在哪个地方加一个print输出一下，看看，是否有输出，或者输出是什么类型，会不会报错。在刚开始学习爬虫时，我只知道意味使用'RUN'，一直觉得旁边的'DUBUG'很鸡肋，不知道怎么用，感觉一个'RUN'就够了，直到......

2024-07-05 11:40:03 999

原创爬虫小趴菜每周总结

6.对于有些密码加密的网站，我们可以js逆向一下，发现他们加密过程，是md5，还是什么什么其他的（js逆向其实我也不会，只是瞎找，后期我学会了，会告诉大家，嘿嘿嘿）4.对于获取的数据如看上去是list但实质是str，我们可以json.loda一下然后利用for循环将里面列表一一对应输出一下，下面是一个例子。然后模拟登录，有些加密是不止一层的，会嵌套许多，还有的在原本密码后面加一串字符长。time_str = int(time.time()*1000)，即13位的时间戳。5.时间戳是一个很重要的东西，

2024-07-03 09:13:15 766

原创学习爬虫一个礼拜的小总结

8.一般翻页数循环，我们可以从返回的request文件中提取页数page，或者总条数，用于除每页数赋值为page，然后循环嵌套。4.data，在一般的get请求中可以不用填写，在post的请求中，要填写切要一一对应，缺一不可，否则request会报错。emmm，目前我只能总结这么多，如果有错误，还望各位大佬，请多指教，让我速速提升，嘿嘿嘿，大家也可以分享自己的学习总结！5.区分post和get请求，在网页检查中可以查看。问：xpath，pyquery，re哪个好用?3.url，是我们访问的目标网站!

2024-06-27 16:14:52 928

空空如也

对于网站中的验证码获取问题

2024-07-24

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 什么是Scrapy

原创 在PyCharm中一般的爬虫模板

原创 对于爬虫中debug的使用总结

原创 爬虫小趴菜每周总结

原创 学习爬虫一个礼拜的小总结