- 博客(5)
- 收藏
- 关注
原创 什么是Scrapy
负责下载Scrapy Engine(引擎)发送的所有Requests请求,并将其获取到的Responses交还给Scrapy Engine(引擎),由引擎交给Spider来处理,:它负责处理所有Responses,从中分析提取数据,获取Item字段需要的数据,并将需要跟进的URL提交给引擎,再次进入Scheduler(调度器).: 它负责接受引擎发送过来的Request请求,并按照一定的方式进行整理排列,入队,当引擎需要时,交还给引擎。这些是Scrapy重要组成部分,他们之间的运作关系也是非常有趣的!
2024-07-16 11:47:46 344
原创 在PyCharm中一般的爬虫模板
爬虫:很好理解,就是一段自动抓取互联网信息的程序,从互联网上抓取对于我们有价值的信息。至于如何爬取,我们娓娓道来。首先,我们得有一个明确的目标网站,即url。然后,我们需要使用电脑来模拟发出请求,即request既然都发送请求了,不出意外的话我们会得到一个返回值,不论是否访问成功,都会有返回,即respons。对于response,我们得把他转换一下保存对不对?唉?一个简单的思路咱们就有了!接下来,咱们对着一个代码来讨论url = ''headers就是来模拟人来发起的请求,简称请求头。
2024-07-05 14:08:56 1084
原创 对于爬虫中debug的使用总结
我试了三个变量,这里我们看到这三个变量目前都是没被定义的,我们可以在控制台里给它定义,也可以通过执行下一步,利用代码中的赋值来定义。有一次我无意在for循环处打了一个断点,又恰好点到'DUBUG',你猜怎么着,嘿,点一下它循环一次,我感觉瞬间找到了新大陆,在以前我在测试的时候,都是在哪个地方加一个print输出一下,看看,是否有输出,或者输出是什么类型,会不会报错。在刚开始学习爬虫时,我只知道意味使用'RUN',一直觉得旁边的'DUBUG'很鸡肋,不知道怎么用,感觉一个'RUN'就够了,直到......
2024-07-05 11:40:03 999
原创 爬虫小趴菜每周总结
6.对于有些密码加密的网站,我们可以js逆向一下,发现他们加密过程,是md5,还是什么什么其他的(js逆向其实我也不会,只是瞎找,后期我学会了,会告诉大家,嘿嘿嘿)4.对于获取的数据如看上去是list但实质是str,我们可以json.loda一下然后利用for循环将里面列表一一对应输出一下,下面是一个例子。然后模拟登录,有些加密是不止一层的,会嵌套许多,还有的在原本密码后面加一串字符长。time_str = int(time.time()*1000),即13位的时间戳。5.时间戳是一个很重要的东西,
2024-07-03 09:13:15 766
原创 学习爬虫一个礼拜的小总结
8.一般翻页数循环,我们可以从返回的request文件中提取页数page,或者总条数,用于除每页数赋值为page,然后循环嵌套。4.data,在一般的get请求中可以不用填写,在post的请求中,要填写切要一一对应,缺一不可,否则request会报错。emmm,目前我只能总结这么多,如果有错误,还望各位大佬,请多指教,让我速速提升,嘿嘿嘿,大家也可以分享自己的学习总结!5.区分post和get请求,在网页检查中可以查看。问:xpath,pyquery,re哪个好用?3.url,是我们访问的目标网站!
2024-06-27 16:14:52 928
空空如也
对于网站中的验证码获取问题
2024-07-24
TA创建的收藏夹 TA关注的收藏夹
TA关注的人