自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 什么是Scrapy

负责下载Scrapy Engine(引擎)发送的所有Requests请求,并将其获取到的Responses交还给Scrapy Engine(引擎),由引擎交给Spider来处理,:它负责处理所有Responses,从中分析提取数据,获取Item字段需要的数据,并将需要跟进的URL提交给引擎,再次进入Scheduler(调度器).: 它负责接受引擎发送过来的Request请求,并按照一定的方式进行整理排列,入队,当引擎需要时,交还给引擎。这些是Scrapy重要组成部分,他们之间的运作关系也是非常有趣的!

2024-07-16 11:47:46 344

原创 在PyCharm中一般的爬虫模板

爬虫:很好理解,就是一段自动抓取互联网信息的程序,从互联网上抓取对于我们有价值的信息。至于如何爬取,我们娓娓道来。首先,我们得有一个明确的目标网站,即url。然后,我们需要使用电脑来模拟发出请求,即request既然都发送请求了,不出意外的话我们会得到一个返回值,不论是否访问成功,都会有返回,即respons。对于response,我们得把他转换一下保存对不对?唉?一个简单的思路咱们就有了!接下来,咱们对着一个代码来讨论url = ''headers就是来模拟人来发起的请求,简称请求头。

2024-07-05 14:08:56 1084

原创 对于爬虫中debug的使用总结

我试了三个变量,这里我们看到这三个变量目前都是没被定义的,我们可以在控制台里给它定义,也可以通过执行下一步,利用代码中的赋值来定义。有一次我无意在for循环处打了一个断点,又恰好点到'DUBUG',你猜怎么着,嘿,点一下它循环一次,我感觉瞬间找到了新大陆,在以前我在测试的时候,都是在哪个地方加一个print输出一下,看看,是否有输出,或者输出是什么类型,会不会报错。在刚开始学习爬虫时,我只知道意味使用'RUN',一直觉得旁边的'DUBUG'很鸡肋,不知道怎么用,感觉一个'RUN'就够了,直到......

2024-07-05 11:40:03 999

原创 爬虫小趴菜每周总结

6.对于有些密码加密的网站,我们可以js逆向一下,发现他们加密过程,是md5,还是什么什么其他的(js逆向其实我也不会,只是瞎找,后期我学会了,会告诉大家,嘿嘿嘿)4.对于获取的数据如看上去是list但实质是str,我们可以json.loda一下然后利用for循环将里面列表一一对应输出一下,下面是一个例子。然后模拟登录,有些加密是不止一层的,会嵌套许多,还有的在原本密码后面加一串字符长。time_str = int(time.time()*1000),即13位的时间戳。5.时间戳是一个很重要的东西,

2024-07-03 09:13:15 766

原创 学习爬虫一个礼拜的小总结

8.一般翻页数循环,我们可以从返回的request文件中提取页数page,或者总条数,用于除每页数赋值为page,然后循环嵌套。4.data,在一般的get请求中可以不用填写,在post的请求中,要填写切要一一对应,缺一不可,否则request会报错。emmm,目前我只能总结这么多,如果有错误,还望各位大佬,请多指教,让我速速提升,嘿嘿嘿,大家也可以分享自己的学习总结!5.区分post和get请求,在网页检查中可以查看。问:xpath,pyquery,re哪个好用?3.url,是我们访问的目标网站!

2024-06-27 16:14:52 928

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除