![](https://img-blog.csdnimg.cn/2021081922181149.jpg?x-oss-process=image/resize,m_fixed,h_224,w_224)
python爬虫
爬虫
melon524
我愿意用我十年奋斗,换你一世的笑脸ls
展开
-
爬取图片,链接为base64编码的情况
今天爬取图片时遇到链接为,爬取链接时,用requests请求报错,不知道什么情况,原来是链接的问题,直接解码链接,就可以得到图片了如上图所示:1、 它叫做data URI scheme,是一种网页优化的手段。让我们直接把图像的内容崁入网页里面,减少页面的请求。2、浏览器并不会缓存这样的图片3、data URI scheme 虽然节省 HTTP 请求,但是倘若这个图像要在网页多个地方显示的话,便会加大网页的内容,延长了下载的时间4、其中一个解决办法是在一个 CSS class 中加入 data UR原创 2021-08-22 20:14:02 · 2947 阅读 · 0 评论 -
爬取豆瓣网短评
分析:爬取豆瓣网某电影短评,前10页不需要登录就能爬取,但是从第10页开始就需要登录才能获取数据。使用selenium模拟登录后,因为是静态网页,可以保存cookie,然后利用requests,添加cookie进行登录操作。也可以直接登录后赋值网页cookie添加到requests请求中,进行登录。本来想直接使用requets的post传送表单,保存cookie,但是里面的ticke、randstr参数每次都会变,这个是滑动验证码后,会出现的东西,搞不懂是怎么生成的,所以没办法直接post登录下面进入原创 2021-08-19 23:05:32 · 1292 阅读 · 0 评论