爬虫练习day1 request+bs4 爬取网络动画图片

最新推荐文章于 2023-09-11 13:12:50 发布

东海一坨礁

最新推荐文章于 2023-09-11 13:12:50 发布

阅读量191

点赞数

分类专栏： python爬虫学习记录文章标签： python

本文链接：https://blog.csdn.net/weixin_44214018/article/details/106330640

版权

python爬虫学习记录专栏收录该内容

1 篇文章 0 订阅

订阅专栏

Import requests

url = “”

response = response.get(url)

print(response) response [200] 则请求成功

若出现response418 错误代码

是因为触发了反爬

添加：

headers={'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36'}

response = requests.get(url, headers=headers)

#指定解码用的编码集

Response.encoding = ‘utf-8’

#把源代码交给beautifulsoup

main_page = BeautifulSoup(response.text, “html.parser”) #“html.parser”为固定写法

beautifulsoup：

find(标签， attrs={“属性”:”值”}) 找一个

find_all(标签， attrs={“属性”:”值”}) 找全部

#find(“张三”, attrs = {“身高”:”180”})

Find(“div”,attrs={“class”:”b”})

执行

f = open("%s.jpg" % title, mode='wb')

f.write(requests.get(img.get("src")).content)

出现OSError: [Errno 22] Invalid argument: '\n萤火之森动漫图片萤火之森卡通图片\n.jpg'

解决方法：

title = title.replace('\n','')

成功后：

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

东海一坨礁

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Python——股票数据定向爬虫（requests+bs4+re）

red_red_red的博客

08-05

818

目标：获取上交所和深交所所有的股票名称和交易信息输出：保存到文件中候选数据网站选择：新浪股票：http://stock.finance.sina.com.cn/stock/ 百度股票：https://gupiao.baidu.com/stock/ 候选网站的选择原则：股票信息静态存在于HTML页面上，非js代码生成，没有Robots协议限制这里我们可以通过查看网页源代码来确认股...

day19 学习python爬虫——requests和bs4

weixin_50758400的博客

10-18

406

*day19 学习python爬虫——requests(使用详解、请求详解三种情况)和bs4（请求详解）、json数据解析

参与评论您还未登录，请先登录后发表或查看评论

漫客们的福利啦，爬取整站动漫图片，小白都能学，超简单

weixin_44099558的博客

12-19

765

正文目标网站divinl 首先看看这网站是怎样加载数据的; 打开网站后发现底部有下一页的按钮，ok，爬这个网站就很简单了; 学习Python中有不明白推荐加入交流裙号：735934841 群里有志同道合的小伙伴，互帮互助，群里有免费的视频学习教程和PDF！日文的 ...

requests+bs4使用（post方式）

lyq_wtnl的博客

08-08

643

这里写自定义目录标题requests+bs4使用（post方式）一、介绍二、参考代码 requests+bs4使用（post方式）参看文献：关于json格式的介绍：https://blog.csdn.net/woay2008/article/details/94366000 使用chrom浏览器Network查看前后台数据传输请求：https://blog.csdn.net/museions/article/details/75144263 不同浏览器前端调试查看返回页面的json数据：https:

利用Python批量爬取XKCD动漫图片，并批量保存

qq_40256654的博客

11-10

469

import requests, os, bs4 url = ‘https://xkcd.com’ os.makedirs(‘xkcd’,exist_ok = True) while not url.endswith(’#’): # download the page print('downloading the %s...'%(url)) # '%s...'%(url)对字符串及进行替换 re...

Python3 Requests+BS4网络爬虫：最详细零基础的获取百度快照链接爬虫教程（思路篇）

ZesenYuan的博客

04-30

1622

Hello，大家好呀，五一劳动节快乐呀！最近在后台接到一个粉丝的私信说怎么爬取百度快照。正好五一有一段时间休息，咱们就来水一篇文章，顺便来巩固巩固基础的知识。注意注意！这是思路篇，没有代码！只有思路代码篇地址：5月2日前公布提前预警，这可能是你看到的讲述最详细的一篇关于百度快照爬虫的博客，所以请务必认真看一下哟！由于我的水平有限，欢迎各位大神批评指正！但是需要注意的是，我在这里演示的内容仅仅对我写完代码这一刻有效，爬虫的机制是一直会变化的，没有哪个爬虫的编写者能够肯定他们的代码一定不会失效，尤其是像

爬虫-requests和bs4

D_Ray_的博客

08-12

747

requests的使用方法 # requests：python基于http协议进行网络请求的第三方库 import requests """1. 发送请求 requests.get(url, *, headers, params, proxies) - 发送get请求 requests.post(url, *, headers, params, proxies) - 发送post请求参数： url - 请求地址(一个网站的网址、接口的地址、图片地址等) headers

python bs4 csv requests 爬虫爬取携程火车票网址信息并保存

qq_51804522的博客

12-31

2828

目的：爬取携程网址火车中的单程与中转单程 url=“https://trains.ctrip.com/trainbooking/search?tocn=%25e5%258d%2583%25e5%25b2%259b%25e6%25b9%2596&fromcn=%25e6%259d%25ad%25e5%25b7%259e&day=2020-12-31” 中转 url=“https://trains.ctrip.com/pages/booking/hubSingleTrip?ticketTy

python 根据搜索词爬虫爬取百度图片

JZJZ73的博客

11-12

483

项目需要写了一个根据搜索词爬取百度图片的程序，主要实现以下多个功能： 1、指定爬取搜索词； 2、指定开始爬取的页数和爬取的总页数； 3、对爬取成功的图片进行编号，并输出爬取未成功图片的原因； 4、将每次爬取行动记录于txt文档中，留档查看。代码如下： # -*- coding:utf-8 -*- import requests import json import re import os import urllib import lxml im...

【爬虫学习笔记day21】2.9. 参考阅读：案例：使用bs4的爬虫+案例：使用BeautifuSoup4的爬虫

汪雯琦的博客

01-29

400

文章目录2.9. 参考阅读：案例：使用bs4的爬虫案例：使用BeautifuSoup4的爬虫 2.9. 参考阅读：案例：使用bs4的爬虫案例：使用BeautifuSoup4的爬虫我们以腾讯社招页面来做演示：http://hr.tencent.com/position.php?&start=10#a 使用BeautifuSoup4解析器，将招聘网页上的职位名称、职位类别、招聘人数、工...

python爬取百度图片以及图像批量处理

03-09

python爬取百度图片，通过更改标签名，可以爬取各种类型的图片，如动物，水果，美女，动漫等等，还可以通过更改格式来保证下载的图片格式一致。还有图像批量处理程序是统一爬取图片的分辨率，名称，格式。

python网络爬虫之解析网页的正则表达式(爬取4k动漫图片)[三]

旺旺的博客

12-02

1284

目录前言一、正则表达式的学习1、正则表达式的匹配工具2、正则表达式的样式3、正则表达式的案例二、爬取网页图片1、分析网页2、获取数据爬取妹子网的案例后记前言 hello,大家好本章可是一个重中之重了，因为我们今天是要爬取一个图片而不是一个网页或是一个json 所以我们也就不用用到selenium了，当然有兴趣的同学也一样可以使用selenium去爬取。为了方便我们就用request请求就够了...

python系列:requests库+BS4库及综合实例

最新发布

weixin_59633478的博客

09-11

1143

python系列之requests库+BS4库及综合实例仅供学习、交流使用，不具有任何商业用途，如有问题请及时联系我们以作处理。如果要向请求添加 HTTP 标头，只需将 dict项中传递给 headers参数即可。user-agent：向服务器发送，包含了访问者系统引擎版本、浏览器信息的字段信息。一般服务器识别出是爬虫请求，会拒绝访问。所以此时设置user-agent，可以将爬虫伪装成用户通过浏览器访问。

python 网络爬虫全流程教学，从入门到实战（requests+bs4+存储文件）

qq_57340195的博客

10-18

5382

python 网络爬虫全流程教学，从入门到实战（requests+bs4+存储文件）

requests+bs4爬取网页内容——以爬取网页文章信息为例

lyq_wtnl的博客

08-17

8775

一、引言目标网址：https://gary666.com/learn 爬取方式：requests+bs4 难度：易基本爬取的内容：输出：页面中所有的文章的标题、内容、作者、文章分类、时间对应上图（标题为win10python安装配置selenium 、作者是Gary、文章分类python、时间2020-7-9）选做内容：数据存储：txt、excel、数据库（mysql、sqlite等）翻页：https://gary666.com/learn?page=2，url

request+bs4 爬取数据存放数据库

Hoo_ligan的博客

07-06

324

import pymysql import requests from bs4 import BeautifulSoup from lxml import etree import time headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.163 Safari/537.36', } def bq

基于Request+bs4技术路线实现中国大学排名定向爬虫

Jock2018的博客

01-22

867

中国大学排名定向爬虫实战一、前期准备1. 功能描述2. 定向爬虫可行性分析3. 程序结构设计二、代码的实现1. 函数的框架实现2. 函数功能实现，完成代码三、代码优化问题1. 优化apparent_encoding问题2. 输出结果的中文对齐问题四、回顾与总结1. 本爬虫的技术难点：2. 个人的一些体会五、参考资料一、前期准备 1. 功能描述爬取2018年中国最好大学的排名，中国最好大学排名2...

python爬漫画（2）—— 爬取简单动态加载网页的图片

RikkaTakanashi的博客

11-24

2556

系列之二——爬取动态加载网页的图片在上一篇中我们提到了如何爬取静态网页，静态网页方便爬取是因为我们查看网页元素然后直接爬取信息就可以。然而动态网页比如常见的js动态生成，用静态方法访问网站并且获取html时，js动态生成的这一部分还没有生成，所以静态方法获取不了这一部分信息。我采用的例子是动漫之家（仅学习用，若涉及侵权请联系我，我会下架本文章）我使用的是selenium的we...

爬虫实战3：使用request,bs4爬动态加载图片

weixin_30940783的博客

07-06

129

参考网站：https://blog.csdn.net/Young_Child/article/details/78571422 在爬的过程中遇到的问题: 1、被ban：更改header的User-Agent，伪装成浏览器浏览，如果还被ban可以使用代理，这个网站只需要伪装头再加上time.sleep()就可以解决了（我导入了fake_useragent，也可以自己造个轮子，我比较懒...

基于Hadoop的分布式网络爬虫系统——解析PCI+Express在爬取中的应用

"本文主要探讨了基于Hadoop平台的分布式网络爬虫系统的设计与实现，重点关注了网页解析模块，以及整个系统的架构和功能模块。网页解析模块利用MapReduce的Map过程，通过正则表达式从原始网页中提取超链接。系统采用...