爬取豆瓣出版社信息|迭代器

最新推荐文章于 2021-05-27 18:45:52 发布

学会自律

最新推荐文章于 2021-05-27 18:45:52 发布

阅读量158

点赞数 1

分类专栏： Python

本文链接：https://blog.csdn.net/weixin_45076415/article/details/106603604

版权

本文介绍了如何通过迭代器抓取并解析豆瓣网站上的出版社信息，包括从首页抓取数据，利用正则表达式提取关键内容，将结果写入文件，并提供了完整的代码示例和运行结果。

摘要由CSDN通过智能技术生成

1.抓取首页

def get_one_page(url):
    try:
        headers={
   
         'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.122 Safari/537.36'
        }
        response =requests.get(url,headers=headers)
        if response.status_code == 200:
            return response.text
        return None
    except  RequestException:
        return None

2.正则提取

在这里插入图片描述
所以这里的正则表达式为：<div class="name">(.*?)</div>

使用迭代器

def parse_one_page(html):
        pattern =re

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

学会自律

关注关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

urlib库实战1---爬取豆瓣出版社名称

lemon_wsm的博客

03-30

562

一.作业目标：爬取豆瓣网出版社名并存放到txt文本中。二.编写源码步骤：1:导入urllib库，并读取豆瓣网源码信息：用decode对读取的信息进行编码处理，有的时候用“UTF-8”也会报错，以后具体问题具体分析。2：编写正则表达式，获取出版社信息：注意： A: mydata中存储的数据是以数组的形式进行存放的。所以可以用for循环进行输出。 B: 其中正则表达式的编写...

python爬虫：爬取豆瓣阅读出版社数据

数据分析阿宇君的博客

03-14

1474

1.Excel表格的合并参考链接：https://www.cnblogs.com/zlhuan/p/8011304.html 2.网络爬虫爬虫类型很多，常用的有通用网络爬虫（爬取网站所有内容）和聚焦网络爬虫（针对某一特定需求） 3爬虫原理 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ayGTorSC-1584147798547)(attachment:imag...

参与评论您还未登录，请先登录后发表或查看评论

Python数据爬虫学习笔记:爬取豆瓣阅读的出版社名称数据

XIUXIU179的博客

07-20

927

环境准备： 1.python 3.0+ 2.豆瓣出版社网址 https://read.douban.com/provider/all 1.打开浏览器，输入网址，右击网页，查看网页源码 2.看上图我们发现许多出版社名称，接下来我们查找一个出版社名称，例如重庆大学观察下图我们发现它们都在一个div标签内，且class=”name” ,所以，我们开始编写代码 3.代码或者 4....

Python爬虫-爬取豆瓣出版社信息

weixin_45422695的博客

05-27

652

爬取豆瓣出版社信息 # 爬取豆瓣出版社 import urllib.request import re url = 'https://read.douban.com/provider/all' # UsageAgent 为用户代理，伪装成为用户正常的访问 headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4

爬虫入门：第一个小项目爬取豆瓣官网的出版社名称

weixin_43109714的博客

07-15

181

** 爬虫入门：第一个小项目爬取豆瓣官网的出版社名称 ** from urllib.request import urlopen, Request import re import ssl ssl._create_default_https_context = ssl._create_unverified_context headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML,

python爬取豆瓣top前200书籍信息

一清道长的个人博客

04-03

430

import requests import re import json import pymysql import userAgents from requests.exceptions import ReadTimeout from requests.exceptions import HTTPError from requests.exceptions import RequestEx...

requests+正则表达式爬取豆瓣读书top250

懒懒的书虫

12-29

4144

简单的python联手项目，通过rquests库请求得到豆瓣top250网页源代码，并通过正则表达式匹配得到对应信息-书名，作者信息，评分以及简介。网站的URL为’https://book.douban.com/top250?start=0’,但我们拉到底部发现250本读书的信息被分成了10页，这就需要我们首先对URL的规律进行分析得到所有页面的URL信息传递给get（）方法中请求源代码。点击...

Python使用lxml高效爬取豆瓣读书排行榜详解

"本文主要介绍了如何使用Python的lxml模块高效地爬取豆瓣读书排行榜的数据，包括书名、评分、评价数、出版社、出版年份等信息。文章首先对比了lxml与BeautifulSoup库的爬取效率，指出lxml的优势在于语法简洁和速度更...

小白分析2：豆瓣图书top250爬虫（静态页面）

poiuyds的博客

01-04

1557

python爬虫公认的练手项目就是豆瓣top250的图书和电影的抓取，静态页面且源码简单明了，之前也曾对着大神的例子边敲边理解，今番尝试自己动手，检验一下学习成果。所用的方法不是最简单的，只是自己理解的一种，还有很多问题，写下来留待以后改正。用时：5小时（呵呵，真有趣）第一次编辑遇到的问题： 1、作者项抓取包括许多其他信息，未能分开抓取；（split()方法解决） 2、第9页开始简...

python之简单爬虫（爬取豆瓣出版社）

Key_book(句芒安全实验室)

05-08

1733

环境准备： 1.python 3.0+ 2.豆瓣出版社网址 https://read.douban.com/provider/all ok，开始我们的实验 1.打开浏览器，输入网址，右击网页，查看网页源码，这里我用的是谷歌浏览器 2.看上图我们发现许多出版社名称，接下来我们查找一个出版社名称，例如重庆大学观察下图我们发现它们都在一个div标签内，且class=”name” ...

Scrapy实战之抓取豆瓣图书

踩风火轮的乌龟

08-03

2219

引言为了能更方便地选择自己喜欢的书籍，我自己写了一个Scrapy项目用来抓取豆瓣上的书籍。抓取的内容包括书籍的书名、作者、书信息、1到5星的百分数、评分和评论数。通过获取到的这些数据，我们可以做相应的分析。比如：我们可以抓取某一类书箱，看看哪本书的评论数最多或者评价分数最高。当然了，我指的这个是最简单的处理了。复杂一点的你可以用Python或R来分析相应变量之间的关系，比如：是否评论数越多书的评分越

爬虫爬取豆瓣出版社

sc_spder blog

07-02

1164

简单讲解如何运用python在IDLE中爬取豆瓣出版社首先开发所需环境如下：在IDLE中ctrl+n新建一个py项目--例如：然后开始写代码：接下来进行正则表达式的确定打开浏览器输入网址：https://read.douban.com/provider/all按f12键可以看到页面源码如下：接下来按1，2，3步骤找到出版社对应源码如下：写好正则表达式并执行文件写入保存如下：按f5执行.py文件效果...

python爬取豆瓣高分书籍信息（request+xpath）

柳小葱的博客

08-03

1816

复习了xpath,感觉还是熟悉的感觉。上次爬了微博爬了贴吧，这次就用xpath爬个豆瓣图书数据，作为学习时间序列的数据吧！面向对象编程爬取 1.把自己要做的事情分类 #获取url的规律组成url_list #遍历，获取请求，获得响应 #爬取数据 #保存数据 2.导包，初始化类 import requests from lxml import etree import csv class doubanspider: def __init__(self):

毕业设计论文Nodejs+Vue宠物店管理系统.docx

10-16

毕业设计论文

（自适应手机版）响应式化工工业企业模板_网站整站打包下载.zip

10-16

（自适应手机版）响应式化工工业企业模板_网站整站打包下载.zip

金蝶与C#对接操作手册.doc

10-16

金蝶EAS凭证引入 “webservice接口”说明

毕业设计论文Django+Vue应届生求职系统.docx

10-16

毕业设计论文

idea插件之Fast-Request-API-Buddy-2024.1.7.1

10-16

安装插件重启即可，可以使用所有功能，不会提示收费弹窗

包含 10 个不同奧运会项目的 1000 张标记图像数据集