python爬取豆瓣书籍、电影等搜索结果,并解析html转成json格式

本文以豆瓣首页搜索图书、电影等结果页面为例,使用python的BeautifulSoup解析页面内标题、作者、出版社、评分、简介、缩略图等内容,并转成json格式进行存储。
声明:本文仅作学习python对html解析方法的交流使用,不针对特定网站。

首先我们通过豆瓣首页搜索python,点击书籍的分类,F12查看页面元素。
在这里插入图片描述
我们通过CTR+F 查询到页面中搜索的结果都在result-list下的<div class="result">标签中。
在这里插入图片描述
所以下面我们的思路就是循环取出该标签,并提取相应元素。
(在此页面搜索结果展示其实是不全的,还有个显示更多的问题,本文重点在页面解析,获取更多的操作暂不做讨论。)

  <div class="result">
    <div class="pic">
      <a class="nbg" href="https://www.douban.com/link2/?url=https%3A%2F%2Fbook.douban.com%2Fsubject%2F26829016%2F&amp;query=python&amp;cat_id=1001&amp;type=search&amp;pos=0" target="_blank" onclick="moreurl(this,{i: '0', query: 'python', from: 'dou_search_book', sid: 26829016, qcat: '1001'})" title="Python编程" ><img src="https://img9.doubanio.com/view/subject/s/public/s28891775.jpg"></a>
    </div>
    <div class="content">
      <div class="title">
        <h3>
          <span
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值