python爬取豆瓣书籍、电影等搜索结果，并解析html转成json格式

本文链接：https://blog.csdn.net/weixin_44162809/article/details/117809609

本文以豆瓣首页搜索图书、电影等结果页面为例，使用python的BeautifulSoup解析页面内标题、作者、出版社、评分、简介、缩略图等内容，并转成json格式进行存储。
声明：本文仅作学习python对html解析方法的交流使用，不针对特定网站。

首先我们通过豆瓣首页搜索python，点击书籍的分类，F12查看页面元素。
在这里插入图片描述
我们通过CTR+F 查询到页面中搜索的结果都在result-list下的<div class="result">标签中。

所以下面我们的思路就是循环取出该标签，并提取相应元素。
（在此页面搜索结果展示其实是不全的，还有个显示更多的问题，本文重点在页面解析，获取更多的操作暂不做讨论。）

  <div class="result">
    <div class="pic">
      <a class="nbg" href="https://www.douban.com/link2/?url=https%3A%2F%2Fbook.douban.com%2Fsubject%2F26829016%2F&amp;query=python&amp;cat_id=1001&amp;type=search&amp;pos=0" target="_blank" onclick="moreurl(this,{i: '0', query: 'python', from: 'dou_search_book', sid: 26829016, qcat: '1001'})" title="Python编程" ><img src="https://img9.doubanio.com/view/subject/s/public/s28891775.jpg"></a>
    </div>
    <div class="content">
      <div class="title">
        <h3>
          <span