本文以豆瓣首页搜索图书、电影等结果页面为例,使用python的BeautifulSoup解析页面内标题、作者、出版社、评分、简介、缩略图等内容,并转成json格式进行存储。
声明:本文仅作学习python对html解析方法的交流使用,不针对特定网站。
首先我们通过豆瓣首页搜索python,点击书籍的分类,F12查看页面元素。
我们通过CTR+F 查询到页面中搜索的结果都在result-list下的<div class="result">
标签中。
所以下面我们的思路就是循环取出该标签,并提取相应元素。
(在此页面搜索结果展示其实是不全的,还有个显示更多的问题,本文重点在页面解析,获取更多的操作暂不做讨论。)
<div class="result">
<div class="pic">
<a class="nbg" href="https://www.douban.com/link2/?url=https%3A%2F%2Fbook.douban.com%2Fsubject%2F26829016%2F&query=python&cat_id=1001&type=search&pos=0" target="_blank" onclick="moreurl(this,{i: '0', query: 'python', from: 'dou_search_book', sid: 26829016, qcat: '1001'})" title="Python编程" ><img src="https://img9.doubanio.com/view/subject/s/public/s28891775.jpg"></a>
</div>
<div class="content">
<div class="title">
<h3>
<span