编写Python爬虫爬取豆瓣出版社列表并写入文件_爬虫采集中国人民大学出版社图书列表-CSDN博客

本文链接：https://blog.csdn.net/weixin_45059502/article/details/95550826

爬取豆瓣出版社列表并写入文件

本文介绍了如何编写Python程序从网址’https://read.douban.com/provider/all’ 爬取豆瓣出版社列表并写入文件：

程序

import requests,re
from bs4 import BeautifulSoup

def getHTMLText(url,code='utf-8'):
    try:
        r=requests.get(url,timeout=30)
        r.raise_for_status
        if r.encoding != code:
            r.encoding = code
        return r.text
    except:
        print("爬取失败\n")
        return ""

def main():
    hrefpath='出版商.txt'
    with open(hrefpath,'w',encoding='utf-8') as f:
        url='https://read.douban.com/provider/all'
        html=getHTMLText(url,code='utf-8')
        soup=BeautifulSoup(html,'html.parser')
        info=re.compile('<div class="name">(.+?)</div>').findall(str(soup))
        for i in info:
            f.write(i)
            f.write('\n')

main()

运行结果

人民东方出版传媒
人民文学杂志社
上海九久读书人
世纪文景
四川数字出版传媒有限公司
上海译文出版社
时代华文
上海雅众文化
世纪文睿
时代华语
商务印书馆
生活·读书·新知三联书店
上海社会科学院出版社
社会科学文献出版社
山西春秋电子音像出版社
雁北堂
陕西人民出版北京分公司
《书城》杂志
世界图书出版公司北京公司
四川文艺出版社
上海文艺出版社
上海人民出版社
上海交通大学出版社
斯坦威图书
上海人民美术出版社
图灵社区
Trajectory
武汉大学出版社北京分社
万有图书
未读
新星出版社
新华先锋文化传媒
雪球
悬疑世界
现代出版社
西南财经大学出版社
新华出版社
新华先锋出版科技
译林出版社
译言·东西文库
译言·古登堡计划
悦读纪
阳光博客
悦读名品
燕山出版社
阅文集团华文天下
中信出版社
中国人民大学出版社
中作华文
中国轻工业出版社
紫图图书
浙版数媒
中央编译出版社
知乎
中国国家地理图书部
浙江摄影出版社
中国经济出版社
中国青年出版社
中国民主法制出版社
中国传媒大学出版社
中国言实出版社
浙江大学出版社
湛庐文化