编写Python爬虫爬取豆瓣出版社列表并写入文件

爬取豆瓣出版社列表并写入文件

本文介绍了如何编写Python程序从网址’https://read.douban.com/provider/all’ 爬取豆瓣出版社列表并写入文件:

程序

import requests,re
from bs4 import BeautifulSoup

def getHTMLText(url,code='utf-8'):
    try:
        r=requests.get(url,timeout=30)
        r.raise_for_status
        if r.encoding != code:
            r.encoding = code
        return r.text
    except:
        print("爬取失败\n")
        return ""

def main():
    hrefpath='出版商.txt'
    with open(hrefpath,'w',encoding='utf-8') as f:
        url='https://read.douban.com/provider/all'
        html=getHTMLText(url,code='utf-8')
        soup=BeautifulSoup(html,'html.parser')
        info=re.compile('<div class="name">(.+?)</div>').findall(str(soup))
        for i in info:
            f.write(i)
            f.write('\n')

main()
        

运行结果

人民东方出版传媒
人民文学杂志社
上海九久读书人
世纪文景
四川数字出版传媒有限公司
上海译文出版社
时代华文
上海雅众文化
世纪文睿
时代华语
商务印书馆
生活·读书·新知三联书店
上海社会科学院出版社
社会科学文献出版社
山西春秋电子音像出版社
雁北堂
陕西人民出版北京分公司
《书城》杂志
世界图书出版公司北京公司
四川文艺出版社
上海文艺出版社
上海人民出版社
上海交通大学出版社
斯坦威图书
上海人民美术出版社
图灵社区
Trajectory
武汉大学出版社北京分社
万有图书
未读
新星出版社
新华先锋文化传媒
雪球
悬疑世界
现代出版社
西南财经大学出版社
新华出版社
新华先锋出版科技
译林出版社
译言·东西文库
译言·古登堡计划
悦读纪
阳光博客
悦读名品
燕山出版社
阅文集团华文天下
中信出版社
中国人民大学出版社
中作华文
中国轻工业出版社
紫图图书
浙版数媒
中央编译出版社
知乎
中国国家地理图书部
浙江摄影出版社
中国经济出版社
中国青年出版社
中国民主法制出版社
中国传媒大学出版社
中国言实出版社
浙江大学出版社
湛庐文化
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

薛定谔的喵~

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值