出版社名爬取

好多天前初步学习了爬虫,爬取了豆瓣阅读的出版社名,做个小笔记。

import urllib.request
# 也可以使用requests
import re
# 请求头
headers = ("User-Agent", "你的user-agent")
opener = urllib.request.build_opener()
opener.addheaders = [headers]
urllib.request.install_opener(opener)
# 一破操作后,打开链接并解码
data = urllib.request.urlopen("https://read.douban.com/provider/all").read().decode("utf-8")
# 正则表达式
pat = '<div class="name">(.*?)</div>'
# 匹配并找到所有符合的数据
rst = re.compile(pat).findall(data)
# 创建文件,逐条写入
# 也可以用with open,
# 如果没有记错的话,用with open是不需要close的,如果哪里错了,请大佬指正(双手合十)
fh = open("F:/python_practice/爬虫练习/chubanshe.txt", "w")
for i in range(0, len(rst)):
    print(rst[i])
    fh.write(rst[i] + "\n")
# 一定要close,没有就不能保存
fh.close()

用requests差不多也是这亚子:

import re
import requests
url = "https://read.douban.com/provider/all"
headers = {
	"User-Agent":"你的user-agent",
     }
data = requests.get(url=url, headers=headers).content.decode("utf-8")
pat = '<div class="name">(.*?)</div>'
rst = re.findall(pat, data, re.S)
print(rst)
# mode是a+,如果是w,会逐渐覆盖掉前面的数据
with open("names.txt", mode='a+') as f:
    for i in range(0, len(rst)):
        thisLink = rst[i]
        f.write(thisLink + '\n')

结果就是:
在这里插入图片描述
和一txt文:
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值