出版社名爬取

最新推荐文章于 2021-05-27 18:45:52 发布

土豆Todo

最新推荐文章于 2021-05-27 18:45:52 发布

阅读量169

点赞数

本文链接：https://blog.csdn.net/weixin_44783823/article/details/104367866

版权

好多天前初步学习了爬虫，爬取了豆瓣阅读的出版社名，做个小笔记。

import urllib.request
# 也可以使用requests
import re
# 请求头
headers = ("User-Agent", "你的user-agent")
opener = urllib.request.build_opener()
opener.addheaders = [headers]
urllib.request.install_opener(opener)
# 一破操作后，打开链接并解码
data = urllib.request.urlopen("https://read.douban.com/provider/all").read().decode("utf-8")
# 正则表达式
pat = '<div class="name">(.*?)</div>'
# 匹配并找到所有符合的数据
rst = re.compile(pat).findall(data)
# 创建文件，逐条写入
# 也可以用with open，
# 如果没有记错的话，用with open是不需要close的，如果哪里错了，请大佬指正（双手合十）
fh = open("F:/python_practice/爬虫练习/chubanshe.txt", "w")
for i in range(0, len(rst)):
    print(rst[i])
    fh.write(rst[i] + "\n")
# 一定要close，没有就不能保存
fh.close()

用requests差不多也是这亚子：

import re
import requests
url = "https://read.douban.com/provider/all"
headers = {
	"User-Agent":"你的user-agent",
     }
data = requests.get(url=url, headers=headers).content.decode("utf-8")
pat = '<div class="name">(.*?)</div>'
rst = re.findall(pat, data, re.S)
print(rst)
# mode是a+，如果是w，会逐渐覆盖掉前面的数据
with open("names.txt", mode='a+') as f:
    for i in range(0, len(rst)):
        thisLink = rst[i]
        f.write(thisLink + '\n')

结果就是：
在这里插入图片描述
和一txt文：