python爬虫—小说网站：字符串爬取

最新推荐文章于 2023-03-08 15:02:44 发布

xiaonaofu_

最新推荐文章于 2023-03-08 15:02:44 发布

阅读量223

点赞数

分类专栏： python爬虫文章标签： python css

本文链接：https://blog.csdn.net/xiaonaofu_/article/details/111769038

版权

python爬虫专栏收录该内容

1 篇文章 0 订阅

订阅专栏

import parsel
import requests

res = requests.get("http://www.biquge.info/0_928/4812009.html")
res.raise_for_status()
res.encoding = res.apparent_encoding

# print(res.text)

#  解析方式：1.正则表达式，在Linux下执行
#  2.下path解析，用于xml文件 3.css选择器

#  sel是一个标题
sel = parsel.Selector(res.text)

#  获取标题
#  ::伪类选择器 h1标签选择器，id选择器，类选择器
h1 = sel.css(" h1::text")

title = h1.get()
# print(title)

content = sel.css("#content::text")
contents = content.getall()
# print(contents)

# 定义一个变量接受contents列表中的数据
text = ""
# 将列表转换成字符串
for line in contents:
    text += line.strip()+"\n"
    # print(text)

with open(file=title+".txt", mode="w", encoding="utf-8") as f:
    f.write(title)
    f.write(text)
    f.close()

xiaonaofu_

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python爬虫—小说网站：字符串爬取

import parselimport requestsres = requests.get("http://www.biquge.info/0_928/4812009.html")res.raise_for_status()res.encoding = res.apparent_encoding# print(res.text)# 解析方式：1.正则表达式，在Linux下执行# 2.下path解析，用于xml文件 3.css选择器# sel是一个标题sel = parsel
复制链接

扫一扫