利用python爬取《三国演义》全本

# -*- coding: utf-8 -*-
# @ 2021/3/10 19:53
# @ 三国演义(txt).py
# @ DQMNB

import re
import os
import urllib.request
import urllib.error
from time import sleep
from tqdm import tqdm

findbiaoti = re.compile(r'<h2 class="grap--h2">(.*?)</h2>')
findwenben = re.compile(r'<div>(.*?)</div>', re.S)


def main():
    if not os.path.exists('三国演义'):
        os.mkdir('三国演义')
    baseurl = 'http://sanguo.5000yan.com/'
    biaotidata, wenbendata = getData(baseurl)
    saveData(biaotidata, wenbendata)


def getData(baseurl):
    biaotidata = []
    wenbendata = []
    for i in tqdm(range(965, 1085), '开始爬取'):
        url = baseurl + str(i) + ".html"
        html = askURL(url)
        sleep(0.5)
        # print(html.decode('utf-8'))  #获取html源码
        biaoti = re.findall(findbiaoti, html.decode('utf-8', errors='ignore'))[0]
        biaotidata.append(biaoti)
        wenbenlist = re.findall(findwenben, html.decode('utf-8', errors='ignore'))
        wenben = ''.join(wenbenlist)
        wenben = wenben.replace("&ldquo;", '')
        wenben = wenben.replace("&lsquo;", '')
        wenben = wenben.replace("&rdquo;", '')
        wenben = wenben.replace("&rsquo;", '')
        wenben = wenben.replace("&nbsp;", '')
        wenben = biaoti + "\n\n" + wenben
        wenbendata.append(wenben)
    return biaotidata, wenbendata


def askURL(url):
    head = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.183 Safari/537.36 Edg/86.0.622.63"}
    request = urllib.request.Request(
        url, headers=head)
    html = ""
    try:
        response = urllib.request.urlopen(request)
        html = response.read()
    except urllib.error.URLError as e:
        if hasattr(e, "code"):
            print(e.code)
        if hasattr(e, "reason"):
            print(e.reason)
    return html


def saveData(biaotidata, wenbendata):
    for i in tqdm(range(0, 120), '爬取成功,正在保存'):
        biaotiStr = biaotidata[i] + '.txt'
        f = open('./三国演义/' + biaotiStr, 'w')
        f.write(wenbendata[i])
        f.close()


main()
print("保存成功,爬取完毕!")

 1. 不建议抓取太多数据,容易对服务器造成负载,浅尝辄止即可。
 2. 本文仅用于交流学习,未经作者允许,禁止转载,更勿做其他用途,违者必究。




  • 3
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
要用Python爬取三国演义》全文,可以先通过引用提供的链接访问《三国演义》的在线阅读网页。然后,可以使用Python的网络爬虫库,比如Requests和BeautifulSoup,来获取该网页的内容。 首先,使用Requests库发送GET请求,获取网页的HTML内容。可以使用以下代码来实现: ```python import requests url = "https://www.shicimingju.com/book/sanguoyanyi.html" response = requests.get(url) html_content = response.text ``` 接下来,使用BeautifulSoup库解析HTML内容,并提取出章节的标题和对应的章节网址。可以使用以下代码来实现: ```python from bs4 import BeautifulSoup soup = BeautifulSoup(html_content, "html.parser") chapter_list = soup.find_all("div", class_="book-mulu") for chapter in chapter_list: chapter_title = chapter.a.text chapter_url = chapter.a["href"] print(chapter_title, chapter_url) ``` 通过以上代码,就可以获取到《三国演义》每个章节的标题和对应的章节网址了。 接下来,可以根据章节网址,再次发送GET请求,获取章节的内容。可以使用以下代码来实现: ```python chapter_url = "章节的网址" # 将章节的网址替换为具体的章节网址 chapter_response = requests.get(chapter_url) chapter_html = chapter_response.text ``` 然后,可以继续使用BeautifulSoup库解析章节的HTML内容,提取出章节的文本内容。可以使用以下代码来实现: ```python chapter_soup = BeautifulSoup(chapter_html, "html.parser") chapter_content = chapter_soup.find("div", class_="chapter_content").text print(chapter_content) ``` 通过以上代码,就可以获取到《三国演义》每个章节的内容了。 请注意,以上代码仅为示例,具体的网页结构和解析方式可能会因网页的更新和变化而有所不同。需要根据实际情况进行调整和修改。<span class="em">1</span><span class="em">2</span> #### 引用[.reference_title] - *1* *2* [python爬虫-bs4案例爬取三国演义全文-小林月](https://blog.csdn.net/qq_53953480/article/details/129915362)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 100%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值