python爬虫之bs4实战应用

此次爬取的主要类型为小说

会用到的第三方库有:requests,BeautifulSoup

主要为了熟悉解析的方法,以下是代码可自行运行:

from bs4 import BeautifulSoup
import requests,os

url = "https://www.shicimingju.com/book/hongloumeng.html"
#      https://www.shicimingju.com/book/hongloumeng/1.html
headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36'
}

if not os.path.exists('./notebook'):
    os.mkdir('./notebook')

main_responce = requests.get(url=url,headers=headers)
main_responce.encoding = main_responce.apparent_encoding        # 自动转码

main_responce = main_responce.text

main_soup = BeautifulSoup(main_responce,'lxml')
main_selects = main_soup.select('.book-mulu > ul a')

for main_titles in main_selects:
    main_title = main_titles.text

    main_url = "https://www.shicimingju.com"
    parts_url = main_titles['href']
    detail_url = main_url+parts_url

    detail_responce = requests.get(url=detail_url,headers=headers).text

    detail_soup = BeautifulSoup(detail_responce,'lxml')
    detail_find = detail_soup.find('div',class_='chapter_content')
    detail_text = detail_find.text
    path = './notebook/' + main_title+'.txt'
    with open(path,'w',encoding='utf-8') as f:
        f.write(main_title+':\n'+detail_text)

    print(f'{main_title}   爬取完成...')
print("全部爬取完成。。。")
  • 12
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值