selenium爬取乐文网小说

最新推荐文章于 2023-12-03 21:38:22 发布

xh15

最新推荐文章于 2023-12-03 21:38:22 发布

阅读量2k

点赞数

分类专栏： python3 文章标签： selenium 网络爬虫 python

本文链接：https://blog.csdn.net/xionghuixionghui/article/details/63697334

版权

本文介绍了作者使用selenium和BeautifulSoup爬取乐文网小说的实战经验，包括模拟浏览器操作、元素定位、内容清洗及保存为txt文件等步骤，同时也分享了在爬取过程中遇到的坑，如元素定位问题和窗口句柄切换等。

摘要由CSDN通过智能技术生成

练手项目由来：

智商感人妹子一枚，有时候想看刚完结的小说，在网上不容易找到现成的txt文件，而在线看（一般乐文网上都有我要看的新文，所以锁定了乐文小说网）又是各种污污的广告，各种不方便，所以想方便自己，服务大家，特此新手上路，写了一个。

基本完成初期目标：

更改小说名，运行py程序，自动在指定目录以指定格式的小说名保存小说

目标网址：http://www.lewenxiaoshuo.com
核心技术：WebDriver + BeautifulSoup
两步走：
- webdriver模拟操作火狐浏览器：
  - 打开网址
  - 定位输入框，输入小说名
  - 定位搜索按钮并点击
  - 进入搜索结果列表，定位获取目标小说链接
  - 打开新的窗口，定位获取目标小说的章节链接列表
- beautifulsoup + urllib2分析网页：
  - 通过id定位获取tag对象：标题、内容
  - 关键：对小说内容的格式进行清洗、调整
    - 小说标题拼接小说内容，追加到列表
    - 遍历列表，一次性写入txt文件

坑

定位不到元素：
- 改用xpath定位，经测试xpath定位比css_selector好，但后者速度更快，而前者比网站依赖性太大
- 元素加载未完成，等待一段时间：sleep、implicity_wait、wait.until等
重点：浏览器点击链接打开新的窗口之后，当前窗口句柄已经发生改变，要switch_to_window（new_window_handle）
清洗调整文本格式，去掉多余无用的字符，比较繁杂，要针对对象具体分析：
- 以换行符、空格符等分割文本便于清洗、去掉无用的标签、控制换行等

很简单的代码，如下所示：

#coding=utf-8

from selenium import webdriver
import selenium.webdriver.support.ui as ui
import time
from selenium.webdriver.support.ui import WebDriverWait