xpath爬虫实战-爬取小说斗罗大陆第四部

最新推荐文章于 2024-03-24 18:00:20 发布

lonmar~

最新推荐文章于 2024-03-24 18:00:20 发布

阅读量652

点赞数

分类专栏：爬虫文章标签： python xpath html

本文链接：https://blog.csdn.net/weixin_45551083/article/details/104147133

版权

爬取思路

用到的第三方库文件
lxml,requests,fake_agent
用fake_agent里的UserAgent修饰爬虫
用requests进行基本的请求
用lxml进行html的分析
用xpath进行网页元素的选择

爬取的一些问题

1.编码问题这两个编码无法转换成utf-8

UnicodeEncodeError: ‘gbk’ codec can’t encode character ‘\xa0’ in position 15: illegal multibyte sequence
UnicodeEncodeError: ‘gbk’ codec can’t encode character ‘\xufeff’ in position 15: illegal multibyte sequence
解决:将这两个提前换成空字符

2.要提前建好一个txts的文件夹

全部源码

from lxml import etree
import requests
from fake_useragent import UserAgent


url1 = 'https://www.ibiquge.net/66_66791/'
url2 = 'https://www.ibiquge.net'