- 博客(4)
- 收藏
- 关注
原创 HTML基础1
在学习如何使用python下载网页上的图片时卡住了,我觉得还是有必要学习一下HTML,了解一下网页究竟是由什么组成的。首先,什么是HTML?HTML指的是超文本标记语言 HyperText Markup Language。不是编程语言,而是一种标记语言
2022-09-21 18:40:01 238 1
原创 单章小说的爬取模板
使用上一章学习到的requests模块爬取网页的内容,url地址为想爬取的网页的网址;首先,用parsel的Selector这个类来声明一个selector对象,传入了网页爬到的内容。注意要使用getall方法,否则提取到的就只有一个段落而不是全篇了。从网页上爬取的的内容其实看不太懂,这个时候就需要使用 parsel 模块对网页内容进行解析。接上章,上章写了如何解决爬取到的内容乱码的问题,本章主要是写一个爬取单章小说的模板。提取到的内容连在一起,分不清段落,使用join()方法重新生成字符串。
2022-09-07 16:27:07 214 1
原创 python爬虫---爬网页时显示乱码
以上两种编码编码格式是乱猜的,也不能完全靠猜吧,于是又找到了一种比较稳妥的方式----直接查看原网页的编码方式。于是就在网上搜资料,里面有讲可能是网页编码格式不对,于是尝试了其它编码格式。有一个charset = gb2312,那gb2312就是该网页的编码方式了。仿照着写一段,想爬一下’我们仨‘这篇小说的目录。看到了requests的用法想尝试一下。小白一个,正在学习中。
2022-09-07 08:55:46 506
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人