学python的小白_ZT-CSDN博客

原创 HTML基础1

在学习如何使用python下载网页上的图片时卡住了，我觉得还是有必要学习一下HTML，了解一下网页究竟是由什么组成的。首先，什么是HTML？HTML指的是超文本标记语言 HyperText Markup Language。不是编程语言，而是一种标记语言

2022-09-21 18:40:01 238 1

使用上一章学习到的requests模块爬取网页的内容，url地址为想爬取的网页的网址；首先，用parsel的Selector这个类来声明一个selector对象,传入了网页爬到的内容。注意要使用getall方法，否则提取到的就只有一个段落而不是全篇了。从网页上爬取的的内容其实看不太懂，这个时候就需要使用 parsel 模块对网页内容进行解析。接上章，上章写了如何解决爬取到的内容乱码的问题，本章主要是写一个爬取单章小说的模板。提取到的内容连在一起，分不清段落，使用join()方法重新生成字符串。

2022-09-07 16:27:07 214 1

原创 python爬虫---爬网页时显示乱码

以上两种编码编码格式是乱猜的，也不能完全靠猜吧，于是又找到了一种比较稳妥的方式----直接查看原网页的编码方式。于是就在网上搜资料，里面有讲可能是网页编码格式不对，于是尝试了其它编码格式。有一个charset = gb2312，那gb2312就是该网页的编码方式了。仿照着写一段，想爬一下’我们仨‘这篇小说的目录。看到了requests的用法想尝试一下。小白一个，正在学习中。

2022-09-07 08:55:46 506

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

weixin_58474077的博客

原创 HTML基础1

原创小说全篇爬取

原创单章小说的爬取模板

原创 python爬虫---爬网页时显示乱码

空空如也

空空如也

原创 HTML基础1

原创 小说全篇爬取

原创 单章小说的爬取模板

原创 python爬虫---爬网页时显示乱码

空空如也

空空如也

原创小说全篇爬取

原创单章小说的爬取模板