自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

weixin_58474077的博客

小白一个,记录学python的过程中,如有错误欢迎指出

  • 博客(4)
  • 收藏
  • 关注

原创 HTML基础1

在学习如何使用python下载网页上的图片时卡住了,我觉得还是有必要学习一下HTML,了解一下网页究竟是由什么组成的。首先,什么是HTML?HTML指的是超文本标记语言 HyperText Markup Language。不是编程语言,而是一种标记语言

2022-09-21 18:40:01 238 1

原创 小说全篇爬取

讲了小说全篇提取的方法

2022-09-09 08:57:16 1979

原创 单章小说的爬取模板

使用上一章学习到的requests模块爬取网页的内容,url地址为想爬取的网页的网址;首先,用parsel的Selector这个类来声明一个selector对象,传入了网页爬到的内容。注意要使用getall方法,否则提取到的就只有一个段落而不是全篇了。从网页上爬取的的内容其实看不太懂,这个时候就需要使用 parsel 模块对网页内容进行解析。接上章,上章写了如何解决爬取到的内容乱码的问题,本章主要是写一个爬取单章小说的模板。提取到的内容连在一起,分不清段落,使用join()方法重新生成字符串。

2022-09-07 16:27:07 214 1

原创 python爬虫---爬网页时显示乱码

以上两种编码编码格式是乱猜的,也不能完全靠猜吧,于是又找到了一种比较稳妥的方式----直接查看原网页的编码方式。于是就在网上搜资料,里面有讲可能是网页编码格式不对,于是尝试了其它编码格式。有一个charset = gb2312,那gb2312就是该网页的编码方式了。仿照着写一段,想爬一下’我们仨‘这篇小说的目录。看到了requests的用法想尝试一下。小白一个,正在学习中。

2022-09-07 08:55:46 506

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除