爬虫
文章平均质量分 88
0zxm
这个作者很懒,什么都没留下…
展开
-
Scrapy框架
在网络爬虫的上下文中,抓包技术可以被用来分析和优化爬虫的性能。具体来说,爬虫开发者可以使用抓包工具(如Wireshark、tcpdump等)来捕获爬虫程序与服务器之间的通信数据包。通过对这些数据包的分析,开发者可以了解爬虫请求的发送情况、服务器的响应情况,以及请求和响应中携带的具体数据内容。原创 2024-08-04 13:54:17 · 1270 阅读 · 0 评论 -
爬虫爬取小说
通过对网页结构分析,发现文字有一些超出了编码范围,于是可以推断出,字体暗藏玄机,找到网页字体文件后,下载到本地,用Fontforge打开,发现只从e3e8到e55b有文字,所以可以得出番茄使用了两套字体加载文本内容,当字符超出一定范围,就使用另一种。通过观察层级结构,我们使用xpath语法 //div[@class=“muye-reader-content noselect”]/div//p 获得文章内容,到此,所以需要的信息已经爬完了,只需要处理循环逻辑,保存文件就行。获取内容如图,具有乱码。原创 2024-01-27 12:18:39 · 4741 阅读 · 1 评论
分享