爬虫
文章平均质量分 71
猪萌萌
我只是一只擅长搬运的猪萌萌
展开
-
利用selenium+BS4+python对某狗音乐排行榜进行歌曲的爬取
利用selenium+BS4+python对酷狗音乐排行榜进行歌曲的爬取+下载这个爬虫是在学习商业智能实训课程时留的作业,现在搬出来给大家分享。原创 2021-11-26 14:24:09 · 105 阅读 · 0 评论 -
利用bs4爬取贝壳二手房信息,并将信息存储进csv文件
利用bs4爬取贝壳二手房信息,并将信息存储进csv文件我们首先查看爬取目标,下面是爬取目标的网页展示。其次对所要爬取的数据进行结构观察,可以看到所有的数据全部存储在class=‘sellListContent’下面的ul里,其对应的xpath路径为:/html/body/div[1]/div[4]/div[1]/div[4]/ul。在了解了该网页的信息结构以后,我们就可以进行爬虫程序的构建。首先是对第一页进行爬虫设计,代码如下:import timeimport requestsfrom原创 2021-11-25 14:26:56 · 862 阅读 · 0 评论 -
利用BS4对无忧书城的武侠小说板块的小说进行爬取并存储进本地
利用BS4对无忧书城的武侠小说板块的小说进行爬取并存储进本地在前一阵子,学习了bs4以后,我想这去找个网站测试一下能否对数据进行爬取,经过查看,我选择了无忧书城。本爬虫已经实现了爬取武侠板块的小说并按照书名存储进相应的文件夹,每一章存储为单独的txt文件的功能。其实可以在对这个爬虫进行再次开发,可以将此网站的全部资源进行爬取存储。废话不多说,开始介绍爬虫代码:首先是程序流程:爬取武侠小说板块每本书对应的链接,并进行存储根据爬下的单本书的链接进入到书籍目录页(此超链接以《千门》小说为例),对每一原创 2021-11-25 16:09:35 · 450 阅读 · 0 评论