爬虫
文章平均质量分 61
封妖师的徒弟
这个作者很懒,什么都没留下…
展开
-
爬虫神器scrapy的安装
爬虫神器scrapy的安装 有一说一,这个安装和普通的第三方库安装不一样,需要额外下载才行 【注意一下】,如果你的电脑是linux系统的话直接pip就行,如果和我一样是windows的话,还是乖乖照着我的套路走就完事。说下步骤 先安装wheel 下载twisted 安装下载的twisted 安装pywin32(需要就行) 最后安装scrapy 不会装的看下我第一篇链接 https://blog.csdn.net/XY52wiue/article/details/112975003 一、 开始走 pip3原创 2021-01-27 15:26:53 · 801 阅读 · 3 评论 -
爬取酷狗歌曲并进行下载用的是selenuim
爬取酷狗歌曲并进行下载用的是selenuim 1. 请求的url并发起请求 2. 定位元素,循环遍历 3. 窗口的转移 4. 获取歌曲的下载路径 5. 保存到指定的文件里面 6. 总结 开始来看看吧 首先大家还是先导一下包吧,也就那几个好吧: 不会导包的看下我写的这篇哟https://blog.csdn.net/XY52wiue/article/details/112975003 import requests from selenium.webdriver import Chrome,ChromeOpti原创 2021-01-25 19:29:10 · 1527 阅读 · 11 评论 -
用selenium来下载小姐姐图片并保存
下载小姐姐图片并保存 请求的地址 伪装 定位元素 下载图片 保存好了 下面开始我们的实战,这个是我们今天访问的url: url = 'http://pic.netbian.com/4kmeinv/' 1,先把包给导进来: import requests from selenium.webdriver import Chrome,ChromeOptions import os 不知道怎么导包的看我的第一篇,附上链接: https://blog.csdn.net/XY52wiue/article/d原创 2021-01-23 22:57:53 · 2143 阅读 · 14 评论 -
selenium与xpath之获取指定位置的元素
selenium与xpath之获取指定位置的元素 今天有点新的与大家分享,关于selenium与xpath之间爬数据获取指定位置的时候,方式不一样哦。 详情可以看我的代码,以b站来看好吧: 查看这href元素,如果是xpath,肯定这么写是没有问题的: i.find_element_by_xpath('./a/@href') 但你再selenium里面这样写会报错,所以要改成这样 i.find_element_by_xpath('./a').get_attribute('href') 这样方可正确 这原创 2021-01-22 23:21:54 · 1664 阅读 · 5 评论 -
异步爬虫之多线程与线程池的区别
异步爬虫的方式: - [1] 多线程、多进程 优点:可以为相关的阻塞单独开启,然后就可以异步执行 缺点:无法无限制的开启 - [2] 线程池、进程池 优点:降低他的消失频率 缺点:池中的进程有上限 那么我的建议就是使用第二种方式,很方便也很好理解 ...原创 2021-01-22 23:12:31 · 307 阅读 · 0 评论 -
爬取热搜排行榜数据(以微博为例)再保存数据库用的是selenium
爬取热搜排行榜数据(以微博为例)再保存数据库 [1] 下载好所需要的第三方库 [2] 先确定要爬取的url [3] 开始我们的请求数据 [4] 确保数据库的正常连接输送 [5] 保存进自己的数据库 好了,大概就是以上五点。 第一点:第三方库的安装,可以看我的上一篇博客,有安装教程,这里我就不详细谢啦,附一下上篇连接 ...原创 2021-01-22 00:28:50 · 923 阅读 · 3 评论