爬虫
文章平均质量分 61
封妖师的徒弟
这个作者很懒,什么都没留下…
展开
-
爬虫神器scrapy的安装
爬虫神器scrapy的安装有一说一,这个安装和普通的第三方库安装不一样,需要额外下载才行【注意一下】,如果你的电脑是linux系统的话直接pip就行,如果和我一样是windows的话,还是乖乖照着我的套路走就完事。说下步骤先安装wheel下载twisted安装下载的twisted安装pywin32(需要就行)最后安装scrapy不会装的看下我第一篇链接https://blog.csdn.net/XY52wiue/article/details/112975003一、开始走pip3原创 2021-01-27 15:26:53 · 801 阅读 · 3 评论 -
爬取酷狗歌曲并进行下载用的是selenuim
爬取酷狗歌曲并进行下载用的是selenuim1. 请求的url并发起请求2. 定位元素,循环遍历3. 窗口的转移4. 获取歌曲的下载路径5. 保存到指定的文件里面6. 总结开始来看看吧首先大家还是先导一下包吧,也就那几个好吧:不会导包的看下我写的这篇哟https://blog.csdn.net/XY52wiue/article/details/112975003import requestsfrom selenium.webdriver import Chrome,ChromeOpti原创 2021-01-25 19:29:10 · 1537 阅读 · 11 评论 -
用selenium来下载小姐姐图片并保存
下载小姐姐图片并保存请求的地址伪装定位元素下载图片保存好了下面开始我们的实战,这个是我们今天访问的url: url = 'http://pic.netbian.com/4kmeinv/'1,先把包给导进来:import requestsfrom selenium.webdriver import Chrome,ChromeOptionsimport os不知道怎么导包的看我的第一篇,附上链接:https://blog.csdn.net/XY52wiue/article/d原创 2021-01-23 22:57:53 · 2144 阅读 · 14 评论 -
selenium与xpath之获取指定位置的元素
selenium与xpath之获取指定位置的元素今天有点新的与大家分享,关于selenium与xpath之间爬数据获取指定位置的时候,方式不一样哦。详情可以看我的代码,以b站来看好吧:查看这href元素,如果是xpath,肯定这么写是没有问题的:i.find_element_by_xpath('./a/@href')但你再selenium里面这样写会报错,所以要改成这样i.find_element_by_xpath('./a').get_attribute('href')这样方可正确这原创 2021-01-22 23:21:54 · 1665 阅读 · 5 评论 -
异步爬虫之多线程与线程池的区别
异步爬虫的方式:- [1] 多线程、多进程优点:可以为相关的阻塞单独开启,然后就可以异步执行缺点:无法无限制的开启- [2] 线程池、进程池优点:降低他的消失频率缺点:池中的进程有上限那么我的建议就是使用第二种方式,很方便也很好理解...原创 2021-01-22 23:12:31 · 308 阅读 · 0 评论 -
爬取热搜排行榜数据(以微博为例)再保存数据库用的是selenium
爬取热搜排行榜数据(以微博为例)再保存数据库[1] 下载好所需要的第三方库[2] 先确定要爬取的url[3] 开始我们的请求数据[4] 确保数据库的正常连接输送[5] 保存进自己的数据库好了,大概就是以上五点。第一点:第三方库的安装,可以看我的上一篇博客,有安装教程,这里我就不详细谢啦,附一下上篇连接...原创 2021-01-22 00:28:50 · 924 阅读 · 3 评论