2021-07-02山东大学暑期实训第一周2

最新推荐文章于 2021-07-30 15:29:32 发布

长啸宇宙

最新推荐文章于 2021-07-30 15:29:32 发布

阅读量90

点赞数

本文链接：https://blog.csdn.net/weixin_45607190/article/details/118416754

版权

该博客介绍了为爬取阿里云、腾讯云、华为云和百度云的价格数据所做的准备工作。作者使用selenium和ChromeDriver模拟浏览器进行爬取，已成功打开网页。下一步将进行数据爬取，重点是华为云的数据抓取。

摘要由CSDN通过智能技术生成

文章目录

前言
一、需要爬取的网页
二、爬虫准备工作
总结

前言

这次主要展示需要爬取的网页及内容和前期的准备工作。

一、需要爬取的网页

1、阿里云

阿里云价格网页

阿里云服务器详情
阿里云具有“价格下载”的按钮和查询历史价格的API，因此获取数据并不是很困难。

2、腾讯云

腾讯云价格网页

腾讯云服务器详情
腾讯云也具有“导出全部”的按钮，因此获取数据有相对较容易。

3、华为云

华为云价格网页

华为云服务器详情
华为云并没有导出按钮，就需要编写爬虫程序。

4、百度云

百度云价格网页

百度云服务器详情
百度云也需要编写爬虫程序。

二、爬虫准备工作

我使用selenium模拟浏览器进行爬取，这需要先下载对应版本的Chromedrive。

Chromedrive镜像网站

下载、解压、安装
在这里插入图片描述
引入库

代码如下：

from selenium import webdriver
import time
import warnings
import pandas as pd
import csv
warnings.filterwarnings("ignore")
driver=webdriver.Chrome(executable_path=r"C:\Users\dell\AppData\Local\Google\Chrome\Application\chromedriver.exe")
#driver.get("https://piao.qunar.com/ticket/list.htm?keyword=%E6%B3%B0%E5%AE%89&region=&from=mpl_search_suggest")
driver.get("https://www.huaweicloud.com/pricing.html?tab=detail#/ecs")
time.sleep(3)