前言
这次主要展示需要爬取的网页及内容和前期的准备工作。
一、需要爬取的网页
1、阿里云
阿里云具有“价格下载”的按钮和查询历史价格的API,因此获取数据并不是很困难。
2、腾讯云
腾讯云也具有“导出全部”的按钮,因此获取数据有相对较容易。
3、华为云
华为云并没有导出按钮,就需要编写爬虫程序。
4、百度云
百度云也需要编写爬虫程序。
二、爬虫准备工作
我使用selenium模拟浏览器进行爬取,这需要先下载对应版本的Chromedrive。
下载、解压、安装
引入库
代码如下:
from selenium import webdriver
import time
import warnings
import pandas as pd
import csv
warnings.filterwarnings("ignore")
driver=webdriver.Chrome(executable_path=r"C:\Users\dell\AppData\Local\Google\Chrome\Application\chromedriver.exe")
#driver.get("https://piao.qunar.com/ticket/list.htm?keyword=%E6%B3%B0%E5%AE%89®ion=&from=mpl_search_suggest")
driver.get("https://www.huaweicloud.com/pricing.html?tab=detail#/ecs")
time.sleep(3)
可以正常打开网页,说明安装成功
总结
这次主要展示需要爬取的网页及内容和前期的准备工作,下次就可以爬取数据,而我主要负责华为云的数据爬取。