自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 2021-07-28山东大学暑期实训第五周3

文章目录一、数据处理二、爬取的数据 一、数据处理 import csv import pymysql def clean(): with open("D:/test0728.csv", "r", encoding = "utf-8") as f: reader = csv.reader(f) rows = [row for row in reader] info=[] #print(rows) for i in range(1,len(ro

2021-07-30 15:34:02 58

原创 2021-07-27山东大学暑期实训第五周2

文章目录一、数据处理二、爬取的数据 一、数据处理 import csv import pymysql def clean(): with open("D:/test0727.csv", "r", encoding = "utf-8") as f: reader = csv.reader(f) rows = [row for row in reader] info=[] #print(rows) for i in range(1,len(ro

2021-07-30 15:29:32 68

原创 2021-07-26山东大学暑期实训第五周1

文章目录一、爬取的代码二、使用步骤1.引入库2.读入数据总结 一、爬取的代码 示例:pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。 二、使用步骤 1.引入库 代码如下(示例): import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns import warnings warnings.filterwarnings('ignore') impor

2021-07-30 15:24:37 55

原创 2021-07-21山东大学暑期实训第四周3

文章目录一、数据处理二、爬取的数据 一、数据处理 import csv import pymysql def clean(): with open("D:/test0721.csv", "r", encoding = "utf-8") as f: reader = csv.reader(f) rows = [row for row in reader] info=[] #print(rows) for i in range(1,len(ro

2021-07-25 22:57:14 79

原创 2021-07-20山东大学暑期实训第四周2

文章目录一、数据处理二、爬取的数据 一、数据处理 import csv import pymysql def clean(): with open("D:/test0720.csv", "r", encoding = "utf-8") as f: reader = csv.reader(f) rows = [row for row in reader] info=[] #print(rows) for i in range(1,len(ro

2021-07-25 22:53:14 44

原创 2021-07-19山东大学暑期实训第四周1

文章目录前言一、数据处理代码二、爬取的数据 前言 这一周的内容依然是爬数据 一、数据处理代码 import csv import pymysql def clean(): with open("D:/test4.csv", "r", encoding = "utf-8") as f: reader = csv.reader(f) rows = [row for row in reader] info=[] #print(rows) for

2021-07-25 22:48:25 67

原创 2021-07-18山东大学暑期实训第三周3

文章目录前言一、爬取的数据二、数据处理的源码 前言 这一次也是爬取数据 一、爬取的数据 test5 共有4933条 二、数据处理的源码 import csv import pymysql def clean(): with open("D:/test4.csv", "r", encoding = "utf-8") as f: reader = csv.reader(f) rows = [row for row in reader] info=[]

2021-07-18 21:47:45 67

原创 2021-07-18山东大学暑期实训第三周2

文章目录前言一、爬去的数据二、爬虫的源码 前言 这一次也是爬数据,也会把源码贴出来 一、爬去的数据 test4 共有4933条 二、爬虫的源码 from selenium import webdriver import time import warnings import pandas as pd import csv warnings.filterwarnings("ignore") driver=webdriver.Chrome(executable_path=r"C:\Users\dell\

2021-07-18 21:43:21 70

原创 2021-07-18山东大学暑期实训第三周1

文章目录前言爬取的数据 前言 我爬虫的工作在这一周也就完成了,这一周的工作就比较单调一点儿,就是尽量的多爬数据。 爬取的数据 test1 共有4825条 test2 共有6933条 test3 共有6933条

2021-07-18 21:36:47 73

原创 2021-07-11山东大学暑期实训第二周3

文章目录前言数据处理 前言 前面已经说明了对一些字段的处理,这次的内容主要是对价格字段的处理。 数据处理 按照数据库的统一格式,我们选取的价格为云服务器每月的价格。我们从网页上爬取的价格为文本字段,需要转换为数字字段。 通过观察我们可以看到,有些价格字段是可以直接转换的,而有些价格字段存在千分位符,而千分位符前面的位数也有三种情况,分别是有1位、2位、3位。我们就要对千分位符前后的数据分别进行处理。 if ',' in rows[i][11]: if rows[i

2021-07-11 22:58:49 75

原创 2021-07-08山东大学暑期实训第二周2

文章目录前言数据处理 前言 前面主要描述了如何从网页上爬取下云服务器的价格等信息,但是,爬下来的数据又不能直接存储到数据库中,还需要对数据进行清理、转换等。 数据处理 存储数据的格式 存储数据的数据字典 在我们爬取的数据里有些信息时没有的,我们给他们赋一个默认值。cpu_type是没有的,我们赋值为“无”,pps是没有的,我们赋值为“1”,product_type是没有的,我们赋值为“无” 像location、product_type是直接能从我们爬取的数据里拿的 像product_id、compa

2021-07-08 09:21:45 60

原创 2021-07-07山东大学暑期实训第二周1

文章目录前言表格内容的处理总结 前言 上一篇讲述了通过selenium找到按钮的位置,然后通过模拟鼠标的行为,点击按钮,遍历表格中的内容。这次是针对表格内容的处理。 表格内容的处理 我们可以看到最全的表格内容,包括规格名称、核数、内存、按小时、包月、包一年、包2年等11列内容,但是我们通过点击按钮,发现并不是所有的表格都有这12项内容。 在这个表格里只有9项内容。 这个表格只有7项内容。 通过我的寻找,最少的表格只有5项内容。 因此这5项内容是基本内容,我先把这5项内容找出来。但是,有些云服务器

2021-07-07 16:12:31 54

原创 2021-07-04山东大学暑期实训第一周3

文章目录前言华为云的爬取 前言 这次的内容就是对华为云详细内容的爬取 华为云的爬取 我使用selenium模拟浏览器进行爬取,因此需要找到对应元素在DOM数中的位置、标签和属性。 找到“区域”的位置 Areas=driver.find_elements_by_xpath("/html/body/div[3]/div[1]/div/div[2]/div[2]/div/div/div[2]/div[1]/div/div/div[2]/div[1]/div/div/div[2]/div/div/div")

2021-07-04 15:15:37 62

原创 2021-07-02山东大学暑期实训第一周2

文章目录前言一、需要爬取的网页1、阿里云2、腾讯云3、华为云4、百度云二、爬虫准备工作总结 前言 这次主要展示需要爬取的网页及内容和前期的准备工作。 一、需要爬取的网页 1、阿里云 阿里云价格网页 阿里云具有“价格下载”的按钮和查询历史价格的API,因此获取数据并不是很困难。 2、腾讯云 腾讯云价格网页 腾讯云也具有“导出全部”的按钮,因此获取数据有相对较容易。 3、华为云 华为云价格网页 华为云并没有导出按钮,就需要编写爬虫程序。 4、百度云 百度云价格网页 百度云也需要编写爬虫程序。 二、爬

2021-07-02 16:24:28 66

原创 2021-07-01山东大学暑期实训第一周1

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入 欢迎使用Markdown编辑器 你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Mar

2021-07-01 16:07:32 155

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除