数据分析
文章平均质量分 76
来碗孟婆汤,三分糖去冰多放香菜
这个作者很懒,什么都没留下…
展开
-
数据分析task05(2021-06-24)
数据建模及模型评估任务一:切割训练集和测试集这里使用留出法划分数据集将数据集分为自变量和因变量按比例切割训练集和测试集(一般测试集的比例有30%、25%、20%、15%和10%)使用分层抽样设置随机种子以便结果能复现【思考】划分数据集的方法有哪些?为什么使用分层抽样,这样的好处有什么?任务提示1切割数据集是为了后续能评估模型泛化能力sklearn中切割数据集的方法为train_test_split查看函数文档可以在jupyter noteboo里面使用train_test_spli原创 2021-06-24 01:36:23 · 128 阅读 · 0 评论 -
数据分析task04(2021-06-21)
第二章:数据可视化matplotlib可视化图案的适用场景:展示趋势变化:1.线图也叫折线图,常用来呈现时间趋势的变化2.面积图和折线图从形式上看非常相似,区别只是面积图在折线图的基础上,填充了折线下面的区域,可以让人更直观的看出数据的变化趋势。3.堆积面积图:堆积面积图是基础面积图的延伸,它将多个类别的数据变化都显示在一个图形中。它具有以下特点:1.不会出现不同分类的数据点被遮盖,被隐蔽的状况2.堆积面积图与标准面积图不同。某一分类的值并非与纵坐标完全对应,而是通过折线之间的相对高度来表达原创 2021-06-21 23:57:50 · 193 阅读 · 0 评论 -
数据分析task03(2021.06.19)
1 第一章:数据载入及初步观察1.4 知道你的数据叫什么1.4.1 任务一:pandas中有两个数据类型DateFrame和Seriesimport numpy as npimport pandas as pdsdata = {'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}example_1 = pd.Series(sdata)example_1data = {'state': ['Ohio', 'Ohio',原创 2021-06-18 00:33:47 · 135 阅读 · 0 评论 -
数据分析task01(2021.06.15)
1 第一章:数据载入及初步观察1.1 载入数据1.1.1 任务一:导入numpy和pandasimport numpy as npimport pandas as pd1.1.2 任务二:载入数据(1) 使用相对路径载入数据df = pd.read_csv("train.csv")(2) 使用绝对路径载入数据df = pd.read_csv(r"C:\Users\Administrator\Desktop\数据分析/train.csv")【提示】相对路径载入报错时,尝试使用os.原创 2021-06-15 23:44:00 · 246 阅读 · 0 评论