![](https://img-blog.csdnimg.cn/20190927151132530.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
动手学数据分析-Datawhale
文章平均质量分 80
动手学数据分析以项目为主线,知识点孕育其中,通过边学、边做、边引导来得到更好的学习效果 from datawhale
参与到Datawhale小组学习中去.
未知的角落
一起学习a
展开
-
第三章 模型搭建和评估-评估
import pandas as pd import numpy as np import seaborn as sns import matplotlib.pyplot as plt from IPython.display import Image from sklearn.linear_model import LogisticRegression from sklearn.ensemble import RandomForestClassifier %matplotlib inline plt.rc原创 2021-09-25 16:48:46 · 111 阅读 · 0 评论 -
第三章 模型搭建和评估--建模
建模与评估涉及到入门的数据分析与数据挖掘的技术,因此就不省略了 感受整个数据处理到分析的过程 我们拥有的泰坦尼克号的数据集,那么我们这次的目的就是,完成泰坦尼克号存活预测这个任务。 准备工作: 库导入 嵌入notebook图 字体 图片 符号的正常化 import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns from IPython.display import Image %原创 2021-09-25 16:34:47 · 219 阅读 · 0 评论 -
第二章:第四节数据可视化
【思考】最基本的可视化图案有哪些?分别适用于那些场景?(比如折线图适合可视化某个属性值随时间变化的走势) #思考回答 #这一部分需要了解可视化图案的的逻辑,知道什么样的图案可以表达什么样的信号b #可视化 先考虑平面图形 折线图 数据的变化曲线 柱状图 数据规模的堆积呈现 直方图和密度图 对数值的频率离散化 散布图 两个一维数据序列的关系 地图 需要用到地理位置或相关数据 一次分类后的柱状图:可视化展示泰坦尼克号数据集中男女中生存人数分布情况 sex_dist = text.groupby('Sex')原创 2021-09-25 16:04:05 · 99 阅读 · 0 评论 -
第二章:第二节数据重构1
就不重复记录一些东西 挑一些自己不太会/不太熟的东西了 2.4.2:任务二:使用concat方法:将数据train-left-up.csv和train-right-up.csv横向合并为一张表,并保存这张表为result_up 2.4.3 任务三:使用concat方法:将train-left-down和train-right-down横向合并为一张表,并保存这张表为result_down。然后将上边的result_up和result_down纵向合并为result。 2.4.4 任务四:使用DataFram原创 2021-09-25 15:59:21 · 52 阅读 · 0 评论 -
第二章:第一节数据清洗及特征处理
开始之前,导入numpy、pandas包和数据 #加载所需的库 import numpy as np import pandas as pd #加载数据train.csv df = pd.read_csv("train.csv") df.head(5) 2 第二章:数据清洗及特征处理 我们拿到的数据通常是不干净的,所谓的不干净,就是数据中有缺失值,有一些异常点等,需要经过一定的处理才能继续做后面的分析或建模,所以拿到数据的第一步是进行数据清洗,本章我们将学习缺失值、重复值、字符串和数据转换等操作,将数据原创 2021-09-25 15:53:33 · 112 阅读 · 0 评论 -
第一章:第三节探索性数据分析
文章目录第一章:探索性数据分析1.6 了解你的数据吗?1.6.1 任务一:利用Pandas对示例数据进行排序,要求升序1.6.2 任务二:对泰坦尼克号数据(trian.csv)按票价和年龄两列进行综合排序(降序排列),从这个数据中你可以分析出什么?1.6.3 任务三:利用Pandas进行算术计算,计算两个DataFrame数据相加结果1.6.4 任务四:通过泰坦尼克号数据如何计算出在船上最大的家族有多少人?(‘兄弟姐妹个数’+‘父母子女个数’)1.6.5 任务五:学会使用Pandas describe()函原创 2021-09-14 18:25:34 · 155 阅读 · 0 评论 -
第一章:第二节pandas基础
文章目录第一章:数据载入及初步观察1.4 知道你的数据叫什么1.4.1 任务一:pandas中有两个数据类型DateFrame和Series,通过查找简单了解他们。然后自己写一个关于这两个数据类型的小例子????[开放题]1.4.2 任务二:根据上节课的方法载入"train.csv"文件1.4.3 任务三:查看DataFrame数据的每列的名称1.4.4任务四:查看"Cabin"这列的所有值[有多种方法]1.4.5 任务五:加载文件"test_1.csv",然后对比"train.csv",看看有哪些多出的列原创 2021-09-14 09:51:22 · 144 阅读 · 0 评论 -
第一章:第一节数据载入及初步观察
文章目录1 第一章:数据载入及初步观察¶1.1载入数据1.1.1任务一:导入numpy和pandas1.1.2 任务二:载入数据1.1.3 任务三:每1000行为一个数据模块,逐块读取1.1.4 任务四:将表头改成中文,索引改为乘客ID [对于某些英文资料,我们可以通过翻译来更直观的熟悉我们的数据]1.2 初步观察1.2.1 任务一:查看数据的基本信息¶1.2.2 任务二:观察表格前10行的数据和后15行的数据1.2.3 任务三:判断数据是否为空,为空的地方返回True,其余地方返回False1.3保存数据原创 2021-09-13 20:23:58 · 212 阅读 · 0 评论