Pandas
肉bot
这个作者很懒,什么都没留下…
展开
-
Datawhale数据分析-建模与评估
建模与评估一级目录二级目录三级目录模型建立1. 清洗数据2. 选择模型3. 分割数据集4. 模型创建5. 输出预测结果评估1. 目的2. 交叉验证3. 评价数据对于一些思考问题的想法1. 清洗前后数据的不同:2. 数据集哪些差异会导致模型在拟合数据是发生变化3. 什么情况下切割数据集的时候不用进行随机选取4. 为什么线性模型可以进行分类任务,背后是怎么的数学关系5. 对于多分类问题,线性模型是怎么进行分类的6. 预测标签的概率对我们有什么帮助一级目录二级目录三级目录模型建立1. 清洗数据由于最初原创 2020-08-28 17:07:22 · 603 阅读 · 0 评论 -
对几种数据可视化工具的用途
柱状图这类图形比较适合直观的表达离散型特征对分类结果的影响比如泰坦尼克号数据集中男女中死亡人数的可视化:#泰坦尼克号数据集中男女中死亡人数data.groupby(['Sex','Survived'])['Survived'].count().unstack().plot(kind='bar',stacked='True')# stack: 两个图标叠加在一起plt.title('Survived people')plt.ylabel('Number')plt.xlabel('Sex')原创 2020-08-24 23:03:35 · 403 阅读 · 0 评论 -
Datawhale数据重构
数据分析-数据重构concatjoinmergeappendDataFrame-->SeriesGroupbyconcatconcat :join another DataFrame重要参数:axis = 1 横向合并axis = 0(default) 纵向合并ignore_index: default False: 此时的index只是两个DataFrame的组合,并没有重新排序True: index重新排序# axis =1 各表在横向拼接result_up = pd.conca原创 2020-08-24 20:58:47 · 232 阅读 · 0 评论 -
Datawhale机器学习-决策树感想
机器学习-决策树学习笔记理论模型代码和参数criterionmax_depthmin_samples_leaf怎样提高准确率数据处理调整参数总结理论个人对决策树理论的理解:决策树就像是由不同层级的很多选择器的组合,这些选择器内部的criteria是通过对训练集中的数据学习得到的。之后有新的数据传入时,选择器就一层层的对输入数据做判断,最底层选择器给出最有可能的分类结果模型代码和参数tree_clf = DecisionTreeClassifier()其中可设置的重要参数有:criterion原创 2020-08-22 21:10:30 · 620 阅读 · 0 评论 -
Datawhale 数据分析打卡2-数据清洗及特征处理
数据清洗及特征处理一. Why clean data?二. 数据清洗三. 特征观察与处理四. 总结一. Why clean data?在导入数据并进行一些初始操作对数据有一个初步认识之后,需要开始数据清洗以及重构,将原始数据变为一个更好用的数据,为之后放入模型做准备。二. 数据清洗在原始数据集中经常会出现缺失值,异常点等,如果将这些数据直接放入模型中进行训练,肯定会影响训练效果。所以说要对raw data进行清洗将其变成可分析的数据集常用的函数和功能:查看缺失值首先要查看下哪些列有较多的缺失值原创 2020-08-20 21:05:24 · 304 阅读 · 0 评论 -
Datawhale-机器学习打卡1
Datawhale机器学习逻辑回归逻辑回归主要解决分类问题,分类问题函数是不连续的阶跃函数,且函数边界[0,1].sigmoid函数曲线与阶跃函数曲线很相似,z>0, sigmoid(z)>0.5, z<0 sigmoid(z)<0.5,其本身具有分类属性,函数在0到1之间。而且sigmoid函数求导方便,而且cost function可以用log函数表达,log函数具有convex属性,易于求解。sigmoid函数连续可以借用方程θX表示z, 假设θX>0,y=1,原创 2020-08-19 21:36:17 · 230 阅读 · 0 评论 -
Datawhale 数据分析打卡1
Data Analysis数据分析-1.数据基础操作1. 数据载入及观察2. pandas基础3. 探索性数据分析总结数据分析-1.数据基础操作参加了由Datawhale举办的小组学习活动,学习内容为数据分析,记录下第一章的所学内容1. 数据载入及观察在数据处理中,第一步通常都需要导入数据,并进行对数据的初步预览导入库 导入所需数据库:import numpy as np; import pandas as pd载入数据 pd.read_csv(‘filename’), csv为文件格式,可替原创 2020-08-18 23:17:17 · 186 阅读 · 0 评论