自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 动手学习数据分析————第五部分

模型建造和评估-建模经过前面的知识点的学习,我可以对数数据的本身进行处理,某些数据本身的增删查补,还可以做必要的清洗工作。那么下面我们就要开始使用我们前面处理好的数据了。这一节的我们要做的就是使用数据,我们做数据分析的目的也就是,运用我们的数据以及结合我的业务来得到某些我们需要知道的结果。那么分析的第一步就是建模,,建造一个预测模型或其他模型;我们从这个模型的到结果之后,我们要分析我的模型是不是足够的可靠,那我就需要评估这个模型。今天我们学习建模,下一段我们学习评估。我们拥有的泰坦尼克号的数据集,那么我

2020-08-28 22:12:33 224

原创 资金流入流出预测—————第四部分

目的:了解模型训练、预测及线下验证掌握机器学习常用模型利用工具对资金流入流出数据进行训练、验证及预测1. 模型训练与验证1.1 模型训练、预测及线下验证• 数据该如何划分?• 训练集、线下验证集、线下测试集、线上测试集• 无时序的数据集:简单划分、交叉验证划分等• 有时序的数据集:需考虑时序,nested交叉验证划分等• 模型选择• 依据在验证集上的效果选择• 除了关注效果的均值,还要关注稳健性• 还需考虑线上效果;可将线上效果视为一折数据• 参数调优• 不建议将精力放在

2020-08-25 23:50:47 502

原创 动手学习数据分析————第四部分

复习:回顾学习完前面的内容,我们对泰坦尼克号数据有了基本的了解,也学到了一些基本的统计方法,上一节我们学习了数据的清理和重构,使得数据更加的易于理解;今天我们要学习的是:数据可视化,主要给大家介绍一下Python数据可视化库Matplotlib,在本章学习中,你也许会觉得数据很有趣。在打比赛的过程中,数据可视化可以让我们更好的看到每一个关键步骤的结果如何,可以用来优化方案,是一个很有用的技巧。数据可视化开始之前,导入numpy、pandas包和数据# 加载所需的库# 如果出现 ModuleNotFo

2020-08-25 23:30:28 162

原创 资金流入流出预测————第三部分

目的:了解特征工程是什么掌握特征处理和特征选择方法对资金流入流出数据做特征工程1. 特征工程1.1 为什么要重视特征工程• 数据挖掘“二八原则“• 80%的精力 => 选取特征• 20%的精力 => 模型融合等• 特征工程• 基于数据分析与探索提取潜在有价值的特征• 很多类型的比赛均需做特征工程• 推荐系统(IJCAI 2018 阿里巴巴广告转化率预测Top1,6000+特征)• 深度学习效果好的原因之一:自动提取海量特征1.2 特征提取与特征组合• 特征提取

2020-08-24 23:39:17 399

原创 动手学习数据分析————第三部分

复习:在前面我们已经学习了Pandas基础,第二章我们开始进入数据分析的业务部分,在第二章第一节的内容中,我们学习了数据的清洗,这一部分十分重要,只有数据变得相对干净,我们之后对数据的分析才可以更有力。而这一节,我们要做的是数据重构,数据重构依旧属于数据理解(准备)的范围。# 导入基本库import numpy as npimport pandas as pd# 载入data文件中的:train-left-up.csvtext = pd.read_csv('/Users/74893/数据分析/t

2020-08-23 23:15:52 158

原创 资金流入流出预测————第二部分

时间序列规则与baseline本节目标:了解挖掘规则做预测的重要性掌握时间序列规则的基本方法利用时间序列规则获得资金流入流出赛题数据的baseline1. 时间序列规则1.1 为什么要重视规则• 很多比赛都可基于对背景的理解和数据分析获得有用规则,通过“if A then B“等方式设计效果良好的基准方• 在企业、公司里也常采用基于规则的方案• 在时间序列预测相关比赛中挖掘出的有用规则1.2 中位数、临近数据等简单统计量• 简单统计量,可作为特征1.3 基于周期因子的时间序列预测

2020-08-22 23:18:56 458

原创 动手学习数据分析————第二部分

【回顾&引言】第一部分的内容大家可以感觉到我们主要是对基础知识做一个梳理,让大家了解数据分析的一些操作,主要做了数据的各个角度的观察。那么在这里,我们主要是做数据分析的流程性学习,主要是包括了数据清洗以及数据的特征处理,数据重构以及数据可视化。这些内容是为数据分析最后的建模和模型评价做一个铺垫。开始之前,导入numpy、pandas包和数据#加载所需的库import numpy as npimport pandas as pd#加载数据train.csvdf = pd.read_csv

2020-08-21 22:51:30 204

原创 资金流入流出预测——第一步

赛题解读• 赛题介绍:https://tianchi.aliyun.com/competition/entrance/231573/introduction• 数据集介绍及下载:https://tianchi.aliyun.com/competition/entrance/231573/information目的: 1. 了解赛题的背景信息和赛题要求2. 掌握赛题的数据情况和结果评估方法• 资金流入流出预测赛题背景 蚂蚁金服拥有上亿会员,每天都涉及大量的资金流入和流出,资金管理压力会非常大。

2020-08-20 21:15:17 1095

原创 动手学习数据分析——第一部分

数据分析是一个要从一堆数字中看到真相的过程。这门课程得主要目的是通过真实的数据,以实战的方式了解数据分析的流程和熟悉数据分析python的基本操作。知道了课程的目的之后,我们接下来我们要正式的开始数据分析的实战教学,完成kaggle上泰坦尼克的任务,实战数据分析全流程。第一部分:我们获得一个要分析的数据,我要学会如何加载数据,查看数据,然后学习Pandas的一些基础操作,最后开始尝试探索性的数据分析。第一章:数据载入及初步观察1.1 载入数据数据集下载 数据集下载1.1.1 任务一:导入nump

2020-08-19 22:28:16 230

原创 Python之Pandas入门篇

Pandas 初入门pandas主要提供两个数据类型:Series,DataFramepandas主要是基于上述两个数据类型的各类操作:基本操作、运算操作、特征类操作、关联类操作Series类型Series类型由一组数据及与之相关的数据索引组成。index_1——>data_aindex_2——>data_b索引 数据…import pandas as pda=pd.Series([9,8,7,6])a输出:0 91 8

2020-08-16 18:45:51 378

原创 The first fiction.

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Markdown编辑器你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Mar

2020-08-16 15:44:10 96

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除