- 博客(5)
- 资源 (9)
- 收藏
- 关注
转载 numpy的ndarray与pandas的series和dataframe之间互转
在大数据分析中,比较常用的两个数据分析包就是numpy和pandas,而pandas正是基于numpy构建的含有更高级数据结构和工具的数据分析包,在金融领域应用更是广泛。在实际的工程中,经常遇到的问题就是numpy的ndarray数据结构与pandas的series和dataframe数据结构之间的互相转换问题。现在我分3种情况,在python程序中列一下互转的情况,应该比较全面了。情况1:输...
2018-09-16 16:11:13 888
转载 如何处理机器学习中的异常值
在机器学习中进行数据处理往往会遇到极端异常值,是否删除极端异常值往往会影响到最终模型的准确性。找到异常值以后,判断是否需要移除是根据我们的目标而定。异常值的几种情况如果我们只是要找到人为错误导致的点,大可直接移除; 如果移除异常值并不会改变结果,仅仅会改变假设(assumptions),那么也可以选择移除异常值,但是应该记录下来。无论是否存在异常值都不会改变回归线。如果异常值会...
2018-09-16 12:24:48 3199
转载 pandas的scatter_matrix散布矩阵图的理解
Q: 如何理解问题3中给出的图?如何分析关联性、变量分布?A: 这张图分为两部分:对角线部分和非对角线部分。 对角线部分: 核密度估计图(Kernel Density Estimation),就是用来看某 一个 变量分布情况,横轴对应着该变量的值,纵轴对应着该变量的密度(可以理解为出现频次)。 非对角线部分:两个 变量之间分布的关联散点图。将任意两个变量进行配对,以其中一个为横坐标,另一个...
2018-09-16 11:44:15 5430
转载 一种异常值检测方法、原理 (基于箱线图)
先介绍使用到的方法原理,也就是一种异常检测的方法。 首先要先了解箱线图。箱线图箱线图(Boxplot)也称箱须图(Box-whisker Plot),是利用数据中的五个统计量:最小值、第一四分位数、中位数、第三四分位数与最大值来描述数据的一种方法,它也可以粗略地看出数据是否具有有对称性,分布的分散程度等信息,特别可以用于对几个样本的比较。 ——MBAlib 箱线图先看一下什么是箱...
2018-09-16 11:36:51 19539 3
转载 pandas绘图
pandas绘图显示 : plt.show()保存到本地 : plt.savefig(‘image.png’)%matplotlib inline1import pandas as pdimport matplotlib.pyplot as plt1 2present = pd.read_table('data.txt', sep=' ')1present.s...
2018-09-16 10:24:38 799
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人