探索性数据分析EDA
1. Data Understanding
·统计数据集中行和列的数量。
·检查每个列的数据类型。
·计算每个列中缺失值的总数。
·确定分类列中的唯一值。
·计算数值列的平均值,最小值和最大值。
·确定数值列的范围(最小值与最大值之差)。
·找到分类列中最频繁的值。
·检查数据集中的重复行。
·计算数值列之间的相关性。
·找出比特币价格最高的前N行。
·计算每年的比特币平均价格。
·确定数据集中唯一日期的个数。
·将数据按月分组,计算每个月的比特币平均价格。
·找出每天价格变化最大的前N行。
·确定数据集中最早和最晚的日期。
·分别计算工作日和周末的比特币平均价格。
·将数据按年分组,计算每年的总交易量。
·计算一周(周一至周日)的每一天的比特币平均价格。
2. Data Visualization
·折线图:比特币价格随时间的变化
·条形图:比特币日交易量
·方框图:比特币价格按年分布
·散点图:比特币价格与交易量的关系
·核密度图:比特币价格的核密度估计
·方框图:比特币价格按月分布
·直方图:比特币价格按年分布
·折线图:比特币价格移动平均
·热力图:数值变量的相关矩阵
·饼状图:比特币价格类别的分布
3. Data Pre-processing
·检查缺失值
·将"日期"列转换为"日期时间"
·从"日期"列中提取年份、月份和日期
·检查重复行
·检查"close"列中的异常值
·删除异常值
·使用Min - Max缩放对"close"列进行归一化处理
4. Feature Engineering
·使用pct _ change ( )函数计算比特币价格的日百分比变化;
·使用窗口大小为7的roll ( )函数计算比特币价格的7天滚动均值;
·使用跨度为30的ewm ( )函数估计比特币价格的指数移动平均值( EMA );
·使用shift ( )函数将比特币价格移动1天和7天来创建滞后变量;
·使用dropna ( )函数去除特征工程后的缺失值行。
5. FEATURE SELECTION
使用