机器学习
文章平均质量分 79
4v1d
for better 闲鱼小店:札幌奇妙的川朴,可以咨询Python安装答疑、机器学习环境搭建及各种问题解决
展开
-
机器学习记录(二)
在日常的数据分析中,经常需要将数据根据某个(多个)字段划分为不同的群体(group)进行分析,如电商领域将全国的总销售额根据省份进行划分,分析各省销售额的变化情况,社交领域将用户根据画像(性别、年龄)进行细分,研究用户的使用情况和偏好等。总结来说,groupby的过程就是将原有的DataFrame按照groupby的字段(这里是company),划分为若干个分组DataFrame,被分为多少个组就有多少个分组DataFrame。在Pandas中,上述的数据处理操作主要运用groupby完成。原创 2023-04-02 19:40:47 · 241 阅读 · 0 评论 -
机器学习记录(一)
若数据服从正态分布,则异常值被定义为一组结果值中与平均值的偏差超过三倍标准差的值。即在正态分布的假设下,距离平均值三倍 \sigma(标准差)之外的值出现的概率很小(如下式),因此可认为是异常值。若数据不服从正态分布,也可以用远离平均值的多少倍标准差来描述(这就使该原理可以适用于不同的业务场景,只是需要根据经验来确定 k sigma中的k值,这个k值就可以认为是阈值)。描述性统计数据:数值类型的包括均值,标准差,最大值,最小值,分位数等;类别的包括个数,类别的数目,最高数量的类别及出现次数等;原创 2023-04-02 11:10:37 · 360 阅读 · 0 评论