![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据分析
文章平均质量分 83
之墨_
这个作者很懒,什么都没留下…
展开
-
【数据统计】— 极大似然估计 MLE、最大后验估计 MAP、贝叶斯估计
极大似然估计(Maximum Likelihood Estimate,MLE)- 思想:利用已知的样本结果信息,反推最具有可能(最大概率)导致这些样本结果出现的模型参数值- **模型已定,参数未知**- 目标:概率分布函数或者似然函数最大 - 用似然函数取到最大值时的参数值作为估计值- 概率分布模型 - 伯努利分布 - 二项分布 - 高斯分布 - 泊松分布原创 2023-04-14 14:32:16 · 500 阅读 · 0 评论 -
【数据统计】— 峰度、偏度、点估计、区间估计、矩估计、最小二乘估计
偏度(Skewness)描述的是某总体取值分布的对称性。矩估计是基于 “替换”思想,即用样本矩估计总体矩。数学上,“矩”是一组点组成的模型的特定的数量测度。正态分布的偏度值为0。原创 2023-04-14 13:44:37 · 2066 阅读 · 0 评论 -
【数据统计】— 数据分布、集中趋势、离散程度
对于已分为K组的N个数据,各组的值表示为:𝑥1, 𝑥2, 𝑥3,⋯,𝑥K, 各组变量出现的频数表示为:𝑓1, 𝑓2, 𝑓3, ⋯,𝑓𝑘, 数据的加权平均数为𝜇,则数据的总体方差为。对于未分组数据𝑥1, 𝑥2, 𝑥3, ⋯,𝑥𝑁,数据的算术平均数为𝜇。若一组数据𝑥1, 𝑥2, 𝑥3, ⋯,𝑥𝑛,则该组数据的几何平均数为。根据未经分组数据计算得到的平均数。特点:易受极端值的影响。原创 2023-04-14 12:09:24 · 8154 阅读 · 0 评论 -
【数据分析】— 特征工程、特征设计、特征选择、特征评价、特征学习
简单的说,该赛题的求解目标是利用数据分析将人工的鼠标轨迹和代码生成的鼠标轨迹区分开来。当决策树完全生成后,每个结点分裂所使用的特征组成的集合就是最后筛选出的特征子集。如何从数据中能够自主的学习特征,在这里我们主要介绍在深度学习中常用的三种网络结构。,将样本集划分为纯度更高的子集,而每次选择出的都是使划分效果最佳的特征,所以。不同的特征选择算法不仅对特征子集评价标准不同,有的还需要结合后续的学。是一个可调的参数,控制着正则化的强度。当用在线性模型上时,根据对应的领域知识,在基本特征的基础上进行特征之间的。原创 2023-04-14 10:25:35 · 1173 阅读 · 0 评论 -
【数据分析】数据预处理—数据离散化、信息熵
数据离散化 - **连续数据过于细致,数据之间的关系难以分析** - **划分为离散化的区间,发现数据之间的关联,便于算法处理**有监督离散化—基于熵的离散化- 熵用来度量系统的**不确定程度** - 熵是由 克劳德·艾尔伍德·香农 将热力学的熵,引入到信息论,因此它又被称为香农熵 - 香农提出了信息熵的概念,为信息论和数字通信奠定了基础,被誉为“信息论之父”原创 2023-03-22 12:35:14 · 944 阅读 · 0 评论 -
【数据分析】数据预处理—最小-最大规范化、z-score规范化、小数定标规范化
例如,我们需要考察学生A和学生B的某门课程成绩。A的考试满分是100分(及格60分),B的考试满分是150分(及格90分)。显然,A和B的100分代表着完全不同的含义。原创 2023-03-22 11:44:40 · 3781 阅读 · 0 评论