相信小伙伴已经会基本的数据处理了和可视化的问题了。我们现在要进行数据挖掘的学习了。感觉这个排版太乱不好学习也可以评论一下我给改一下。
一、数据的类型:
模型:变量与变量之间的关系。
数据分析:根据变量类型和以顶的假设,来确定变量与变量之间的关系。
所有的模型都是错的,但有些是有用的。
二、数据分析和数据挖掘的关系:
1.数据的用途:记录、解释(理解)、预测、控制
2.数据分析:统计、相关、回归;已知模型下的参数估计
3.数据挖掘:发现知识;分类、聚类、回归
4.数据-信息-知识
三、概率
相信都会一些基础了,不会的话我可以再补充些更基础了。
1.条件概率:P(A|B)=P(AB)/P(B),从而可以知道若P(A)和P(B)都大于0则P(AB)=P(B)P(A|B)=P(A)P(B|A)。
2.全概率公式:设A1,A2…An是一个独立同分布的事件组,并且全部概率大于0,则对于B有,P(B)=P(A1)P(B|A1)+P(A2)P(B|A2)…+P(An)P(B|An),这个为全概率公式。
3.贝叶斯公式:设A1,A2…An是一个独立同分布的事件组,并且全部概率大于0,则对于B有,P(Am|B)=P(AmB)/P(B)=(P(Am)P(B|Am))/(P(A1)P(B|A1)+P(A2)P(B|A2)…+P(Ai)P(B|Ai))
注意i是导致事件B发生的因素。
例子:一个学校的男女(C1,C2)比例是1:1,现在从A班取出一个男生的概率是0.2,B班是0.5.
一个人是男生的概率是:P(D)=P(A)P(C1|A)+P(B)P(C1|B)=0.35
这个人如果是男生那么他可能来自A班也可能是B班,那么我们只需要算出他在A班而且他是男生的概率加上他在B班而且他是男生的概率就可以得出他是男生的概率了。
一个男生来自A班的概率是:P(A|C1)=P(C1|A)P(A)/P(D)