数据分析笔记(二)
1.过拟合 高方差 低偏差 欠拟合 低方差 高偏差 ,
高偏差意味模型不够复杂(欠拟合),为了模型更加的强大,我们需要向特征空间中增加特征。增加样本能够降低方差
2.Excel中vlookup函数:
VLOOKUP(要查找的值,查找的区域,查找区域返回的列,查找模式)
即vlookup(who,where,what,how)
3.在EXCEL输入以零开头的文本型数字时需在输入的数据前面加 `
4.散点图可以用来刻画两个变量之间是否具有相关关系
5.模型选择就是选择在未知数据集上预测性能较好的模型,两种常用的模型选择方法:正则化与交叉验证。
6.反映数据离散程度的有 方差,标准差,极差
7.假设一个元组在子查询1中出现m次,在子查询2中出现n次,该元组在“子查询1 Union ALL 子查询2”中出现m + n次。
Union:对两个结果集进行并集操作,不包括重复行,同时进行默认规则的排序;
Union All:对两个结果集进行并集操作,包括重复行,不进行排序;
7.sql函数中,substring()的用法如下:
1》SUBSTRING(name,5,3) 截取name这个字段 从第五个字符开始 只截取之后的3个字符
2》SUBSTRING(name,3) 截取name这个字段 从第三个字符开始,之后的所有个字符
3》SUBSTRING(name, -4) 截取name这个字段的第 4 个字符位置(倒数)开始取,直到结束
4》SUBSTRING(name, -4,2) 截取name这个字段的第 4 个字符位置(倒数)开始取,只截取之后的2个字符
8.抽样估计的优良标准:无偏性,一致性,有效性
9.影响时间序列的因素有:长期趋势,季节变动,循环波动,不规则波动
10,题目:某运河中客船和货船的数量之比是5:1,客船中途停修的概率为0.05,货船为0.02,今有一辆船中途停船修理,求该船是客船的概率()
解:
考察条件概率、贝叶斯概率、全概率公式:
事件A = {船是客船}
事件B = {船是货船}
事件C = {船中途停修}
目前已知:
P(A) = 5/6
P(B) = 1/6
P(C|A) = 0.05 = 1/20
P(C|B) = 0.02 = 1/50
现在要求的是:P(A|C) = ?
由条件概率公式可知 P(A|C) = P(AC)/P(C)
P(AC) = P(A) * P(C|A) = 5/6 * 1/20
P(C) = P(A)*P(C|A) + P(B)*P(C|B) = 5/6 * 1/20 + 1/6 * 1/50
所以 P(A|C) = ( 5/6 * 1/20 ) / (5/6 * 1/20 + 1/6 * 1/50) = 25/27