数据分析笔记(二)

数据分析笔记(二)

1.过拟合 高方差 低偏差 欠拟合 低方差 高偏差 ,

高偏差意味模型不够复杂(欠拟合),为了模型更加的强大,我们需要向特征空间中增加特征。增加样本能够降低方差

2.Excel中vlookup函数:

VLOOKUP(要查找的值,查找的区域,查找区域返回的列,查找模式)

即vlookup(who,where,what,how)

3.在EXCEL输入以零开头的文本型数字时需在输入的数据前面加 `

4.散点图可以用来刻画两个变量之间是否具有相关关系

5.模型选择就是选择在未知数据集上预测性能较好的模型,两种常用的模型选择方法:正则化与交叉验证。

6.反映数据离散程度的有 方差,标准差,极差

7.假设一个元组在子查询1中出现m次,在子查询2中出现n次,该元组在“子查询1 Union ALL 子查询2”中出现m + n次。

Union:对两个结果集进行并集操作,不包括重复行,同时进行默认规则的排序;

Union All:对两个结果集进行并集操作,包括重复行,不进行排序;

7.sql函数中,substring()的用法如下:

1》SUBSTRING(name,5,3) 截取name这个字段 从第五个字符开始 只截取之后的3个字符

2》SUBSTRING(name,3) 截取name这个字段 从第三个字符开始,之后的所有个字符

3》SUBSTRING(name, -4) 截取name这个字段的第 4 个字符位置(倒数)开始取,直到结束

4》SUBSTRING(name, -4,2) 截取name这个字段的第 4 个字符位置(倒数)开始取,只截取之后的2个字符

8.抽样估计的优良标准:无偏性,一致性,有效性

9.影响时间序列的因素有:长期趋势,季节变动,循环波动,不规则波动

10,题目:某运河中客船和货船的数量之比是5:1,客船中途停修的概率为0.05,货船为0.02,今有一辆船中途停船修理,求该船是客船的概率()

解:

考察条件概率、贝叶斯概率、全概率公式:
事件A = {船是客船} 
事件B = {船是货船}
事件C = {船中途停修}

目前已知:
P(A) = 5/6  
P(B) = 1/6  
P(C|A) = 0.05 = 1/20 
P(C|B) = 0.02 = 1/50

现在要求的是:P(A|C) = ?
由条件概率公式可知 P(A|C) = P(AC)/P(C)
P(AC) = P(A) * P(C|A) = 5/6 * 1/20 
P(C) = P(A)*P(C|A) + P(B)*P(C|B) = 5/6 * 1/20 + 1/6 * 1/50
所以 P(A|C) = ( 5/6 * 1/20 ) / (5/6 * 1/20 + 1/6 * 1/50) = 25/27
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值