数据分析笔记(二)
1.过拟合 高方差 低偏差 欠拟合 低方差 高偏差 ,
高偏差意味模型不够复杂(欠拟合),为了模型更加的强大,我们需要向特征空间中增加特征。增加样本能够降低方差
2.Excel中vlookup函数:
VLOOKUP(要查找的值,查找的区域,查找区域返回的列,查找模式)
即vlookup(who,where,what,how)
3.在EXCEL输入以零开头的文本型数字时需在输入的数据前面加 `
4.散点图可以用来刻画两个变量之间是否具有相关关系
5.模型选择就是选择在未知数据集上预测性能较好的模型,两种常用的模型选择方法:正则化与交叉验证。
6.反映数据离散程度的有 方差,标准差,极差
7.假设一个元组在子查询1中出现m次,在子查询2中出现n次,该元组在“子查询1 Union ALL 子查询2”中出现m + n次。
Union:对两个结果集进行并集操作,不包括重复行,同时进行默认规则的排序;
Union All:对两个结果集进行并集操作,包括重复行,不进行排序;
7.sql函数中,substring()的用法如下:
1》SUBSTRING(name,5,3) 截取name这个字段 从第五个字符开始 只截取之后的3个字符
2》SUBSTRING(name,3) 截取name这个字段 从第三个字符开始,之后的所有个字符
3》SUBSTRING(name, -4) 截取name这个字段的第 4 个字符位置(倒数)开始取,直到结束
4》SUBSTRING(name, -4,2) 截取name这个字段的第 4 个字符位置(倒数)开始取,只截取之后的2个字符