- 博客(4)
- 资源 (11)
- 收藏
- 关注
原创 数据分析之美:决策树
信息熵 信息熵(Entropy)是指:一组数据所包含的信息量,使用概率来度量。数据包含的信息越有序,所包含的信息越低;数据包含的信息越杂,包含的信息越高。例如在极端情况下,如果数据中的信息都是0,或者都是1,那么熵值为0,因为你从这些数据中得不到任何信息,或者说这组数据给出的信息是确定的。如果数据时均匀分布,那么他的熵最大,因为你根据数据不能知晓那种情况发生的可能性比较大。 信息熵单位
2015-07-30 16:35:55
2351
原创 数据分析之美:决策树R语言实现
R语言实现决策树 1.准备数据 > install.packages("tree") > library(tree) > library(ISLR) > attach(Carseats) > High=ifelse(Sales<=8,"No","Yes") //set high values by sales data to calssify > Carseats=data.frame(Car
2015-07-30 16:18:51
14724
1
原创 数据分析之美:如何进行回归分析
1. 确定自变量与Y是否相关 证明:自变量X1,X2,....XP中至少存在一个自变量与因变量Y相关 For any given value of n(观测数据的数目) and p(自变量X的数目), any statistical software package can be used to compute the p-value associated with the F-stat
2015-07-29 21:39:40
15939
1
原创 Resample Methods for Training Error & Test Error
Why use resample methods Resampling methods are an indispensable tool in modern statistics. They involve repeatedly drawing samples from a training set and refitting a model of interest on each sam
2015-07-19 16:46:35
2241
Head First Design Patterns
2013-01-21
Data.Structures.and.Algorithms.in.Java, (Robert Lafore).2nd.Ed
2013-02-25
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人