- 博客(4)
- 资源 (11)
- 收藏
- 关注
原创 数据分析之美:决策树
信息熵信息熵(Entropy)是指:一组数据所包含的信息量,使用概率来度量。数据包含的信息越有序,所包含的信息越低;数据包含的信息越杂,包含的信息越高。例如在极端情况下,如果数据中的信息都是0,或者都是1,那么熵值为0,因为你从这些数据中得不到任何信息,或者说这组数据给出的信息是确定的。如果数据时均匀分布,那么他的熵最大,因为你根据数据不能知晓那种情况发生的可能性比较大。信息熵单位
2015-07-30 16:35:55 2297
原创 数据分析之美:决策树R语言实现
R语言实现决策树1.准备数据> install.packages("tree")> library(tree)> library(ISLR)> attach(Carseats)> High=ifelse(Sales<=8,"No","Yes") //set high values by sales data to calssify> Carseats=data.frame(Car
2015-07-30 16:18:51 14574 2
原创 数据分析之美:如何进行回归分析
1. 确定自变量与Y是否相关证明:自变量X1,X2,....XP中至少存在一个自变量与因变量Y相关For any given value of n(观测数据的数目) and p(自变量X的数目), any statistical software package can be used to compute the p-value associated with the F-stat
2015-07-29 21:39:40 15711 1
原创 Resample Methods for Training Error & Test Error
Why use resample methodsResampling methods are an indispensable tool in modern statistics. They involve repeatedly drawing samples from a training set and refitting a model of interest on each sam
2015-07-19 16:46:35 2177
Data.Structures.and.Algorithms.in.Java, (Robert Lafore).2nd.Ed
2013-02-25
Head First Design Patterns
2013-01-21
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人