2019年04月_人工智能大模型讲师培训咨询叶梓

原创人工智能入门-R语言数据分析与数78

K-means聚类过程图示关于K-Means的几个问题ßK值怎么定？——主要取决于经验，通常的做法是多尝试几个K值，看分成几类的结果更好解释，更符合分析目的等。ß初始的K个质心怎么选？——最常用的方法是随机选，初始质心的选取对最终聚类结果有影响，因此算法一定要多执行几次，哪个结果更合理，就用哪个结果。有一些优化的方法，例如：选择彼此距离最远的点。ßK-Means...

2019-04-30 09:42:45 164

原创人工智能入门-R语言数据分析与数77

其他距离度量ß马氏距离（马哈拉诺比斯是印度统计学家）Þ利用协方差矩阵，排除变量间相关性的影响ß海明距离（源于电报编码中的海明码）Þ变成一样需替换几次，用于编码ß杰卡德相似系数Þ两个集合，交集与并集之比，用于集合比较K-means聚类算法ß首先输入k的值，即我们希望将数据集经过聚类得到k个分组。ß（从数据集中）随机选择k个数据点作为初始“质...

2019-04-30 09:39:48 141

原创人工智能入门-R语言数据分析与数76

夹角余弦与距离度量的差异ß假定有三个买家分别给三样商品打分，ß第一个买家的打分（10，9，8）ß第二个买家的打分（4，3，2）ß第三个买家的打分（8，9，10）ß如果采用余弦相似度来看每个买家的差异，第一、二两个买家对这三样商品喜好程度排序是一样的。因此，第一、第二个买家为一类，第三个买家为另外一类。但这未必合理，因为第一、三买家倾向于“都喜欢”；而第二买家倾向于“都不喜...

2019-04-29 08:52:25 134

原创人工智能入门-R语言数据分析与数75

距离的度量ß曼哈顿距离ß欧几里得距离据说源于在曼哈顿接街头，无论出租车怎么开，距离都是一样的！ß切比雪夫距离国际象棋是俄罗斯人民的最爱，用“国王”的走法来解释，通俗易懂！曼哈顿距离与欧几里得距离相似性的度量ß余弦相似度用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小。ß相比距离度量，余弦相似度...

2019-04-29 08:51:11 162

原创人工智能入门-R语言数据分析与数74

数据挖掘常用算法聚类概述ß聚类的实质Þ“物以类聚、人以群分”Þ根据样本间的亲疏关系将样本分为类，相近的归为一类，差别较大的归为另一类。Þ所获得的分类应有一定的意义。ß聚类分析的关键Þ亲疏关系的判别：相似性与距离（不相似性）Þ分类数的确定：分多少类合适距离的度量ß欧几里得距离：两个点之间的距离，也即通常情况下，我们所计算的距离，n维空间中的欧式距离...

2019-04-28 09:34:28 123

原创人工智能入门-R语言数据分析与数73

混淆矩阵ßP(Positive Sample)：正例的样本数量。ßN(Negative Sample)：负例的样本数量。ßTP(True Positive)：正确预测到的正例的数量。ßFP(False Positive)：把负例预测成正例的数量。ßFN(False Negative)：把正例预测成负例的数量。ßTN(True Negative)：正确预测到的负例...

2019-04-28 09:33:27 200

原创人工智能入门-R语言数据分析与数72

rpart参数设置ßrpart.control对树进行一些设置Þxval是10折交叉验证Þminsplit是最小分支节点数，这里指大于等于20，那么该节点会继续分划下去，否则停止Þminbucket：叶子节点最小样本数Þmaxdepth：树的深度 Þcp全称为complexityparameter，指某个点的复杂度，对每一步拆分，模型的拟合优度必须提高的...

2019-04-26 10:22:38 145

原创人工智能入门-R语言数据分析与数71

另一个例子：Kyphosisßkyphosis数据集，是rpart这个包自带的数据集。数据集源自儿童接受外科脊柱矫正手术的样本，数据集有4列、81行（即，81个病例）。Þkyphosis：采取手术后依然发生脊柱后凸（驼背）的情况ÞAge：单位是“月”ÞNumber：代表进行手术的脊柱椎骨的数目ÞStart：在脊柱上从上往下数、参与手术的第一节椎骨所在的序号...

2019-04-26 10:21:25 268

原创人工智能入门-R语言数据分析与数70

R语言实现决策树以鸢尾花数据集作为算例说明library(rpart)iris.rp= rpart(Species~., data=iris, method="class")plot(iris.rp, uniform=T, branch=0, margin=0.1, main=...

2019-04-25 09:12:01 293

原创人工智能入门-R语言数据分析与数69

决策树的剪枝ß前置裁剪在构建决策树的过程时，提前停止。那么，会将切分节点的条件设置的很苛刻，导致决策树很短小。结果就是决策树无法达到最优。实践证明这中策略无法得到较好的结果。ß后置裁剪决策树构建好后，然后才开始裁剪。采用两种方法：Þ用单一叶节点代替整个子树，叶节点的分类采用子树中最主要的分类；Þ将一个子树完全替代另外一颗子树。后置裁剪有个问题就是计算效率，有些节点计算后就...

2019-04-25 09:10:50 140

原创人工智能入门-R语言数据分析与数68

最终的决策树ßWeather数据 Outlook Temperature Humidity Windy Play? sunny hot high false No sun...

2019-04-24 09:26:36 145

原创人工智能入门-R语言数据分析与数67

分支继续划分ß以此类推，递归，继续划分ß（天气，晴），气温，gain(temperature)=0.571位ß（天气，晴），湿度，gain(humidity)=0.971位(纯的子女节点）ß（天气，晴），有风，gain(windy)=0.020位ß（天气，雨），气温，gain(temperature)=0.020位ß（天气，雨），湿度，gain(humidity...

2019-04-24 09:08:51 122

原创人工智能入门-R语言数据分析与数66

天气节点下的分支天气为晴的子节点ß以此类推，递归继续选择。ß当天气为晴时，子节点上总信息量：ßinfo([2,3])=0.971 bitsß天气为晴时，其他属性产生的信息增益分别为：gain(temperature|sunny)=0.971-0.4=0.571位gain(humidity|sunny)=0.971-0=0.971位...

2019-04-23 09:20:44 162

原创人工智能入门-R语言数据分析与数65

各个属性作为顶层的信息增益ß依次，计算每个属性作为顶层节点的信息增益ßgain(outlook)=0.94-0.693 =0.247位ßgain(temperature)=0.029位ßgain(humidity)=0.152位ßgain(windy)=0.048位最大信息增益ß选择获得最大信息增益的属性进行划分ß最大信息增益：gain...

2019-04-23 09:18:48 222

原创人工智能入门-R语言数据分析与数64

决策树的顶层节点ß训练样本的信息值(基于类的比例）ß训练样本（用来创建树的数据集）在包含9个yes和5个no的根节点上，对应于信息值ßinfo([9,5])=0.940bits→总的信息ßinfo(play?)=info([9,5])ß=entropy(9/14,5/14)ß=–9/14*log2(9/14)–5/14*log2(5/14)ß=0.410+0....

2019-04-22 09:41:14 339

原创人工智能入门-R语言数据分析与数63

决策树的例子 Outlook Temperature Humidity Windy Play? sunny hot high false No sunny ...

2019-04-22 09:39:35 149

原创人工智能入门-R语言数据分析与数62

不纯度的度量ßGini系数：是一种与信息熵类似的做特征选择的方式，可以用来衡量数据的不纯度。Gini系数的计算方式如下：ß信息增益（Info Gain）用于ID3ßGini用于CARTß信息增益率（Info Gain Ratio）用于C4.5。ID3算法思想描述ß（a）对当前例子集合，计算属性的信息增益；ß（b）选择信息增益最大的...

2019-04-19 09:23:39 332

原创人工智能入门-R语言数据分析与数61

不纯度的度量ß信息增益:衡量一个属性(x)区分样本(y)的能力。当新增一个属性(x)时，信息熵H(Y)的变化大小即为信息增益。ß信息增益比：信息增益的一个大问题就是偏向选择特征值比较多的属性从而导致过适应，于是就有了信息增益比。GR=(IG(Y|X))/H(X)...

2019-04-19 09:22:22 174

原创人工智能入门-R语言数据分析与数据挖60

熵是什么？ß熵（Entropy）由“信息论之父”香农提出，是指系统的混乱程度。ß系统越无序、越混乱，熵就越大。Þ当节点很纯时（只有一个类的样本），其度量值为0Þ当不纯性最大时（所有类都有同样可能），其度量值最大计算一下熵...

2019-04-18 09:33:44 197

原创人工智能入门-R语言数据分析与数据挖59

数据挖掘的工具lIBM Intelligent MinerlSPSS Clementine（modeler）lSAS EnterpriseMinerlOracle DarwinlWeka、KnimelMatlab、PythonlR语言、SparkRlHadoop mahout、SparkMLlib决策树ß决策树学习是归纳推理算法。它是一种逼近离散...

2019-04-18 09:32:16 164

原创新一代AI人工智能机器学习研讨会即将在杭州举办，特聘叶梓老师主讲！

新一代AI人工智能机器学习研讨会即将在杭州举办，特聘叶梓老师为本次研讨会的主讲！本次研讨会，叶梓老师将会就最前沿的人工智能技术与各位与会嘉宾进行探讨。叶老师最新的人工智能机器学习技术培训提纲如下：人工智能概念与经典算法人工智能概念综述1、从一些术语辨析人工智能2、人工智能之连接主义的兴衰史3、这次AI的热潮是怎么来的？图像处理...

2019-04-17 17:08:59 2833

原创人工智能入门-R语言数据分析与数据挖58

数据挖掘的应用ß按特征自动归类：数据库中的记录可被划分为一系列有意义的子集，即聚类。ß偏差检测：数据库中的数据常有一些异常记录，从数据库中检测这些偏差很有意义。数据挖掘不是什么？不能做什么？ß数据挖掘不是数据库工具或数据库监视工具；ß数据挖掘不是一般意义上的统计分析；ß数据挖掘不能解决数据质量低的问题；ß数据挖掘不能说明模型的实际应用价值；ß数据挖掘不能在缺乏...

2019-04-17 09:15:57 143

原创人工智能入门-R语言数据分析与数据挖57

数据理解、数据准备建立模型模型评估、结果发布数据挖掘的应用ß分类或预测趋势：数据挖掘自动在大型数据库中寻找预测性信息，以往需要进行大量手工分析的问题现在可以迅速直接由数据本身得出结论。ß发现事物之间的关系：数据关联是一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性，就称为关联...

2019-04-17 09:14:46 159

原创人工智能入门-R语言数据分析与数据挖56

数据挖掘的基本概念ß数据挖掘是从存放在数据集中的大量数据挖掘出有趣知识的过程。ß数据挖掘，又称为知识发现，它是一个从大量数据中抽取挖掘出未知的、有价值的模式或规律等知识的非平凡过程，它与数据仓库有着密切的联系。ß广义的数据挖掘是指知识发现的全过程；ß狭义的数据挖掘是指机器学习等发现数据模式的智能方法，即偏重于模型和算法。数据挖掘的全过程•业务理解•数据...

2019-04-16 08:57:33 126

原创人工智能入门-R语言数据分析与数据挖55

直方图与密度分布选训练集选测试集训练好了结果

2019-04-16 08:55:55 94

原创人工智能入门-R语言数据分析与数据挖54

Iris的属性Iris的属性Iris示例：作图ß画出列iris$Sepal.Length分布柱状图>hist(iris$Sepal.Length)ß画出列iris$Sepal.Length的密度函数图> plot(density(iris$Sepal.Length))ß画出列iris$Sepal.Length和iris$Sep...

2019-04-15 09:46:58 213

原创人工智能入门-R语言数据分析与数据挖53logistic回归

多自变量时logistic回归模型ßLogistic回归模型：模型的参数估计ß模型中的参数（βi）估计ß通常用最大似然函数 (maximum likelihood estimate， MLE)估计βi。ß由统计软件包完成。iris数据初步探查...

2019-04-15 09:45:17 133

原创人工智能入门-R语言数据分析与数据挖52

单个自变量的logistic回归模型方程ß一个自变量与Y关系的回归模型;ß记为p(y=1|x)表示某暴露因素x状态下，结果y=1的概率（P）模型。Logistic回归函数的几何图形用R语言画一下...

2019-04-12 09:44:48 107

原创人工智能入门-R语言数据分析与数据挖51logistic回归模型

logistic回归模型ß建立logit（p）与X的多重线性回归模型:Logistic回归基本概念logistic回归的基本概率来自于医学它要求应变量（Y）取值为分类变量（两分类或多个分类）自变量（Xi）称为危险因素或暴露因素，可为连续变量、等级变量、分类变量。可有m个自变量X1， X2，…Xm...

2019-04-12 09:43:26 209

原创人工智能入门-R语言数据分析与数据挖50logistic回归

logistic回归ßLogistic回归为概率型非线性回归模型，是研究分类观察结果(y)与一些影响因素(x)之间关系的一种多变量分析方法。ß典型的应用场景问题是，研究某些因素条件下某个结果是否发生，比如：医学中根据病人的一些症状来判断他是否患有某种病。线性回归与logistic回归ß多元线性回归方法要求Y的取值为计量的连续性随机变量ß多元线性回归方程要求Y...

2019-04-03 10:22:54 169

原创人工智能入门-R语言数据分析与数据挖49

解读summaryß残差统计量：ß残差第一四分位数（1Q）和第三分位数（Q3）有大约相同的幅度，意味着有较对称的钟形分布。ß系数：ß标记为Estimate的列包含由普通最小二乘法计算出来的估计回归系数。ß标记为Std.Error的列是估计的回归系数的标准误差。ß如果一个变量的系数是0，那么该变量是无意义的，它对模型毫无贡献。因此需要了解，真正的系数为0的可能性有多大？这是t...

2019-04-03 10:21:22 443

原创人工智能入门-R语言数据分析与数据挖48

二元线性回归方程的直观解释也是最小二乘法1.使因变量的观察值与估计值之间的离差平方和达到最小来求得。即2.求解各回归参数的标准方程如下多元线性回归的示例模型解读...

2019-04-01 10:19:33 87

原创人工智能入门-R语言数据分析与数据挖47

一元线性回归预测法—参数估计多元线性回归模型l一个因变量与两个及两个以上自变量的回归l描述因变量y如何依赖于自变量x1，x2，…，xp和误差项e的方程，称为多元回归模型l涉及k个自变量的多元回归模型可表示为:多元线性回归模型的基本假定ß自变量x1，x2，…，xp是确定性变量。不是自变量，且要求样本容量的个数应大于自变量的个数。ß对...

2019-04-01 10:17:31 111

人工智能讲师分享前沿技术