今天是北京大学可视化发展前沿研究生暑期学校开讲的第二天,紧接着昨天的内容,jaegul choo教授介绍了除MDS、PCA之外的其他降维方法:
►Locally linear embedding (LLE)
(1)寻找每个样本点的k个近邻点;
(2)由每个样本点的近邻点计算出该样本点的局部重建权值矩阵;
(3)由该样本点的局部重建权值矩阵和其近邻点计算出该样本点的输出值.
►Laptacian Eigenmaps (LE)
LaplacianEigenmaps看问题的角度和LLE十分相似。它们都用图的角度去构建数据之间的关系。利用每个顶点代表一个数据,每一条边权重代表数据之间的相似程度,越相似则权值越大。并且它们还都假设数据具有局部结构性质。LE假设每一点只与它距离最近的一些点相似,再远一些的数据相似程度为0,降维后相近的点尽可能保持相近.
►Canonical correlation analysis (CCA)
典型相关分析的实质就是在两组随机变量中选取若干个有代表性的综合指标(变量的线性组合),用这些指标的相关关系来表示原来的两组变量的相关关系。这在两组变量的相关分析中,可以起到合理的简化作用。当典型相关系数足够大时,可以像回归分析一样由一组变量的数值预测另一组变量的线性组合的数值
►Independent component analysis (ICA)
ICA是是将原始数据降维并提取出相互独立的属性,是一种用来从多变量(多维)统计数据里找到隐含的因素或成分的方法。
接着介绍机器学习+可视化面临的挑战,先对比机器学习和人类在可视化方面的异同和联系,进而得出机器学习方法应该做到以下几点:
►更加有助于理解
►更好的实现交互
►更好的支持实时回复等
最后结合自己的成果谈谈自己的研究方向。
……………………………………………………*************************……………………………………………………………………………………
下午是王朝立教授为我们授课,主题为“Graphs in Scicence visualization”,先从scale、complexity和数据组织形式等方面概述了数据探索的分类
接着分别用飓风和火焰的模拟数据为我们讲解了飓风发生时的情形和火焰燃烧时的状态,通过这两个例子,引出大数据分析面临的挑战和趋势:
►交互性
►数据渲染的质量
►对高维数据及相关参数的把控
►趋势是从大数据到整体的观察转变
紧接着结合自己的成果举了FlowGraph的例子,将不同颜色的节点与边进行链接,通过聚类等方式最终形成了具有层次结构的graph。
最后,王朝立教授教我们怎样去设计属于我们自己的graph:
►Graph的整体结构
►Graph的布局设计
►与原始数据的连接
►数值的验证等设计自己的graph.