数据分析方法
探索性数据分析
1,在尽量少的先验假设前提下对数据进行处理分析、不执著于方法的理论依据
2,分析过程:耐抗性、残差、重新表达和图形启示
耐抗性:对局部不良数据的非敏感性,如中值
残差:原始数据减去一个总括统计量或者一个拟合数据后的残余部分。
重新表达:运河不同尺度进行简化分析
图表启示:分析强调数据图表的启示作用
机理分析法
分析现实系统的因果关系、作用原理
结构分析法
任何系统的性质都不是其组成要素的综合,系统的整体属性大于相互组成要素属性的总和。系统的功能是由结构决定的,系统结构合理、整体功能就好。否则系统功能就会缺失甚至解体。
结构分析法就是在结构现状分析评价的基础上,寻找一个最优结构,保证系统整体功能的最优。
功能分析法
暂时不管系统的本质,只着重研究行为操作问题,只关心系统在做什么。不管系统是什么。即只关心系统的输入输出行为。
过程分析法
强调研究对象的历时性。注重地理系统的演化过程。如微分方程建模方法。
量纲分析法
量纲
量纲(dimension)是指物理量的基本属性;分为基本量和导出量;基本量的量纲分别用长度L、质量M、时间T、电流强度I、温度Θ、物质的量n和光强度J表示,任一个导出量的量纲可由基本量中导出。
基本量纲就是基本量的量纲。
量纲齐次性
数学公式表示一些物理之间的关系时,公式等号两端必须有相同的量纲,称为量纲齐次性。量纲分析就是利用量纲齐次原则来建立物理量之间的数学模型。
相似性定理
相似是指组成模型的每个要素必须与原型的对应要素相似,包括几何要素和物理要素,其具体表现为由一系列物理量组成的场对应相似。对于同一个物理过程,若两个物理现象的各个物理量在各对应点上以及各对应瞬间大小成比例,且各矢量的对应方向一致,则称这两个物理现象相似。在流动现象中若两种流动相似,一般应满足几何相似,运动相似,动力相似。
地理学三定理
1 地理学第一定律
任何事物都是空间相关的,距离近的事物比距离远的事物的空间相关性更大。
应用:可以用来研究传染病传播的空间格局。比如,可以用地理学第一定律来解释和预测传染病媒体的流如何形成该病流行的空间格局。在这次的新冠病毒传播中,可以解释为什么黄冈和孝感是除了发源地武汉以外疫情最严重的两个地方。
2 地理学第二定律
地理学第二定律可以理解为空间异质性定律(Law of Spatial Heterogeneity),空间的隔离,造成了地物之间的差异,即异质性,分为空间局域异质性和空间分层异质性,前者是指该点属性值与周围不同,例如热点或冷点;后者是指多个区域之间互相不同,例如分类和生态分区。
我们可以将地理学第二定律和第一定律综合起来。从宏观来看,地理空间之间存在着差异,即异构性。从微观来看,地理空间是连续的,所以地理空间存在相关性。
应用:地理学第二定律可以用来解释地表之间存在差异。
3 地理学第三定律
两个点(区域)的地理配置越相似,目标变量在这两个点(区域)的值(过程)越相似。
地理第三定律探讨了地理配置中相似性的使用(变量结构和空间足迹),而第一定律和第二定律研究了距离变化(第一定律的空间相关性和第二定律的空间异质性) 。另一个不同之处在于,第一定律和第二定律着重于地理相似性或基于一个变量(即空间距离)的差异,而第三定律则着重于许多地理变量的配置相似性。从某种意义上说,第一定律和第二定律可以看作是第三定律的特例。
应用:例如,在犯罪分析中,学者们经常研究犯罪发生率高的地区的地理环境(收入,教育,社会福利等地理变量的配置),并运用得出的条件来确定其他哪些地区更有可能发生此类犯罪。
类比分析法
依据两个对象已知的相似性,把其中一个对象已知的特殊性质迁移到另一个对象身上。从而获得另一个对象性质的一种方法。结论只是在一定程度上是可靠的。因此要两个对象的共同属性尽可能的多。
熵
熵反映的是一个系统的混乱程度,一个系统越混乱,其熵就越大;越是整齐,熵就越小。熵增加原理指的是一个孤立系统内的自发过程,都是从朝越来越混乱的方向发展,意思是向熵增加的方向发展。
信息熵
其中
P
(
x
i
)
P(x_{i})
P(xi) 代表随机事件X为
x
i
x_{i}
xi 的概率。
1,事件发生的概率越低,其发生时所能给出的信息量越大。
日常发生的事情没什么信息量,罕见的事情信息量就大了(如海南下雪了)
2,
0
<
=
P
(
x
i
)
<
=
1
0<=P(x_{i})<=1
0<=P(xi)<=1,因此负号是为了确保信息一定是正数或者是0
3,信息熵还可以作为一个系统复杂程度的度量,如果系统越复杂,出现不同情况的种类越多,那么他的信息熵是比较大的。如果一个系统越简单,出现情况种类很少,此时的信息熵较小。
仿真模拟法
利用计算机对真实系统在一定环境要素相互作用进行有条件的模仿实验。
1,作用
对高度复杂的系统内部交互作用的系统进行研究和实验。
设想不同方案,观察这些方案对系统的影响
反映变量之间的相互关系
研究不同时期相互间的动态联系
2,局限性
可能遗漏最优方案
只能局限于可以模拟的方案
当系统很复杂时,难以获得模拟用的数据
3,步骤
确定问题、收集资料、建立模型、编制计算机程序、检验模型、模拟实验设计、模拟运行、分析结果。