新版白话空间统计（44）空间聚类：局部莫兰指数（Anselin Local Moran''s I）简介与参数说明

发布日期：2024-11-04 12:14 点击次数：178

好了，写了好几篇的聚类，有同学都在问虾神，说没想到你这个浓眉大眼的家伙也当叛徒了，背叛了空间统计学队伍……好吧，还是那句话，空间统计学是虾神的看家本领，所以那是肯定不能丢掉的。

当然，今天我们要讲的还是聚类，不过是妥妥的空间聚类。

话说，前面一直都在强调，空间分布模式主要就是三种：

图片

而全局的莫兰指数可以通过计算公式，来表明整个研究空间中的样本数据所表达出来的总体特征，但是这个总体特征是所有模型加权出来的结果，自然就会掩盖掉里面的很多细节。

比如我们要说20世纪最出名的轻武器，肯定AK47必然有一席之地，做为世界上是世界上装备大、产量最高、适用范围最广和改进类型最多的枪械，没人会否认AK是一把好枪，但是做为好枪，是不是就完美无缺呢？答案自然是否定的——AK最被人诟病的就是射击精度的问题。比如在虾神读大学的时候，常玩的CS，因为枪法臭，就老不喜欢用AK了（虾神玩警的时候喜欢用AUG（游戏里面的B44），玩匪的时候喜欢用SSG552 （B42），就下面这两个：

图片

主要是虾神枪法太臭，所以得靠这两个带着瞄准器的枪……不过虾神一直都是盒子精本精：

图片

而且就算用了瞄准器的抢，结果依然是：

图片

好了，言归正传，整体的完美，不代表细节就一样完美，整体模式被识别为聚集，不代表所有数据在研究空间内，都表现出聚集的模式，所以在这种背景下：LISA（Local Moran's I analysis）就应运而生了。

因为LISA是通过局部关系从观察值以及他们的空间上的相邻来进行计算的。所以也被直接称之为：局部空间自相关。

局部空间自相关的原理非常简单：整个分析把结论分成两种：聚类和异常：

所谓的聚类，就是把相同的放在一起：

图片

而异常则正好相反（也就是某种离散）：

图片

当然，做为默认的结果，肯定还有随机：

图片

如果抛开随机不谈，只看聚集和异常的话，就会有如下四种组合：

图片

而这种模型到底是如何进行计算的？结果又有啥意义呢？我们后面将花上好几篇的时间来给大家慢慢讲讲。

当然，习惯上，我们还是从创始人开始：

图片

LISA的创始人，就是大名鼎鼎的Luc Anselin院士，当今世界空间统计学领军人物，另外，也是虾神唯三见过的活着的GIS传奇人物（还有两个是goodchild和Jack）：

（目测老爷子身高超过190cm）

图片

Anselin院士领导的芝加哥大学GeoDaCenter（原来在亚利桑那大学），是世界知名的空间分析实验室，其中标志性的软件就是GeoDa。

图片

我在以前的文章中已经介绍过GeoDa了，所以这里不多赘述，后面我们一些演示还通过GeoDa来进行讲解。

下面继续来讲LISA。

从算法上讲，全局最优一般不代表局部最优，同样的，宏观上的结论，也不能掩盖微观上的一些问题，比如我们对全国数据进行分析的总体结论是空间上的正相关，并且呈现比较显著的聚集趋势，但是是不是每个区域都聚集呢？东南沿海和西北内陆的空间分布模式是否完全一样呢？显然不可能。

所以我们就需要一种，能够在更微观的尺度上对空间分布进行探索和分析的模型。而LISA就是其中之一。

LISA改进了莫兰指数模型，把整体的关系破坏掉，那么就可以以此来计算每一个组成部分的局部空间自相关。这种局部的空间自相关，可以用来检验聚类区域，也可以用来验证观察值聚集的热点以及冷点。

我们可以先来看看LISA怎么做，然后再来逐步分析它的原理和结果。

在ArcGIS里面，LISA的名称就叫做Cluster and Outlier Analysis（Anaselin Local Moran's I）：聚类与异常分析：Anselin 局部莫兰指数。在空间统计的聚类与分布制图工具箱里面（不像莫兰指数，在空间分布模式工具箱中）：

图片

从归属来看，空间统计学届是把这个东西作为聚类分析来看待的，而非空间分布模型来看待。

整体的参数说明，与全局莫兰指数几乎是一模一样，必选项就是三个：

输入要分析的要素、输入要分析的字段，输出的结果，然后下面是空间关系概念化的选择：

图片

这些参数在以前的分析工具中，大家也都司空见惯，是啥意义也都了如指掌，另外关于不同空间关系在局部莫兰指数中的应用，后面在讲案例的时候也会说到。

这里具体说一下最后两个参数：

1、Apply False Discovery Rate(FDR) Correction——官方翻译直接叫做：应用错误发现率 (FDR) 校正。（这里先吐槽一下这个翻译，挖坑待填）

这是一个布尔型参数，我们可以指定在工具运行的时候，评估统计显著性时是否使用 FDR 校正。

如果选中，则统计显著性将以置信度为 95% 的错误发现率校正为基础。

如果不选中（这是默认设置），那么p 值小于 0.05 的要素就直接显示在 COType 字段中了，反映置信度为 95% 的统计显著性聚类或异常值。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。

上一篇：R 实操！TCGA数据清洗和差异分析

下一篇：没有了

新版白话空间统计（44）空间聚类：局部莫兰指数（Anselin Local Moran&#39;&#39;s I）简介与参数说明

友情链接：

新版白话空间统计（44）空间聚类：局部莫兰指数（Anselin Local Moran''s I）简介与参数说明