开云体育下载官网ky3g.vip直

产品展示你的位置:开云体育下载官网ky3g.vip直 > 产品展示 > 新版白话空间统计(44)空间聚类:局部莫兰指数(Anselin Local Moran''s I)简介与参数说明

新版白话空间统计(44)空间聚类:局部莫兰指数(Anselin Local Moran''s I)简介与参数说明

发布日期:2024-11-04 12:14    点击次数:178

好了,写了好几篇的聚类,有同学都在问虾神,说没想到你这个浓眉大眼的家伙也当叛徒了,背叛了空间统计学队伍……好吧,还是那句话,空间统计学是虾神的看家本领,所以那是肯定不能丢掉的。

当然,今天我们要讲的还是聚类,不过是妥妥的空间聚类。

话说,前面一直都在强调,空间分布模式主要就是三种:

图片

而全局的莫兰指数可以通过计算公式,来表明整个研究空间中的样本数据所表达出来的总体特征,但是这个总体特征是所有模型加权出来的结果,自然就会掩盖掉里面的很多细节。

比如我们要说20世纪最出名的轻武器,肯定AK47必然有一席之地,做为世界上是世界上装备大、产量最高、适用范围最广和改进类型最多的枪械,没人会否认AK是一把好枪,但是做为好枪,是不是就完美无缺呢?答案自然是否定的——AK最被人诟病的就是射击精度的问题。比如在虾神读大学的时候,常玩的CS,因为枪法臭,就老不喜欢用AK了(虾神玩警的时候喜欢用AUG(游戏里面的B44),玩匪的时候喜欢用SSG552 (B42),就下面这两个:

图片

主要是虾神枪法太臭,所以得靠这两个带着瞄准器的枪……不过虾神一直都是盒子精本精:

图片

而且就算用了瞄准器的抢,结果依然是:

图片

好了,言归正传,整体的完美,不代表细节就一样完美,整体模式被识别为聚集,不代表所有数据在研究空间内,都表现出聚集的模式,所以在这种背景下:LISA(Local Moran's I analysis)就应运而生了。

因为LISA是通过局部关系从观察值以及他们的空间上的相邻来进行计算的。所以也被直接称之为:局部空间自相关。

局部空间自相关的原理非常简单:整个分析把结论分成两种:聚类和异常:

所谓的聚类,就是把相同的放在一起:

图片

而异常则正好相反(也就是某种离散):

图片

当然,做为默认的结果,肯定还有随机:

图片

如果抛开随机不谈,只看聚集和异常的话,就会有如下四种组合:

图片

而这种模型到底是如何进行计算的?结果又有啥意义呢?我们后面将花上好几篇的时间来给大家慢慢讲讲。

当然,习惯上,我们还是从创始人开始:

图片

LISA的创始人,就是大名鼎鼎的Luc Anselin院士,当今世界空间统计学领军人物,另外,也是虾神唯三见过的活着的GIS传奇人物(还有两个是goodchild和Jack):

(目测老爷子身高超过190cm)

图片

Anselin院士领导的芝加哥大学GeoDaCenter(原来在亚利桑那大学),是世界知名的空间分析实验室,其中标志性的软件就是GeoDa。

图片

我在以前的文章中已经介绍过GeoDa了,所以这里不多赘述,后面我们一些演示还通过GeoDa来进行讲解。

下面继续来讲LISA。

从算法上讲,全局最优一般不代表局部最优,同样的,宏观上的结论,也不能掩盖微观上的一些问题,比如我们对全国数据进行分析的总体结论是空间上的正相关,并且呈现比较显著的聚集趋势,但是是不是每个区域都聚集呢?东南沿海和西北内陆的空间分布模式是否完全一样呢?显然不可能。

所以我们就需要一种,能够在更微观的尺度上对空间分布进行探索和分析的模型。而LISA就是其中之一。

LISA改进了莫兰指数模型,把整体的关系破坏掉,那么就可以以此来计算每一个组成部分的局部空间自相关。这种局部的空间自相关,可以用来检验聚类区域,也可以用来验证观察值聚集的热点以及冷点。

我们可以先来看看LISA怎么做,然后再来逐步分析它的原理和结果。

在ArcGIS里面,LISA的名称就叫做Cluster and Outlier Analysis(Anaselin Local Moran's I):聚类与异常分析:Anselin 局部莫兰指数。在空间统计的聚类与分布制图工具箱里面(不像莫兰指数,在空间分布模式工具箱中):

图片

从归属来看,空间统计学届是把这个东西作为聚类分析来看待的,而非空间分布模型来看待。

整体的参数说明,与全局莫兰指数几乎是一模一样,必选项就是三个:

输入要分析的要素、输入要分析的字段,输出的结果,然后下面是空间关系概念化的选择:

图片

这些参数在以前的分析工具中,大家也都司空见惯,是啥意义也都了如指掌,另外关于不同空间关系在局部莫兰指数中的应用,后面在讲案例的时候也会说到。

这里具体说一下最后两个参数:

1、Apply False Discovery Rate(FDR) Correction——官方翻译直接叫做:应用错误发现率 (FDR) 校正。(这里先吐槽一下这个翻译,挖坑待填)

这是一个布尔型参数,我们可以指定在工具运行的时候,评估统计显著性时是否使用 FDR 校正。

如果选中,则统计显著性将以置信度为 95% 的错误发现率校正为基础。

如果不选中(这是默认设置),那么p 值小于 0.05 的要素就直接显示在 COType 字段中了,反映置信度为 95% 的统计显著性聚类或异常值。

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报。

上一篇:R 实操!TCGA数据清洗和差异分析

下一篇:没有了

Powered by 开云体育下载官网ky3g.vip直 @2013-2022 RSS地图 HTML地图

top