Spatial Clustering Overview and Comparison: Accuracy, Sensitivity, and Computational Expenseстатья из журнала
Аннотация: AbstractCluster analysis continues to be an important exploratory technique in scientific inquiry. It is used widely in geography, public health, criminology, ecology, and many other fields. Spatial cluster detection is driven by geographic information corresponding to the location of activities, requiring appropriate and meaningful treatment of space and spatial relationships combined with observed attributes of location and events. To date, this has meant utilizing dedicated measures and techniques to structure and account for distance, neighbors, contiguity, irregular geographic morphology, and so on. Unfortunately, all spatial clustering approaches, regardless of their theoretical underpinning, statistical foundation, or mathematical specification, have limitations in accuracy, sensitivity, and the computational effort required for identifying clusters. As a result, a major challenge in practice is determining which technique(s) will provide the most meaningful insights for a particular substantive issue or planning context. The purpose of this article is to provide an overview and evaluation of spatial clustering techniques, identifying the strengths and weaknesses of the most widely applied approaches. Results suggest that performance varies significantly in terms of accuracy, sensitivity, and computational expense. This is noteworthy because the misidentification of clusters, whether false positives or false negatives, has the potential to bias not only hypothesis formulation but also pragmatic facets of policy, process, and planning efforts within a region.群聚分析持续做为科学提问中重要的探究工具,并广泛应用于地理学、公共健康、犯罪学、生态学及其他诸多领域。侦测空间群聚,由呼应活动地点的地理信息所驱动,并需要适当且有意义地处理结合观察到的地理及活动特徵的空间及空间关係。迄今,这便意味着运用专门的方法和技术,结构并解释距离、邻近物、连续性、不规则的地理形态,以及其他。不幸的是,所有的空间群聚方法,不论其理论支撑、统计基础或数学上的特殊性,在指认群聚时所需的精确度、敏感性,以及计算的努力方面却具有限制。因此,实作中的主要挑战,便是决定何种工具能够对特定的具体议题或规划脉络,提供最具有意义的洞见。本文的目的便是提供空间群聚技术的概要与评估,指认最被广泛应用的方法的优劣之处。研究结果显示,在精确度、敏感性以及计算支出各方面的表现具有显着的差异。此般差异相当值得注意, 因为错误指认群聚, 不论是正向错误或负面错误, 皆有可能造成不仅是假说构成的偏颇, 亦可能导致一区域内的政策、进程及规划成果之实务面向的偏颇。El análisis de conglomerados [análisis de clusters] sigue siendo una importante técnica exploratoria en investigación científica. Se le emplea ampliamente en geografía, salud pública, criminología, ecología y en muchos otros campos. La detección de la aglomeración espacial está controlada por la información geográfica correspondiente a la localización de las actividades, lo cual requiere un tratamiento apropiado y significativo del espacio y de las relaciones espaciales combinadas con atributos observados de localización y eventos. Hasta el momento presente, esto implica la utilización de mediciones y técnicas especiales para estructurar y tomar en cuenta cosas como distancia, vecinos, contigüidad, morfología geográfica irregular y demás. Infortunadamente, todos los enfoques sobre aglomeraciones espaciales, sin consideración a sus bases teóricas, fundamentación estadística, o especificación matemática, adolecen de limitaciones en exactitud, sensibilidad y en el esfuerzo computacional que se necesita para identificar los conglomerados. Como resultado, en la práctica un reto mayor es determinar qué técnica o técnicas rendirán más para un asunto sustantivo particular o un contexto de planificación. El propósito de este artículo es proporcionar una mirada de conjunto y evaluación de técnicas de aglomeración espacial, identificando las fortalezas y debilidades de los enfoques más frecuentemente utilizados. Los resultados sugieren que los desempeños varían significativamente en términos de exactitud, sensibilidad y costo computacional. Esto es digno de notar debido a que la identificación equivocada de conglomerados, bien por falsos positivos o por falsos negativos, tiene el potencial de viciar no solo la formulación de hipótesis sino también las facetas pragmáticas de políticas, procesos y esfuerzos de planificación dentro de una región determinada.Key Words: cluster analysishot spotsknowledge discoverymethod selectionscale关键词:: 群聚分析热点知识发现方法选择尺度Palabras clave: análisis de conglomeradospuntos calientesdescubrimiento de conocimientoselección de métodoescala Notes1 One freely available tool that helps analysts determine which spatial clustering tests are appropriate for a given data set is the ClusterSeer Advisor (see http://tinyurl.com/kr5yyjj).2 Expected patterns typically correspond to a statistical distribution, such as Poisson.3 In this case, x is a weighted value taken from variable X. For more details on the formulation of the spatial autocorrelation statistics, see Appendix A.4 This is also considered a Type II error.5 This is also considered a Type I error.6 Tests were also conducted for GAScan for a single cluster, but the results were not reported in Figures 5 through 7 because this approach can only generate a single cluster. Its performance was quite good, with F-measure scores over 92 percent for each scenario in the synthetic data.7 Zero-risk units are block groups without any assaults. The inclusion of these units dilutes LLR values and can lead to a spatial misinterpretation of assaultive risk.
Год издания: 2014
Авторы: Tony H. Grubesic, Ran Wei, Alan T. Murray
Издательство: American Association of Geographers
Источник: Annals of the Association of American Geographers
Ключевые слова: Data-Driven Disease Surveillance, Human Mobility and Location-Based Analysis, Spatial and Panel Data Analysis
Открытый доступ: closed
Том: 104
Выпуск: 6
Страницы: 1134–1156