分布式GIS篇-轻松实现全球耕地数据高效管理与高性能分析——海量影像数据管理与分析最佳实施方案

发布时间:2020 年 11 月 30 日   文/大数据与AI研发中心 王丽莉
导读:超图SuperMap GIS 10i(2020)推出地理处理建模应用,带来空间数据处理的新模式,其以数据管理、传统空间分析、分布式分析等众多地理处理工具为支撑,业务流完全可以通过工具以流程化的形式搭建,无需编写代码,业务模型也更具应变能力。

  食为政首,地为粮本 —— 耕地是粮食安全的生命线,耕地也因此成为我国最重要的土地利用类型,准确掌握耕地的数量、分布、质量及变化态势对服务于国家决策与管理具有战略指导意义。

  随着遥感成像技术的提升以及耕地数据提取精度的提高,高精度、高质量、长时序、大范围耕地影像的获得愈加便捷,为耕地资源的可持续管理提供了丰厚的数据储备,然而,如何将庞大的耕地影像管理和应用起来,是自然资源和农业等部门面临的难题。

  探寻最佳实践方案

  • 分布式 GIS 技术体系

  海量耕地影像应用的瓶颈归根结底是数据管理效率和分析处理性能,这也是不同行业内海量影像数据应用所面临的共性问题。对此,超图研发的大数据GIS技术就已经具备了应对能力,其中,镶嵌数据集技术是目前能够高效管理海量影像数据的“免入库”最佳方案,它能管理多种格式( .tif 和 .img)的影像文件,影像文件可以来源于本地存储、FTP服务器、HDFS分布式文件存储系统、NAS网络存储,还可以来源于华为云、阿里云等云服务;而基于Spark框架的高性能分布式分析技术,能够完成海量影像的全量高效计算。

  •更加便捷的实施手段

  基于上述分布式GIS技术思路,之前的实施方案是在桌面软件中完成影像“入库”到镶嵌数据集,进而高效管理海量影像;像数据的分布式分析,则需要利用SuperMap iObjects Java for

  Spark 组件编写开发代码实现,而这对数据处理人员来说门槛太高,如若遇到业务处理流程的微调,原有分析代码的复用率也较低,因此,急需一种简单、高效的手段更好地推进分布式GIS技术支撑下的影像分析方案的实施。

  本着“急用户之所急,想用户之所想”,超图SuperMap GIS 10i(2020)推出地理处理建模应用,带来空间数据处理的新模式,其以数据管理、传统空间分析、分布式分析等众多地理处理工具为支撑,业务流完全可以通过工具以流程化的形式搭建,无需编写代码,业务模型也更具应变能力。超图的SuperMap iServer和SuperMap iDesktopX产品都提供了地理处理建模能力,且两个产品的模型构建成果互通,使得业务模型可同时适应B/S和C/S架构的应用模式。

  下面以全球30米分辨率的耕地影像数据为例,邀您体验由地理处理建模带来的极其便捷的海量影像管理和分析方案实践。

  最佳实践方案

  首先,介绍一下本文的示例数据,来自清华大学研制的FROMGLC产品,其提供了全球30米分辨率耕地影像的免费下载。

表格1 耕地质量分析模型

  • 全球耕地数据的管理与发布

  超图的地理处理建模提供了丰富、全面的基于镶嵌数据集的影像管理工具,按照图 1所示的海量影像管理、制图和发布的一般流程,本文选择所需的工具,然后进行简单的连接组合,即完成了该处理流程的搭建,如图2所示,该模型不仅适用于本示例的全球耕地影像,还通用于任何大规模影像的管理、制图和服务发布的业务流程。

图 1 海量影像管理、制图、发布的一般流程

 

图2 耕地数据管理、制图和发布的地理处理模型

  图2的模型的第一部分是将全球耕地影像加载到镶嵌数据集中,可以通过文件夹或文件列表的方式批量添加,并且添加为多进程执行,完全有能力支撑超大规模的影像高效添加到镶嵌数据集中管理。

  模型的第二部分是对镶嵌数据集的优化处理,以便获得更优的地图浏览体验。若您对优化内容完全不知,也无妨,通过“检查镶嵌数据集”工具就能获得待优化的方案,通常,需要优化的项目如下所示:

表格2 优化镶嵌数据集

  模型的第三部分是一个自动制图工具,它架起了连通数据管理和地图服务发布的桥梁,您只需为镶嵌数据集指定一个图层风格模板,即可快速生成影像地图,获得的地图再交由多服务发布工具发布。

  这是一种“免切片”发布地图服务的方式,针对大规模数据量的镶嵌数据集,超图也有高性能绘制技术作为支撑,保证了地图服务浏览的流畅性。

  该模型在GLC全球耕地影像已经存在金字塔时,执行总耗时约3分钟;若包含创建金字塔,执行耗时45分钟。(注:测试环境为Windows10单机8核8线程16GB内存,模型执行使用6进程)由此可见,你将在数分钟后即可掌握一份新的全球耕地格局数据。

图3 全球耕地分布地图服务(基于GLC数据)

  • 全球耕地数据的统计与分析

  超图的地理处理建模全面支持分布式存储与计算,并且提供了强大的空间数据分布式分析工具,同样,也只需通过工具的简单串接,即可获得专业、复杂的分析流程,免去了繁琐的手工分步分析操作。

  为了完成按国界分区统计各国的耕地总量,本文构建了如图4地理处理模型。首先,模型基于全球耕地镶嵌数据集来获得耕地影像文件列表;然后,对接分布式分析工具——“区域指定值数目统计”,结合全球国界矢量面数据,计算得出各国耕地所占像元总数,进而根据影像分辨率获得耕地面积值。

图4 全球耕地按国界区域统计面积模型

  经测试,在6节点*4核*16GB内存的分布式计算环境下,基于30米分辨率的全球耕地影像计算全球耕地总面积,耗时只有3分钟;而按国界的分区统计,耗时也只有44分钟,而传统单机 4 核16G内存环境下,分区统计无法一次完成,只能按国家拆分统计,总耗时约2106分钟,可见,分布式比传统方法性能提升了近50倍。模型执行性能高,一方面是支持分布式计算技术,另一方面是地理处理建模提供了高性能内存缓存机制,使得处理过程中的中间结果不落盘,省去了大部分的磁盘读写时间。

图5 统计全球各国的耕地总面积的计算性能

  除了耕地总量,耕地的变化以及耕地的质量分析也是耕地资源管理极其重要的方面,对此,超图的地理处理建模也提供了专业的分析工具,同样支持高性能的分布式分析能力,保证分析更具时效性。关于如何使用地理处理建模完成耕地变化检测以及耕地质量分析,请参见《大规模土地利用数据处理新手段——高性能的地理处理建模》。

  小结

  本文以全球耕地影像数据为例,应用地理处理建模,通过简单的工具组装,完成基于镶嵌数据集的耕地影像管理、制图、发布服务以及耕地面积的统计分析一套复杂业务流程的构建,并且整个流程可以自动化、高性能、高质量的运行,也达到了影像高效管理与影像高性能分布式分析的无缝对接。这也为行业应用中涉及大规模、多源影像数据的应用提供技术方案的选型参考。

  划重点,地理处理建模简化了空间数据处理操作,大幅提高工作效率,并且模型支持导入导出,方便业务流程的复用、分发和共享;若流程出现变动,只需在原模型的基础上,通过添加 / 删除工具或者引入扩展开发的工具,就可以快速打造出新的业务流。更为关键的是,有了地理处理建模的加持,分布式技术可做到零编码搭建业务模型,使得行业大数据方案的落地变得更加容易。

版权所有© 1997-2019 中国科学院地理信息产业发展中心 《超图通讯》编辑部 京ICP备11032883号-6