云原生GIS技术篇——云原生的大数据GIS实践

发布时间:2020 年 01 月 15 日  文/云产品研发中心 王伊湋
导读:面对千万/亿量级的数据,如何保证系统稳定运行、如何快速落地、如何加快处理速度、如何节省成本?云原生GIS给出了答案。

  结合云技术的大数据GIS已广泛应用于各个行业,如通信、智慧城市、交通、国土等。随着应用的不断落地,更新的需求也在不断涌现。面对千万/亿量级的数据,如何保证系统稳定运行、如何快速落地、如何加快处理速度、如何节省成本?云原生GIS给出了答案。

  云原生GIS带来了什么?

  云原生GIS为大数据带来了更快、更稳、更智能、更弹性的体验;能有效解决计算资源动态调度、分析中断、存储压力大、环境搭建困难等问题;基于Docker容器、微服务架构以及Kubernetes自动化编排技术,实现节点智能集群、动态伸缩,保证系统稳定高可用;引入分布式空间文件引擎与GIS分布式分析算子,拆分数据存储/计算任务,可动态增加节点加快处理速度,分析后减少节点集约资源;内置分布式计算集群Spark、Hadoop YARN,存储资源HBase、HDFS、PostgreSQL、PostGIS,可一键开启,免环境搭建。

图1 云原生的大数据GIS拓扑图

  大数据GIS实操

  SuperMap云原生GIS主要提供了五个方面的核心技术支持,分别为:空间大数据存储管理、空间大数据接入、空间大数据分析、空间大数据可视化以及空间大数据运维管理。其中,空间大数据存储管理由存储资源提供,空间大数据接入由数据目录服务提供,空间大数据分析由分布式分析服务与计算资源共同提供,空间大数据可视化由GIS门户提供,空间大数据运维管理由SuperMap iManager提供。

图2 云原生GIS大数据分析流程

  一次完整的空间大数据分析,需要存储资源、数据目录服务、计算资源、分布式分析微服务共同完成。首先接入外部(或内置)存储资源,将存储资源注册至数据目录服务;然后添加外部(或内置)计算资源;最后开启分布式分析微服务执行空间大数据分析。

  下面一起看云原生GIS中的空间大数据分析流程:

  ● 注册存储资源

  存储资源为空间大数据分析提供数据存储,支持外接公有云/私有云HBase、PostGIS、PostgreSQL、HDFS目录、OraclePlus以及共享目录,填入服务地址等信息即可完成注册。同时内置了HBase、PostGIS、PostgreSQL、HDFS,可一键开启,系统自动搭建数据存储环境并完成注册。以开启内置HBase环境为例:

  开启内置HBase数据库。进入云原生GIS服务管理界面存储资源池 -> HBase,点击“开启”按钮,等待搭建。

  搭建完成后,点击“控制台”查看HBase环境。内置HBase数据库会自动注册到数据目录服务。

 图3 开启内置HBase数据库

  ● 添加计算资源

  计算资源为空间大数据分析提供分布式计算框架,支持添加外部公有云/私有云计算集群,如阿里云Ganos Spark、X-Pack Spark,华为云FusionInsight等,填入集群地址等信息即可完成添加。同时内置Spark、Hadoop YARN集群,支持一键开启,系统自动搭建集群环境并完成添加。以开启内置Spark环境为例:

  开启内置Spark集群。进入计算资源池 -> Spark集群页面,点击“开启”按钮,等待搭建。

  搭建完成后,点击“控制台”查看Spark环境。Spark-worker节点支持手动/动态伸缩,在计算压力大时增加节点,加快处理速度;压力降低时减少节点,释放资源。

 

 图4 开启内置Spark集群

  ● 开启分布式分析微服务

  分布式分析微服务提供GIS分布式分析算子,可接入分布式存储的地理数据,如HDFS存储的数据、关系型数据、UDB存储的点线面数据,具有强大的空间大数据分析能力,可进行构造区域网格、点聚合分析、密度分析、叠加分析等15种GIS分析。

  开启分布式分析微服务。进入分布式分析服务页面,点击“开启”按钮,计算资源选择内置Spark;高级设置可指定Spark运行内存(默认4G),用户根据资源情况调整,运行内存的大小与运行速度成正比。

  ● 接入数据

  本演示开启的内置HBase数据库环境无任何数据,若您的存储环境已有数据,可忽略本节。

  以UDB数据入库为例,先将数据上传至文件管理器,再通过分布式分析微服务拷贝至HBase数据库。数据上传可在文件管理页面操作,例如传到/data/DemoData目录,可通过数据处理作业服务进行分布式数据入库。进入分布式分析服务页面,点击服务地址下的链接,依次选择jobs->dataprocessing->copyData->创建分析任务,源数据类型为本地UDB文件,源数据所在路径为/data/DemoData,目标数据库类型为HBase,目标数据库为builtin-hbase(内置HBase),点击“创建分析任务”并等待执行。

图5 创建拷贝数据作业

  刷新内置HBase数据库。进入存储资源池->HBase页面,点击“刷新”按钮。

  验证数据。点击“内置HBase”进入HBase详情页面,数据集列表中可看见拷贝成功的数据。

  ● 在数据目录服务查看数据

  数据目录服务提供便捷的数据组织与管理方式,支持管理上千数据集,提供查看、检索数据的入口,包括关系型数据(relationship)、二进制数据(binary)、大数据文件共享数据(sharefile)、机器学习模型数据(mlmodel)、瓦片数据(tiles)和时空大数据(spatiotemporal)。

  查看数据。进入数据目录服务页面,点击服务地址下的链接,依次选择datacatalog ->relationship->datasets,可查看数据库中的数据集列表、数据集信息、字段列表以及字段信息等内容。

  ● 执行分析任务

  以缓冲区分析为例。进入分布式分析服务页面,复制服务地址链接,配置到GIS门户,在数据洞察页面填入源数据集、分析范围等参数,点击“分析”,分析成功后结果会自动发布,并叠加到地图,快速制作美观的分析报告。

  至此,云原生GIS空间大数据分布式分析流程演示完毕。从开启内置HBase数据库到访问地图服务,耗时大概5分钟。全程没有涉及环境搭建、Linux命令等内容,界面点击即可完成,大大降低操作门槛与时间。

  云原生GIS简化了大数据分析流程,降低了技术难度,能更快、更智能地完成分析任务。稳定性方面,服务节点可动态伸缩、自动修复,集群高可用。以一个真实案例作为结尾:某地大数据服务平台建设项目,GIS Server 受云平台影响较大,经常因局部故障导致所有服务不可用。抱着试一试的心态,云原生GIS临危受命。上线后,260+GIS服务实例稳定运行,不受外部云平台影响,支持服务局部升级,无罢工记录。

  图6 云原生的缓冲区分析

 

版权所有© 1997-2019 中国科学院地理信息产业发展中心 《超图通讯》编辑部