面向大规模分析的多源对地观测时空立方体

helloworld_91538976
• 阅读 434

随着对地立体观测体系的建立,遥感大数据不断累积。传统基于文件、景/幅式的影像组织方式,时空基准不够统一,集中式存储不利于大规模并行分析。对地观测大数据分析仍缺乏一套统一的数据模型与基础设施理论。近年来,数据立方体的研究为对地观测领域大数据分析基础设施提供了前景。基于统一的分析就绪型多维数据模型和集成对地观测数据分析功能,可构建一个基于数据立方的对地观测大数据分析基础设施。因此,本文提出了一个面向大规模分析的多源对地观测时空立方体,相较于现有的数据立方体方法,强调多源数据的统一组织、基于云计算的立方体处理模式以及基于人工智能优化的立方体计算。研究有助于构建时空大数据分析的新框架,同时建立与商业智能领域的数据立方体关联,为时空大数据建立统一的时空组织模型,支持大范围、长时序的快速大规模对地观测数据分析。本文在性能上与开源数据立方做了对比,结果证明提出的多源对地观测时空立方体在处理性能上具有明显优势 面向大规模分析的多源对地观测时空立方体 开源数据立方体是由卫星对地观测委员会CEOS(Committee on Earth Observation Satellites)推动的项目,目标是为了降低数据立方构建过程中的技术屏障,提供一种构建数据立方体的开源解决方案(CEOS,2020b)。开源数据立方面向卫星遥感数据,其通过对遥感影像进行重采样、重投影等处理,以瓦片的组织模式将数据纳入到统一的时空基准下进行管理。开源数据立方采用5个简单的数据表并结合JSONB格式来管理瓦片元数据,采用NetCDF格式存储瓦片数据。开源数据立方同样提供了OGC 网络覆盖服务和网络处理服务等接口,并且支持用户在Jupyter Notebook中自定义开发。

地球系统数据立方体是一个面向多源栅格数据的基础设施,该立方体将数据源作为一个维度,将多源栅格数据组织在一个统一分辨率和坐标系统的立方体中,有助于多源栅格数据的联合分析。该立方体主要采用Julia语言进行开发,同时也支持Python和R语言。数据存储方面采用Zarr数据格式在云上存储(https://zarr.readthedocs.io[2020-12-15]),通过文件目录的形式组织。针对每一个立方体实例有一个配置文件,描述了立方体的时空分辨率等信息。用户可通过文件传输FTP(File Transfer Protocol)的方式浏览目录并访问数据,也可通过OGC 网络覆盖服务来获取数据,或通过JupyterNotebook访问并分析数据。

本文提出了一个面向多源数据管理和大规模分析的立方体基础设施GeoCube,相比于已有的立方体方法:(1)GeoCube支持统一时空基准下的多源数据管理,包括栅格数据和矢量数据。基于商业智能领域事实星座模型管理元数据,可灵活扩展支持更多数据源;(2)GeoCube结合瓦片组织模式和云计算优势,支持多源数据的长时序大规模分析;(3)GeoCube引入人工智能领域技术,优化负载均衡性能,提高并行计算效率。

2 方法和设计

本文提出了一个新的地理空间数据立方体。首先,该立方体兼容多源地理空间数据包括栅格和矢量。针对数据特点,为立方体设计了4个维度包括空间、时间、产品以及波段。立方体中数据以空间对齐的方式组织,形成时间序列产品,因而该立方体又称为多源时空立方体。其次,立方体采用云计算技术来支持瓦片的高效处理,提出了一套面向立方体数据的分布式内存对象。目前支持矢量和栅格数据,可扩展支持轨迹等其他数据类型。最后,本文采用人工智能机器学习从数据科学的角度捕捉瓦片的计算特征,优化大规模并行计算过程的负载均衡性能,提高硬件的利用率。

2.1 立方体维度设计

2.1.1 立方体多维组织模型

对地观测数据通常由多维地理空间数据组成,维度包括时空维度以及其他主题维度。本文针对栅格和矢量数据特点,为立方体设计了4个维度如下(图1): 面向大规模分析的多源对地观测时空立方体

点赞
收藏
评论区
推荐文章
GoCoding GoCoding
3年前
Linux 性能相关工具
来自Netflix性能优化大牛BrendanGregg的整理。观测分析测试调优参考
黎明之道 黎明之道
3年前
Pandas统计分析基础(基础篇,新手必看)
Pandas统计分析基础Pandas(PythonDataAnalysisLibrary)是基于NumPy的数据分析模块,它提供了大量标准数据模型和高效操作大型数据集所需的工具,可以说Pandas是使得Pyth
手把手教程 | 5分钟用轻量云主机搭建一个JupyterLab
JupyterLab作为一种基于web的集成开发环境,被称为下一代的JupyterNotebook,你可以使用它编写notebook、操作终端、编辑markdown文本、打开交互模式、查看csv文件及图片等功能,支持Python等多种语言,十分适合做数据分析及可视化工作。随着GPT大模型算法的盛行,数据分析已经从过去传统的人为打标、清洗的运营流程转向更智能、高效、复合的机器学习分析。
Stella981 Stella981
2年前
Flink on YARN部署快速入门指南
Apache Flink是一个高效、分布式、基于Java和Scala(主要是由Java实现)实现的通用大数据分析引擎,它具有分布式MapReduce一类平台的高效性、灵活性和扩展性以及并行数据库查询优化方案,它支持批量和基于流的数据分析,且提供了基于Java和Scala的API。  从Flink官方文档可以知道,目前Flink支持三大部署模式:Loca
Stella981 Stella981
2年前
Hadoop是一种开源的适合大数据的分布式存储和处理的平台
“Hadoop能做什么?”,概括如下:  1)搜索引擎:这也正是DougCutting设计Hadoop的初衷,为了针对大规模的网页快速建立索引;  2)大数据存储:利用Hadoop的分布式存储能力,例如数据备份、数据仓库等;  3)大数据处理:利用Hadoop的分布式处理能力,例如数据挖掘、数据分析等;  4)
Stella981 Stella981
2年前
MapGis如何实现WebGIS分布式大数据存储的
作为解决方案厂商,MapGis是如何实现分布式大数据存储的呢?MapGIS在传统关系型空间数据库引擎MapGISSDE的基础之上,针对地理大数据的特点,构建了MapGISDataStore分布式数据库引擎,其集成整合了多种开源分布式数据库和文件系统,分别用来存储和管理关系型数据,切片型数据,实时型数据和非结构化数据,形成针对地理大数据应用场景相关的解
贾蓁 贾蓁
3个月前
ClickHouse数据库培训实战 (PB级大数据分析平台、大规模分布式集群架构)
ClickHouse数据库培训实战(PB级大数据分析平台、大规模分布式集群架构)download》http://quangneng.com/4215/ClickHouse是一款开源的列式数据库管理系统,特别适用于大规模数据分析。以下是一个可能的ClickH
大数据建模、分析、挖掘技术应用
1.掌握大数据建模分析与使用方法。2.掌握大数据平台技术架构。3.掌握国内外主流的大数据分析与BI商业智能分析解决方案。4.掌握大数据分析在搜索引擎、广告服务推荐、电商数据分析、金融客户分析方面的应用。5.掌握主流的基于大数据Hadoop和Spark、R的大数据分析平台架构和实际应用。6.掌握基于Hadoop大数据平台的数据挖掘和数据仓库分布
helloworld_40038029 helloworld_40038029
10个月前
Spark+ClickHouse实战企业级数据仓库,进军大厂必备
SparkClickHouse实战:实现大数据分析与高速查询随着大数据时代的到来,越来越多的组织、企业和机构开始注重如何管理和利用这些数据。ApacheSpark已经成为了处理大规模数据集的标准工具之一,而ClickHouse则是一种快速、可扩展且强大的列式数据库,能够提供高速的查询性能。本文将介绍如何将Spark和ClickHouse结合起来,以实现大数据分析与高速查询。
专注IP定位 专注IP定位
3个月前
网络空间测绘在安全领域的应用(上)
近年来,网络空间测绘已经跻身为网络通信技术、网络空间安全、地理学等多学科融合的前沿领域。该领域聚焦于构建网络空间信息的“全息地图”,致力于建立面向全球网络的实时观测、准确采样、映射和预测的强大基础设施。通过采用网络探测、数据采集、信息汇聚、深度分析以及可视
helloworld_91538976
helloworld_91538976
Lv1
伤见路旁杨柳春,一重折尽一重新。今年还折去年处,不送去年离别人。
文章
12
粉丝
0
获赞
0