前言

我们正面临一个数据快速增长的时代。

数据获取的手段、获取的频度、数据的存储量、数据的类型、存储的方式都以前所未有的速度快速增加,而数据处理的手段和数据理解、利用的方法却相对落后,以至于陷入“信息爆炸”和“信息焦虑”的困境。对于地理空间信息领域来说,现在拥有智能手机的每个人都可以随时获取位置信息,以及位置相关的视频、图像、声音、温湿度、速度、姿态等各种信息,而卫星和无人机等设备获取的空间图像数据更是快速增长,各种物联网传感器也在每时每刻发送大量数据,迫切需要新的信息技术方法来对数据进行处理、分析和利用,为资源利用、环境保护、城市发展、灾难应急等提供有效、及时、准确的支持。

传统的GIS软件以(已知结构的)数据获取、存储、管理功能为主,并添加了各种时间维度和空间维度的专题图展示功能,具有空间统计、地理分区、路径分析、选址优化等空间分析方法,在城市建设、交通运输、气象预测、区域发展、决策支持等方面发挥了非常重要的作用,但总体上来说,仍然以数据的搬运和直接展示为主,缺乏对数据的深度理解和多维度的分析方法。而且,现有的数据管理和分析算法也难以扩展到大规模的分布式并行计算系统之上,无法满足对非结构化的未知数据的探索性分析的需要,无法满足大规模数据快速处理和复杂时空关系的分析需要,无法满足大规模的数据挖掘和高级复杂模型的研究需要,也无法让更多的人参与进来,顺利开展跨领域的交叉性研究工作。

GISpark-地理空间信息分布式计算平台设计为主要满足这类新的需求的平台。GISpark基于最新的虚拟化计算基础设施(如OpenStack/Docker)和分布式计算架构(如Spark/Hadoop)技术构建,集成Anaconda科学计算环境、Jupyter Notebook等数据探索分析工具和GIS的时空数据管理和分析系统,将大规模计算能力运用于时空信息分析,不仅为地理空间信息领域提供大数据处理能力,同时为其他数据应用领域提供强大的时空分析模型和高级空间可视化工具。

这里介绍GISpark的组成、体系架构和详细的部署方式,并通过案例帮助使用者逐步进入时空大数据分析的殿堂,领略数据之美、世界之妙。