地质大数据体系建设初探

(整期优先)网络出版时间:2018-12-22
/ 2

地质大数据体系建设初探

李甲鹏

日照华州工程规划咨询有限公司山东日照262300

摘要:国家基础地质数据是地质调查信息化建设的基础,是反映国家水文环境资源、地质矿产资源、航空物探遥感资源等的现实状况、利用情况、规划布局的主要载体,是地质大调查的核心体现,包括地、物、化、遥等数据。目前,国家地质资料没有形成一个系统、完整的国家地质资料总体,条块分割严重,管理分散,存在“数据孤岛”现象,且数据格式各不相同,主要包括文档、图片、图件、数据库、音频、视频、表格等结构化、半结构化、非结构化数据。地质大数据是大数据时代的变革产物,具有空间性、时间性、综合性、海量性、多源性等特点,大数据特有的存储管理技术,可以满足各种地质数据的应用需求,建设全国地质资料大数据环境。

关键词:大数据;大数据处理技术;地质大数据与地质云;共享;服务

1总体目标与技术思路

1.1总体目标任务

紧密围绕经济社会发展和生态文明建设对地质数据信息的需求,以提供更为全面、权威、及时、便捷的地质数据与信息服务为目标,依托地质调查项目的实施和全国地质资料的汇交,不断丰富地质数据源,开发服务产品,建立地质数据汇聚体系、产品体系和服务体系,建设地质大数据支撑平台(以下简称“地质云”),为地质数据的采集、传输、处理和共享服务提供信息技术支持,提升地质数据与信息社会化服务的深度、广度和水平,提高地质调查工作对经济社会发展的贡献率和社会认知度。

1.2建设技术路线

以地质数据与信息服务为目标,以提升数据采集能力和形成有效的地质数据汇聚体系为基础,以建立地质数据与信息服务体系为抓手,以信息技术为手段,以大数据支撑平台为支撑,以制度标准建设和机制形成为保障,丰富地质数据资源和服务产品,全面提升地质数据信息共享服务的能力和水平。

2大数据处理流程

大数据来源广泛,数据类型和应用处理方法也千差万别,但是总的处理流程是一致的。处理流程基本可划分为:数据采集、数据处理与集成、数据分析和数据解释4个阶段,如图1所示。

大数据处理流程中最基础的一步是数据采集,智能手机以及平板电脑等的出现也加速了信息流通速度和采集速度,目前常用的数据采集手段有射频识别(RFID)、传感器收取、条形码技术以及数据检索分类工具等。数据处理与集成主要是对已经采集到的数据进行清洗去噪以及进一步的集成存储等适当的处理。结构化数据能够使用关系数据库技术来处理。NoSQL数据库具有能支持灵活的结构和非结构化数据、针对大数据体量可扩展性更好等优点,因此,非结构化数据可用NoSQL数据库来处理。大数据处理流程里最核心的部分是数据分析。然而大数据时代数据分析的需求远远超越数据挖掘、数理统计、机器学习、智能算法等传统的数据处理分析方法的范畴。采用并行架构或者分布式架构来提高系统的扩展性已经成为必然,包括分布式文件系统GFS、批处理技术MapReduce,以及分布式数据库BigTable等。

3大数据的关键技术

3.1云计算和MapReduce

云计算是一种基于互联网的计算方式,通过这种方式共享的软硬件资源和信息可以按需求提供给计算机和其他设备[8],主要包括通过互联网来提供虚拟化的、动态易扩展的资源。云计算是大数据分析应用的基础平台,也是大数据分析处理技术的核心原理。分为三个层次的服务(图2):IaaS(基础设施即服务),PaaS(平台即服务)和SaaS(软件即服务)。SaaS构建于PaaS之上,PaaS构建于IaaS之上,各层相对独立,面向不同用户提供不同的服务,每层的服务和产品直接依赖于其下一层所提供的资源和技术支持。MapReduce是一个利用集群资源,以高并行度处理大数据集、支持非结构化大数据分析的分布式编程模型。系统由Map和Reduce两部分组成,每一个Map操作相对独立,所有的Map可以并行运行;Reduce依赖于Map的计算输出,Reduce操作也相对独立。Map用来遍历并划分输入数据,以Key-Value对的方式输出,这些中间数据以Key的取值聚集到不同的Reducer上,执行Reduce操作产生计算结果。

3.2分布式文件系统

分布式文件系统有效的解决数据的存储和管理难题,将存储于某个地点的单个文件系统,扩展到多个地点或多个文件系统,多节点形成一个文件系统网络。且每个节点可以分布在任意不同的地点,节点间的数据传输和通信通过网络进行。运用master/slave存储技术,将集群内的节点分成为2类,一类用来存放文件信息,一类用来存放文件的元数据信息[9]。使用分布式文件系统时,只需像使用本地文件系统一样管理和存储文件系统中的数据,无需关心数据是从哪个节点获取的或者存储在哪个节点上。

3.3分布式并行数据库

从数据源获得的原始数据存储在分布式文件系统中,而用户习惯于从数据库中存取文件,但是传统的关系型分布式数据库不能处理非结构化数据、难以进行横向扩展、扩展存在极限等,因此,非关系型数据库NoSQL应运而生。NoSQL数据库数据结构简单、不需要数据库结构定义、不对数据一致性进行严格保证,以及通过横向扩展可实现很高的扩展性。

3.4开源实现平台

HadoopHadoop是一种用来分布式处理大规模数据的以开源形式发布的技术,是一个包括分布式文件系统、分布式数据库以及数据分析处理等功能模块在内的完整生态系统,Hadoop处理大数据时代的非结构化数据,有三方面的优势:(1)性能方面;(2)成本方面;(3)横向扩展进行扩容相对容易。

3.5大数据可视化

大数据时代,可视化技术作为发现数据中所包含的信息或者知识的有效手段之一,是大数据生命周期管理的最后一步,也是最重要的一步。大数据可视化技术通过图像处理技术和计算机图形学,将数据以图形或图像的形式在屏幕上显示出来,同时可进行交互处理。

4基于大数据的地质信息服务系统的构建

4.1地质信息特点与数据资源的整合

地质数据具有多源、异构、随机性、不确定性、非线性等特点,同时,地质数据空间时间跨度大,获取难度大、成本高、地质体空间几何形态的千变万化尤其是不连续性及多值面的地质现象、观测的抽样性等。地质空间大数据的整合就是对数据的一致性进行处理。针对空间数据的不同特征需研制不同的技术、方法:空间数据模型的检索、匹配、表达、应用技术用来解决时空属性;通过语义信息获取有效地质知识来掌握地学领域本体研究;开展分布式多元数据的组织机制和汇聚模型,能有效地解决地质数据的海量、多源、异构的特点;构建地质资源网络高速传输、信息高度共享和功能高效管理的资源交流机制来应对各独立系统在区域性、时效性方面的限制。

4.2地质云

地质云是创新“地质调查+互联网”工作模式的基础平台,是大数据的支撑平台,基于地质调查内网和地质调查外网,为地质数据的系统形成提供信息技术支持,主要体现在地质数据采集、传输、处理以及之后的业务管理和共享服务,在“数据需求”的指引下,将数据转化为实用信息得以实现,并产生一系列良性循环:有用信息集成为一个知识体系,知识体系形成产品,产品发布并形成共享等服务,在产品的应用与共享服务中又将产生新的数据,利用大数据分析方法(数据挖掘等)从中提取有用的信息,构成“数据链”,并形成循环(图3)

“地质云”业务架构包括“1个平台”“2张网”以及“1+X云中心”[13]。基于一个统一平台,在同一标准下实现各种资源的统一管理及地质数据的汇集;2张网指“地质业务网”和“地质互联网”,地质业务网为物理隔离的网络,所有的数据、对内业务管理系统、软件系统均部署在内网上;依托公共网络建设地质调查外网;“1+X云中心”包括新建设云中心、已建设数据中心两种类型,两者通过云管理系统进行对接和共享,新建设云中心与已建设数据中心使用光纤互联。地质云构建涉及到的关键技术包括结构化与非结构化数据的混合存储与管理、非结构化数据的信息提取与挖掘分析、大数据共享平台以及可视化等。

结论

(1)大数据时代需提升知识服务水平,加强地质数据的共享与交换,服务国家建设与社会经济发展,地质信息服务迎来了新的发展机遇。

(2)“地质云”大大减少各生产单位的重复建设及运行成本,实现地质数据、信息化基础设施和公用软件的集中和共享,挖掘非结构化数据的新数据信息,探索以需求带动的地质核心数据的应用。

(3)地质大数据体系以数据为核心建设内容,在快速实现数据采集及有效汇聚的基础上,最终是为了推进地质数据集成与信息服务。

参考文献:

[1]李胜强.国土资源基础数据库整合与集成建库模式与实现[J].国土资源信息化,2005(3):9-14.

[2]张翠光,冯艳芳,侯荣玖.关于制定国家基础地质数据采集、更新与发布管理方法的初步研究[J].国土资源情报,2009(2):14-17.