本文摘要:摘要:近十年是科学研究从问题驱动向数据驱动转变的转折时期,科学研究的第四范式数据密集型科学发现应势而生。这期间,大数据与人工智能算法的引入使数学地球科学实现跨越式发展,并正在改变地质学。机器学习是使计算机具有智能的根本途径。深度学习,即多层神经
摘要:近十年是科学研究从问题驱动向数据驱动转变的转折时期,科学研究的第四范式—数据密集型科学发现应势而生。这期间,大数据与人工智能算法的引入使数学地球科学实现跨越式发展,并正在改变地质学。机器学习是使计算机具有智能的根本途径。深度学习,即多层神经网络的方法,是一种实现机器学习的技术,是过去几年大数据与数学地球科学研究的最重要的热点。贝叶斯网络是贝叶斯公式和图论结合的产物,可用来建立矿床地质的成因网络,进而理解矿床成因。地质大图形问题可以转化为大型的复杂网络空间问题和社区结构问题,社区分析技术可用于地震预报、地质网络分析、特殊地质现象识别、矿床预测。关联规则和推荐系统算法在地质研究中已有成功的应用实例。化探数据及其异常经常包含复杂和非线性模式,深度学习在智能识别与提取复杂地质条件下地球化学异常具有优异的能力,卷积神经网络、堆叠自编码机等是较为常用和有效的方法。非线性矿产资源预测、基于GIS和三维地质建模的三维成矿预测及相应的软件系统得到持续改进。三维虚拟仿真建模技术的应用实现了多模态、跨尺度地学虚拟现实与多维交互,地质过程数值模拟等已有创新性进展。区块链技术以及OneGeology、玻璃地球、深时数字地球等大地质科学计划,将在整合全球地质大数据、共享全球地学知识、推动数学地球科学学科发展方面起到重大的推动作用。
关键词:地质大数据;深度学习;人工智能算法;区块链;深时数字地球;矿产资源预测;数学地球科学
0引言
最近十年,数学地球科学的最显著发展是大数据与人工智能算法的引入。可以说,地质大数据与人工智能时代已经在这期间开启。地质数据以指数形式增长,这是不容忽视的现实。基础地质、矿产地质、水文地质、工程地质、环境地质、灾害地质调查、勘查,产生大量的数据。各类天基、空基对地遥感观测,更产生了大量的数据。图件编绘、分析计算、模拟仿真、预测评价、管控调控,同样产生大量的数据。
科学论文投稿刊物:地球科学进展是在1986年创刊,成立至今已经发展成为综合性学术性刊物。曾用名《地球科学信息》。杂志评述国内外地球科学最新研究进展,介绍全球变化的研究、可持续发展研究等综合性跨学科重大研究领域发展态势,报道边缘学科、交叉学科最新研究成果,推动高新技术在地球科学领域的应用。
并且这些数据可以是结构化的,如地球化学分析和地球物理探查获得的数据;更多是非结构化的、半结构化的。在现实面前,大数据挖掘和机器学习是地质学科跨越的必须选项。否则,就如同人用腿跟汽车、飞机、火箭赛跑,越往前走,与大数据时代的要求差距越大,最终被先进的工具所被抛弃。尽管依托大数据的人工智能地质学还远不成熟,但已俨然成为这个时代的绚丽浪花。最近几年,国际数学地球科学协会、国际数字地球学会、中国地质学会、中国矿物岩石地球化学学会每届年会都有专题和较大篇幅的主题报告涉及地质大数据和人工智能分析。
2016年,中国矿物岩石地球化学学会大数据与数学地球科学专业委员会正式成立,这是一个里程碑的事件。大数据专委会自成立以来,坚持每年召开一次“中国大数据与数学地球科学学术讨论会”,而且与会人数逐年增加,同时专委会还相继在《岩石学报》《地学前缘》《大地构造与成矿学》《地质通报》《矿物岩石地球化学通报》组织专辑,介绍地质大数据分析与机器学习的探索性研究成果。2018年,周永章所著的《地球科学大数据挖掘与机器学习》出版,这是国内外相同领域首部研究型教材,它启迪一代新人,引领他们更多关注和投身地质大数据和人工智能研究(翟明国,2018;Jiaoetal.,2018)。本文试图对最近十年地质大数据与人工智能领域的研究做一粗略回顾,不可能系统和全面。作者期望读者能从中窥视到大数据与人工智能的价值,引发对地质大数据与人工智能发展的思考。
1深度学习与人工智能地质学
1.1机器学习、深度学习
机器学习被认为是人工智能的核心,是使计算机具有智能的根本途径。深度学习是机器学习的子集,即多层神经网络的方法,是一种实现机器学习的技术,是过去几年大数据与数学地球科学研究的最重要热点之一。2006年,加拿大多伦多大学GeoffreyHinton和RuslanSalakhutdinov在Science上发表论文,开启了深度学习在学术界和工业界的浪潮(Hintonetal.,2006,2012;Lakeetal.,2015;LeCunetal.,2015;Schmidhuber,2015;Karpatneetal.,2019)。
此前,美国心理学家McCulloch和数学家Pitts联合提出了形式神经元的数学模型———MP模型,证明了单个神经元能执行逻辑功能,从而开创了人工神经网络研究时代。由于超大规模集成电路、脑科学、生物学、光学的迅速发展,人工神经网络的发展进入兴盛期。在分类与预测中,δ学习规则(误差校正学习算法)是使用最广泛的一种,但在人工神经网络的发展过程中,没有一种特定的学习算法适用于所有的网络结构和具体问题。Hinton和RuslanSalakhutdinov倡导的深度学习概念源于人工神经网络的研究,可以理解为神经网络的发展,其实质是通过构建具有很多隐层的机器学习模型和海量的训练数据,来学习更有用的特征,从而最终提升分类或预测的准确性。
“深度模型”是手段,“特征学习”是目的。被用于图像识别和语音分析。在地质领域,徐述腾和周永章(2018)以吉林夹皮沟金矿和河北石湖金矿的黄铁矿、黄铜矿、方铅矿、闪锌矿等硫化物矿物为例,设计了有针对性的Unet卷积神经网络模型,实现了基于深度学习算法的镜下矿石矿物自动识别与分类。在Unet模型结构中一共涉及到五种操作。其中紫色向右箭头为3×3卷积操作(conv3×3)和欧拉激活函数(ReLU)转换;灰色向右箭头为图像复制(copy)和截取(crop)操作;红色向下箭头表示2×2的最大池化(maxpool2×2),绿色向上箭头表示2×2的上卷积(up-conv2×2),蓝色箭头表示1×1的卷积(conv1×1)。
2大数据挖掘
2.1高维数据
真实的世界是一个高维空间的世界。如何快速、有效地从高维空间获得有价值的信息或发现相关目标,一直是科学家研究的目标。高维特征集合存在以下几方面问题:大量的特征;存在许多与类别仅有微弱相关度的特征;特征相互之间存在强烈的相关度;噪声数据。解决这些问题的基本途径是降维(dimensionreduction),从初始高维特征集合中选出低维特征集合,以有效地消除无关和冗余特征,改善预测精确性等学习性能,增强学习结果的易理解性。聚类分析、主成分分析等多元统计分析方法仍然是较常用的数学降维工具(Leskovecetal.,2014)。
子空间聚类是实现高维数据集聚类的有效途径,它是在高维数据空间中对传统聚类算法的一种扩展,其思想是将搜索局部化在相关维中进行。此外,还有哈希算法等。它将任意长度的二进制值映射为较短的固定长度的二进制值(哈希值)。哈希函数可以将任意长度的输入经过变化以后得到固定长度的输出,这种单向特征和输出数据长度固定的特征使得它可以生成消息或者数据。
3地球化学异常识别与提取
全球已积累了海量的岩石地球化学数据,并建立了多个相关的数据库,如GEOROC-大陆和海洋岩石的地球化学数据库、PetDB-海底岩石学数据库、SedDB-沉积岩成分分析数据库、NAVDAT-北美火成岩成分分析数据库和Geochron-地质年代学数据库等。复杂地质条件下地球化学异常的识别与提取是地质大数据和人工智能算法研究应用的热点领域之一(CarranzaandLaborte,2015;AryafarandMoeini,2017)。
目前在地球化学研究中应用的算法主要包括神经网络、支持向量机、随机森林、决策树、极限学习机等(TahmasebiandHezarkhani,2012;Izadietal.,2013;Chenetal.,2014;Rodriguez-Galianoetal.,2014;CarranzaandLaborte,2015;HarrisandGrunsky,2015;Geranianetal.,2016;ChenandWu,2017;Yuetal.,2019;Zuoetal.,2019;余晓彤等,2019;陈丽蓉,2019)。机器学习的各种算法不仅能够处理大量的与矿产预测相关的证据图层,还具有识别已知矿床与证据图层之间非线性关系的潜力(Rodriguez-Galianoetal.,2015;向杰等,2019)。复杂化探数据及其异常经常包含复杂和非线性模式,深度学习在智能识别与提取复杂地质条件下的地球化学异常具有优异的能力。从已发表的文献可见,卷积神经网络是较为常用和有效的方法(刘艳鹏等,2018;周永章等,2018b;左仁广,2019)。
这些深度学习方法将输入的数据映射到少数深层次特征中,有利于保留与复杂地质过程及其相互作用有关的深层次结构表征,最终达到提高异常识别的效果。在传统地球化学研究中,利用Pearce图解和判别岩石的构造源区是流行的方法(Pearceetal.,1984;Vermaetal.,2006;Vermeesch,2006;赵振华,2007)。但受时代、研究区域、研究思路以及研究手段、分析技术、样本数量的限制,导致部分研究中经常出现一些困惑。大数据思维为研究岩石构造判别提供了新的思维模式:由理论驱动转变为数字驱动(张旗和周永章,2018;葛粲等,2019),成功的案例如:利用GEOROC数据库数据判别辉长岩、玄武岩、安山岩的构造环境等(杜雪亮等,2017;王金荣等,2017;韩帅等,2018;焦守涛等,2018;张旗等,2019;刘欣雨等,2019;耿厅等,2019)。
4矿产资源预测与评价
4.1非线性矿产资源预测
国际地科联IGCP98计划曾推出6种矿产资源定量预测评价方法,包括矿床统计预测理论及方法(Agterberg)、“三部式”资源评价法(Singer)、基于GIS的矿产资源评价(Bonham-Carter)、综合信息预测(王世称等,2000)、致矿异常预测与“三联式”预测(赵鹏大,2007)、非线性成矿预测(成秋明,2007)等。分形、多重分形理论所提供的尺度不变性、广义自相似性及奇异性等概念和相关模型,可以较好地描述成矿过程的奇异性、成矿元素分布不均匀性及矿床空间聚散性等成矿复杂系统和矿产资源分布规律,是定量模拟、识别与提取复杂成矿异常方法之一(Chengetal.,1994;Zhouetal.,1994;成秋明,2007;赵鹏大和夏庆霖,2009;Agterberg,2014)。这是中国和国际数学地质界对非线性矿产资源预测研究的重大贡献。这一领域的研究始于20世纪90年代,初步成熟于21世纪初期,在最近十年仍有显著发展。
上述对数学地球科学的简略回顾,尽管不是很全面,但足以看到,最近十年是数学地球科学跨越发展的时期,大数据、人工智能算法正在改变地质学。这种改变契合了数据密集型科学的出现,科学研究从问题驱动向数据驱动转变的转折时期。大数据挖掘和机器学习代表了科学研究范式的变革。梳理科学发展纹理可见,人类经历过四次重要的范式变革:第一范式的核心是归纳法;第二范式的核心是以演绎法理性为主;第三范式主要针对复杂性系统进行模拟;对大数据的有效分析泽成为当前第四范式的主要诉求,它形成了科学研究的第四范式。
大数据是一种思维和认知论的革命,它开启了一次重大的时代转型,因果关系不再是研究的必要前提。大数据挖掘特别适合于窥探具有高维度、全维度空间的现实世界。关联性思维作为大数据的核心思维之一,它可以从很多看似支离破碎的信息中复原一个事物的全貌,并进而能够预测或判断出尚未观察到的事物的现象。大数据思维和大数据挖掘算法在地球资源、环境、灾害中的应用将是未来相当一个时期内数学地球科学的主要发展方向。
参考文献(References):
AfzalP,AlghalandisYF,KhakzadA,MoarefvandP,OmranNR.2011.DelineationofmineralizationzonesinporphyryCudepositsbyfractalconcentration-volumemodeling.JournalofGeochemicalExploration,108(3):220-232
AgrawalR,SrikantR.1994.Fastalgorithmsforminingassociationrules.In:Proceedingsofthe20thVLDBConference.Santiago,Chile,487-499AgterbergF.2014.
Geomathematics:Theoreticalfoundations,applicationsandfuturedevelopments.Switzerland:SpringerAllardD,ComunianA,RenardP.2012.
Probabilityaggregationmethodsingeoscience.MathematicalGeosciences,44(5):545-581AryafarA,MoeiniH.2017.
ApplicationofcontinuousrestrictedBoltzmannmachinetodetectmultivariateanomaliesfromstreamsedimentgeochemicaldata,Korit,EastofIran.JournalofMiningandEnvironment,8(4):673-682
BagasL,XiaoKY,MarkJ,LiN.2017.QuantitativeassessmentofChina’smineralresourcesPart1.OreGeologyReviews,91:1081-1083
作者:周永章1,左仁广2,刘刚2,袁峰3,毛先成4,郭艳军5,肖凡1,廖杰1,刘艳鹏1
转载请注明来自发表学术论文网:http://www.fbxslw.com/jzlw/26410.html