本文摘要:摘要智慧气象和精准农业结合下的现代农业气象工作意味着对包含遥感影像在内的大型农业和气象数据高时效性的分析与处理,机器学习技术是当代自然科学研究和技术发展的主流技术,亦是现代农业气象科研和业务发展的重要工具。该文系统论述了机器学习技术的主要
摘要智慧气象和精准农业结合下的现代农业气象工作意味着对包含遥感影像在内的大型农业和气象数据高时效性的分析与处理,机器学习技术是当代自然科学研究和技术发展的主流技术,亦是现代农业气象科研和业务发展的重要工具。该文系统论述了机器学习技术的主要方法及其在现代农业气象中的主要应用方向,比较了不同方法在农业气象不同领域应用的情况,侧重介绍了基于深度学习技术的成果和近年来的最新研究进展。传统浅层机器学习技术中,以支持向量机和人工神经网络应用最为广泛且效果最为理想。近年来,随机森林和梯度提升机等决策树集成方法普遍取得优于核方法的精度,深度学习技术则在某些任务中取得更优于集成学习的精度。未来,有待检验机器学习技术特别是深度学习技术在更多农业气象问题上的适用性和先进性,更好地迎接现代农业气象发展的新挑战与新机遇。
关键词:机器学习;深度学习;农业气象;农业遥感
引言
农业在全球经济中发挥着基础性且至关重要的作用,国家和地区农业生产力高低直接影响其工业化程度与经济水平,落后的农业技术会带来饥饿、贫穷与社会发展的滞后[1]。到2050年,全球将新增20亿左右人口[2],加之气候变化对农业生产的影响[3],使得消除饥饿和保障粮食安全成为当今世界可持续发展的重要议题[4],农业技术的进步可有力应对该挑战[5]。精准农业被列为农业领域的十大发展之一[6],其特点是应用密集的数据———以遥感技术[7]和无线传感器技术[8]为主要手段采集信息并进行时空处理,提高农业生产效率、作物产量和环境质量。农业气象学是研究农业生产与气象条件之间相互关系及其规律的科学,以促进农业生产为主旨,围绕现代气象与现代农业的智慧化进程也在不断进行着自身的科学创新,智慧气象和精准农业结合下的现代农业气象工作意味着对纳入遥感可视化数据在内的大型农业和气象数据高时效性的分析与处理[9],机器学习(machinelearning,ML)技术对其发展有很大的助力。
农业论文投稿刊物:《现代农业科学》本刊内容分为三部分,第一部分是农业科学,相关栏目设置有:畜牧兽医、生物技术、资源与环境、园林科学、食品加工、水产养殖、植物保护、生态农业;第二部分是农业教育教学,相关栏目设置有:教育教学管理、教育发展研究、高校领导论坛、比较教育、学生工作;第三部分是三农问题研究。
ML是图像处理和大数据分析不可或缺的技术,广泛应用于医学、药学、经济学、生物学、水文学、农业气象学等诸多科学领域[1013]。深度学习(deeplearning,DL)和浅层学习中的梯度提升机(gradientboostingmachine,GBM)是当前最受瞩目的两项ML技术,其中DL结构中最著名的卷积神经网络(convolutionneuralnetwork,CNN)自2012年起已成为计算机视觉任务的首选解决方案[14]。现代农业气象研究不仅涉及大量气象数据、土壤数据、作物观测数据,也涉及到农业遥感中采集自地面、无人机、卫星的海量影像数据,DL技术的特点及其在机器视觉领域的优势使其在现代农业气象工作中具有很大的应用潜力[15]。本文对ML技术的主要方法及其在现代农业气象中尤其是涉及农业遥感的应用进行系统性介绍。由于所涉及的文献众多,侧重列举代表性文献,对其研究成果进行概要介绍,且重点列举出DL技术的应用实例,旨在推动ML技术特别是DL技术在现代农业气象科研与业务中的深入应用。
1ML技术概述
ML技术蓬勃发展于20世纪90年代,是人工智能(artificialintelligence,AI)中最受欢迎和最成功的子领域。ArthurSamuel将ML定义为一门不需要通过外部程序指令而让计算机具有自我学习能力的学科。在传统编程中,人类输入规则和需要规则处理的数据,计算机输出答案;而在ML技术中,人类输入数据和期望从数据中得到的答案,计算机通过训练找到数据和答案间的统计结构、输出规则,并将这些规则应用于该任务的新数据进而生成答案[14]。
ML技术与经典统计分析的一项重要区别是ML技术倾向于处理大型、复杂的数据集,以及没有已知算法可解决的问题。将ML技术用于大数据挖掘可以适应新的数据,发现数据中隐含的模式,减少人工分析工作量,更好地处理解并解决传统方法难以应对的复杂问题[16]。ML技术是一个日益庞大的家族,其包含的众多算法与模型可根据不同标准进行归类。其中一种广泛使用的分类方法是根据训练过程中得到的监督的数量和类型,将其分为监督学习、非监督学习、半监督学习和强化学习[16]。
在监督学习中,需要人工为训练数据加标签(即明确的属性标识),其代表性方法包括线性回归(linearregression)、逻辑回归(logisticregression)、朴素贝叶斯(navebayes)、高斯判别(gaussiandiscriminantanalysis,GDA)、支持向量机(supportvectormachine,SVM)、神经网络(neuralnetwork,NN)、K最邻近法(KNearestneighbor,KNN)、决策树(decisiontrees,DTs)、随机森林(randomforest,RF)和梯度提升机等;在非监督学习中,训练数据则不加标签,其主要方法包括以期望最大化算法(expectationmaximization)、分层聚类分析(hierarchicalclusteranalysis,HCA)、K均值法(Kmeans)为代表的聚类方法,以主成分分析(principalcomponentanalysis,PCA)和局部线性嵌入算法(locallylinearembedding,LLE)为代表的降维算法,以及Apriori,FPGrowth,Eclat等关联规则学习算法;在半监督学习中,仅需为少量训练数据加标签,或为训练数据加不确定性标签,其重要方法包括拉普拉斯支持向量机(laplacianSVM)、协同过滤算法(collaborativefiltering),以及贝叶斯网络(bayesiannetwork)、马尔科夫随机场(markovrandomfiled)等概率图模型;在强化学习中,不需要预先给定训练数据,而是通过接收环境对动作的反馈获得学习信息,代表性算法包括策略梯度(policygradient,PG)、Q学习(Qlearning)、深度Q网络(deepQnetwork)、Sarsa算法等[1720]。
DL技术是ML技术的一个子领域,代表着一类思想,即以多层结构从数据中学习表示(representation),其结构通常包含数十个乃至上百个连续的表示层。DL技术起源于神经网络,在神经网络基础上增加了层级,可自动提取复杂特征,近年来,DL技术以其更高精度和更优性能,在诸多应用领域已经取代了以往支持向量机和集成学习的领先地位[14]。
DL技术较经典ML技术的优势主要体现在以下几方面:①DL技术完全自动化了浅层ML技术的关键步骤———特征工程,对使用者更为简单、友好;②DL技术具有深层非线性网络结构,采用递增的、逐层的方式开发愈加复杂的特征,具有更强的学习能力,有助于解决浅层ML技术难以解决的复杂问题,并可进行迁移学习;③DL技术可以一次性学习所有特征,并持续在线学习,具有实时运算能力[2123]。DL的基本模型包括卷积神经网络、深度信念网络(deepbeliefnetwork,DBN)、循环神经网络(reccurentneuralnetwork,RNN)、深度自动编码器(deepautoencoder,DA)、递归神经网络(recursiveneuralnetwork,RNN)等。
2ML技术在农业气象工作中的应用
2.1制图与区划
土地覆盖与作物类型图是农业气象工作的重要基础数据之一。过去的十几年中,随着遥感数据时空分辨率不断提高,以及大量丰富的免费数据源向公众开放,将遥感影像用于土地覆盖与作物类型分类制图方面的研究呈指数增长,ML技术中多种经典算法、模型已成功应用于该类任务[2426],根据Yu等[27]的统计,最大似然分类法使用频率最高,相关文献中应用比例达32.34%,最大似然分类法和K最邻近法、K均值法等也是文献中平均精度较低的方法,分类精度较高的方法则是集成分类器、人工神经网络和支持向量机。
Khatami等[28]进一步统计分析了既往研究,指出传统监督分类方法中支持向量机平均精度最高,紧随其后的是人工神经网络,且当影像空间分辨率和光谱分辨率提高时,支持向量机表现出较人工神经网络更大的优势。此外,ML技术在作物管理区的划分方面已有成功应用的例子,Pantazi等[29]利用K均值法和自组织映射结合遥感数据、土壤参数和产量数据进行了作物管理分区,进一步看,农业气候区划(如农作物品质气候区划)、农业气象灾害风险区划、农业保险风险区划[3031]等是农业气象工作的重要任务,有待有针对性地将ML技术应用于区划工作。近年来,最受欢迎和最具效率的多源多时相遥感影像土地覆盖与作物制图方法是集成学习和DL技术[32]。
针对复杂地区的分类问题,集成学习的经典算法随机森林的分类精度明显优于传统的决策树[33],DL结构中的卷积神经网络、深度自动编码器、深度信念网络、循环神经网络等均被用于探索该类任务[3438]。Minh等[39]利用两种循环神经网络结构结合星载合成孔径雷达(syntheticapertureradar,SAR)影像制作了冬季植被质量分类图,制图精度优于支持向量机和随机森林。Yang等[40]研究表明:DL技术用于土地覆盖分类的精度高于支持向量机等浅层学习模型,且DL技术无需人工设计分类特征,并可在分类中使用迁移学习。Kussul等[32]将卷积神经网络用于作物制图的精度与随机森林和一种集成的多层感知器(multilayerperceptrons,MLPs)方法对比,结果表明卷积神经网络精度最高。
2.2检测与观测
杂草检测是地基农业遥感的一项重要任务,有研究认为杂草是对农作物生产最大的威胁,ML技术和田间传感器结合可以精确检测田间杂草,进而应用于农业工具和农业机器人的除草作业,最大程度减少除草剂的使用[41]。Cho等[42]使用电荷耦合元件(chargecoupleddevice,CCD)相机和人工神经网络组成的机器视觉系统识别了杂草与萝卜。Karimi等[43]将支持向量机用于玉米田杂草和氮素胁迫检测,取得比人工神经网络更高的精度。Binch等[44]的对比研究表明:在经典ML技术中,支持向量机取得最优的杂草检测效果。近年来的研究表明:DL技术可有效从图像中自动提取特征,在目标识别中取得优于支持向量机的精度[4547]。
王璨等[48]应用卷积神经网络准确识别了幼苗期玉米与杂草。Dyrmann等[49]应用卷积神经网络在农田影像中识别了22种杂草与作物物种,并在后续研究中将全卷积神经网络应用于存在严重叶片遮挡的情况下,从谷物田中成功识别单株杂草[50]。除杂草检测,张雪芬等[51]利用支持向量机结合CCD影像实现了作物发育期的图像自动识别,余卫东等[52]在对中国农业气象自动化观测的展望中提及计算机视觉技术的应用,ML技术在今后的农业气象自动化观测中有待发挥更重要的作用。
DL技术可以从高维海量数据中强有力提取复杂的结构信息[21],近年来在植株表型观测、病虫害检测、农田障碍检测、果实检测等任务中得到成功应用[5355],可极大提升农业气象自动化观测水平。Christiansen等[56]对比了DL技术和经典ML技术在农田障碍和异常检测中的应用效果,结果显示DL技术具有最高精度和最快运算速度。Yalcin等[57]利用卷积神经网络自动提取图像特征,识别农业植被的物候期,精度优于基于手工设计特征的经典ML技术。Jin等[58]应用更快速的区域卷积神经网络和区域生长法从Lidar3D点云中分割单株玉米,可准确测量植株高度。
Ubbens等[59]开发了可用于叶片计数等植物表型任务的DL平台。Xiong等[60]开发了基于卷积神经网络的图像分割软件用于水稻穗部分割,可实现水稻表型自动化测量,段凌凤等[61]和张领先等[62]开展了类似研究。Baweja等[63]使用CCD相机和卷积神经网络组成的机器视觉系统自动计算茎秆数并测量茎宽。黄双萍等[64]利用卷积神经网络和穗株高光谱图像提取不同尺度穗瘟病斑分布式特征,实现水稻穗瘟病害的精准检测。Mohanty等[65]通过迁移学习和重新训练两种方式训练卷积神经网络,有效识别14种作物物种和26种作物病害,孙俊等[66]开展了类似工作。Rahnemoonfar等[67]提出一种DL结构用于果实计数,即使水果处于阴影下,或被树叶、树枝遮挡,或水果之间存在一定程度的重叠,也能有效计数。薛月菊等[68]利用DL技术中的YOLOv2网络检测未成熟芒果,表明该方法在复杂场景下的检测精度优于更快速的区域卷积神经网络。
2.3产量预测
在健康的生态系统下以最低成本取得最大作物产量是农业生产最重要的目标之一[69]。作物产量预测是农业气象工作中的一项重要任务,关系到粮食安全、种植结构调整、作物管理、农业保险等,提高预测的准确性有助于增加作物产量和商业利润。经典统计方法难以准确预测作物产量的非线性时空变化,当前更有效的产量预测方法包括作物生长模拟和ML技术[70]。作物生长模型将作物生长阶段的动态机制以数学模型抽象表达[71],建模过程耗时且昂贵,其运行所需参数集在发展中国家尤难获取。另一方面的研究中,经典ML技术与遥感数据、气象数据、土壤数据等结合实现了不同尺度下不同作物产量的准确预测[7273],并有学者对比不同方法的预测能力。
Fortin等[74]研究表明:在马铃薯产量预测中,多层感知器预测效果优于多元线性回归。Ruβ[75]对比了多层感知器、回归树、径向基核函数网络和支持向量回归用于冬小麦产量预测的精度,表明支持向量回归预测结果最准确。González等[70]对比了多元线性回归、M5Prime回归树、人工神经网络、K最邻近法和支持向量回归对大规模种植的多种作物产量的预测能力,结果显示:M5Prime回归树表现最优,作者同时指出变量和属性的选取直接影响不同算法、模型的预测精度,这是其研究与前人研究结论存在差异的主要原因。与产量预测紧密相关的农业气象灾害风险评估是农业气象学领域中研究的热点[7680],较之传统技术手段,ML技术对此有很大的应用潜力,目前已有研究将ML技术用于农业气象灾害遥感监测与产量影响评估,如Park等[81]利用随机森林等ML技术与多源遥感数据结合,对农业干旱进行监测评估。
2.4参数估算
农业气象研究相关的水文、土壤、作物参数通过站点观测无法取得其连续准确的空间分布情况,且某些参数测量难度大、费用昂贵。ML技术与气象数据、遥感数据等相结合,可简单、高效地实现参数估算,且使对其时空连续性监测与预报成为可能。农业气象工作关注的热点参数包括蒸散、土壤湿度、土壤温度、氮素含量、叶面积指数、生物量等。准确估算蒸散对农业灌溉水资源时空优化配置至关重要,同时该参数测量难度较大。Yang等[87]利用支持向量机结合通量观测数据与MODIS遥感数据实现了大尺度蒸散的时空变化预测。
Jung等[88]使用一种模型树集成的ML技术集成站点观测蒸散与遥感数据和气象数据,估算全球尺度的多年蒸散。Patil等[89]将ML技术与气象数据结合估算参考蒸散,表明单层前馈神经网络中的极限学习机(extremelearningmachine,ELM)和最小二乘支持向量机估算精度高于经验模型。Mehdizadeh等[90]利用支持向量机、基因表达式编程、多元自适应回归样条与气象观测资料结合估算干旱与半干旱地区的月平均参考蒸散,显示支持向量机和多元自适应回归样条效果最好。
3小结
本文系统概述了ML技术的主要方法及其在现代农业气象中的主要应用方向,有针对性且全面涵盖了现代农业气象中特别是涉及农业遥感的ML技术的研究及应用情况,并纳入近年来最新的研究进展。本文将ML技术在农业气象工作中的主要应用归纳为4个方面:制图与区划、检测与观测、产量预测和参数估算。在制图与区划方面,ML技术与遥感影像结合实现了不同尺度的土地覆盖与作物类型制图,亦已结合遥感数据、土壤数据、统计数据用于作物长势、植被质量等专题图的制作与作物管理区划分;在检测与观测方面,ML技术成功用于田间影像中的杂草检测,DL技术在植株表型观测、病虫害检测、农田障碍检测、果实检测等方面,取得了理想精度,可极大提升农业气象自动化观测水平。
在产量预测方面,ML技术与遥感时间序列数据、气象数据、土壤数据结合在不同尺度成功预测了不同作物的产量,与之相关,ML技术在农业气象灾害评估中也有很大的应用潜力;在参数估算方面,农业气象研究关注的以蒸散、叶面积指数、土壤湿度、氮素含量等为代表的水文、土壤、作物参数均可利用ML技术与气象数据、遥感数据等的结合实现精确反演或预测。综合看,传统浅层ML技术中以支持向量机和人工神经网络在本文涉及的诸多任务中应用最为广泛且效果最为理想。近年来的方法对比类研究中,随机森林和梯度提升机等集成学习方法普遍取得优于支持向量机和人工神经网络的精度,DL技术则在某些任务中取得更优于集成学习的精度,且可解决浅层ML技术较难解决的一些问题,如在农业气象观测中可精准实现植株表型的自动化观测。
从应用时间上看,人工神经网络和支持向量机等浅层ML技术自20世纪90年代开始在农业气象和农业遥感中应用并逐渐繁荣,其中人工神经网络的应用略早于支持向量机,而以支持向量机为代表的核方法则较人工神经网络更具优势;决策树自21世纪开始受到学界的关注,2010年后随机森林和梯度提升机等决策树集成方法在很多方面被认为是较核方法更好的选择;DL技术自2012年前后重回主流学界的视野,伴随卷积神经网络和长短期记忆网络的成功,自2015年后被广泛认为在诸多应用中的表现超越了支持向量机和集成学习[14]。
尽管将DL技术应用于农业问题的先驱探索始于2010年[110],但大部分研究成果发表于2015年以后[15],且有逐年增多的趋势,国内相关研究相对滞后,多数发表于2017年以后,且涉及到的现代农业气象中的问题尚十分有限。目前有待验证ML技术特别是DL技术在更多农业气象问题上的适用性和先进性,如农业气象灾害遥感监测与损失评估、农业气象灾害风险评估与区划、农业气候区划、气候变化对作物生长的影响评估等任务,同时,伴随ML技术的发展,特别是类似长短期记忆网络的DL时间维算法和新结构的发展,有望更好地结合以风云系列气象卫星数据为代表的遥感时间序列数据,在制图、估产、预测等诸多已开展研究的任务中取得更高的精度和准确性。
特别地,将ML技术与智能手机等移动终端结合,可为农业管理者和生产者提供功能强大且智慧化的农业气象信息服务;将DL技术与地基观测、无人机遥感等结合,开发相关业务系统,可以显著提升农业气象自动化观测水平。同时,需要认识到ML技术中没有一种方法可以取代其他所有方法,在现代农业气象工作中需要根据具体任务和数据情况选择最适用的ML技术,如梯度提升机在当今被普遍认为是处理非感知数据的最好算法之一,而当训练数据有限时,浅层ML技术往往比DL技术更适用。
作者:李颖陈怀亮
转载请注明来自发表学术论文网:http://www.fbxslw.com/nylw/23473.html