基于机器学习的稀疏样本下的土壤有机质估算方法-地球信息科学学报

作者：刘明杰,徐卓揆,郜允兵,杨晶,潘瑜春,高秉博,周艳兵,周万鹏,王凌

摘要：采用GRNN(Generalized Regression Neural Network)和RF(Random Forest)2种机器学习方法构建土壤有机质预测模型,以提高稀疏样本情况下的土壤有机质估算精度。依据北京市大兴区农用地2007年的土壤有机质采样数据,按MMSD准则(Minimization of the Mean of the Shortest Distances)抽稀为8种不同采样密度的样本(分别为2703、1352、676、339、169、85、43、22个样本),分别采用GRNN、RF和Ordinary kriging对各采样密度下的未知采样点进行预测,采用交叉检验的方式验证各采样密度下未知样点的预测精度。随着采样点密度的下降,样点间的空间自相关性逐渐减弱,半变异函数的拟和精度变差,预测点结果误差增大,预测的置信度降低。当抽稀到43个和22个采样点时,样点间的空间自相关性接近歼灭,半变异函数的决定系数较低且残差较大。普通克里格受到采样点数量和采样密度、样点的空间结构的影响比较明显,其预测精度随采样点数量的下降而下降。在85个采样点及以下时,其预测值与观测值之间没有显著的相关性。GRNN和RF的预测精度受采样密度的影响不大,其预测精度在一个较小的范围内波动,其预测值围绕观测值在一定阈值空间内震荡波动,具有较好的相关性,在85个及以下的采样密度时,预测精度相对普通克里格有较大的提升。普通克里格法不适合在稀疏样本条件下空间插值计算,尤其是在空间自相关性比较弱的情况下。机器学习模型能充分学习土壤间环境信息、样点空间邻近效应信息,兼顾属性相似性和空间自相关,具有更好的稳定性和适应性,不容易受到采样点数量、构型和采样密度等因素的影响,即使在采样点空间自相关性很弱的情况下也能做出稳定预测精度。

发文机构：长沙理工大学交通运输学院国家农业信息化工程技术研究中心长沙理工大学公路地质灾变预警空间信息技术湖南省工程实验室北京农业信息技术研究中心中国农业大学河南理工大学河北省农林科学院农业资源环境研究所

关键词：土壤有机质空间插值机器学习属性相似性空间自相关大兴区稀疏样本采样密度soil organic matterspatial interpolationmachine learningattribute similarityspatial correlationDaxing Countysparse samplesampling density

分类号： TP3[自动化与计算机技术—计算机科学与技术]