区域地球化学与农业和生命科学关联性数据处理系统简介

如题所述

陈明

(中国地质科学院生物环境地球化学研究中心,北京 100037)

吴锡生

(吉林大学朝阳校区,长春 130026)

摘要 国内外大量的区域化探和全球地球化学填图积累了丰富的区域地球化学资料。这些资料中包含有丰富的找矿信息并蕴藏着极为珍贵的、与农业和生命科学密切相关的信息,发掘这些信息对农业规划、环境保护和地方病防治等具有十分重要的意义。信息的发掘取决于专家的慧眼,还取决于功能强大的数据处理系统。

E&G Processor是在原国家科委的资助下进行的“区域化探在农业和生命科学上的应用研究”的一个二级课题——“区域地球化学与农业和生命科学关联性数据处理系统(简称E&G Processor)”的研究成果。系统以模式识别为核心,结合中国区域化探、农业和卫生等部门统计资料的特点,把各种主要数据处理方法集中在一起,引入了空间统计分析的最新研究成果,针对“区域地球化学与农业和生命科学的关联性”这一特殊领域的研究目的,建立了一个专门数据的处理系统,并成功地得到了应用。

关键词 环境科学 区域地球化学 数据处理系统 农业 生命科学

1 概述

20世纪80年代初开始实施的全国“区域化探”已经积累了大量表生地球化学数据。这些数据除了包含丰富的找矿信息之外,还蕴藏着极为珍贵的、与农业和生命科学密切相关的信息。为充分发掘这些信息,为政府和部门进行农业规划、合理使用微肥和地方病防治等方面的决策提供地球化学方面的科学依据,在原国家科委的资助下,开始了“八五”科技攻关项目“区域化探在农业和生命科学上的应用研究”。“区域地球化学与农业和生命科学关联性数据处理系统(简称E&G Processor)”就是为该项目研究专门研制的具有良好人机界面的用Turbo C、FORTRAN 77、Turbb Pascal、Turbb Basic等计算机语言混合编译成的数据处理系统。该系统除了传统的数据处理和多元统计分析方法外,还引进了空间统计分析的最新研究成果,同时针对“区域地球化学与农业和生命科学的关联性”这一特殊领域的研究目的,建立了几种新的数学模型,并成功地得到了应用。下面就介绍本处理系统的基本内容与特点及方法的数学模型等。

2 设计思想

由于我国幅员辽阔,自然地理和景观条件千差万别,因此,区域化探数据的内部结构和外部结构都十分复杂。E&G Processor将要处理的数据对象涉及地质、地球化学背景、环境污染、自然地理要素、农作物产量、地方病发病率、人口死亡率等多个学科和部门的数据;数据来源既有政府部门的,也有科研机构的,既有通过全国统一规划和测量获得的规则数据,如区域化探数据,又有按照行政区划统计得到的不规则数据,如发病率和农作物平均产量等;研究目的既有社会科学的,也有自然科学的。由上可见E&G Processor的设计难度,为此我们考虑了如下问题:

(1)E&G Processor首先是一个数据处理与解译系统;

(2)资料来源复杂,形式多种多样,要最大限度地利用各种数据,发掘数据后面的信息;

(3)必须有统一的数据格式和外部结构;

(4)E&G Processor处理的数据都是区域化变量,要充分利用空间统计分析方法;

(5)定性资料与定量资料可能并存,因此系统必须具有足够的灵活性;

(6)研究环境现状的最终目的是保护环境,控制环境恶化的趋势,因此E&G Processor必须提供环境评价和预测手段;

(7)模式识别是认识客观世界的基本方法,必须贯穿E&G Processor的整体;

(8)可以处理巨量数据,并具有良好的人机界面。

3 基本内容

“E&G Processor”数据处理系统包括六个子模块,具体如下。

(1)坐标转换(COORTRAN):包括经纬度坐标与高斯平面直角坐标之间的相互转换。

(2)数据预处理模块(PRFTREAT):为进行多元统计分析、空间统计分析,建立变量预处理方法,包括标准化、正规化、衬度系数转换、自然对数和常用对数转换、变量C转换五种方法。

(3)多元统计分析模块(MULTSTAT)

主要为常用多元统计分析方法,用于变量相互关系研究及通常意义下的模式识别,如多元逐步回归分析、聚类分析(用于大批量数据的R型、Q型聚类分析)和系统聚类分析、(用于少量数据)模糊聚类、基于灰色聚类方法、判别分析、因子分析、对应分析等。

(4)空间统计分析模块(SPATIANA)

根据数据的区域化特点,建立空间统计分析方法,用于较高精度的模式识别,包括空间结构分析、空间相关系数矩阵计算、空间聚类分析、空间因子分析等。

(5)数量化理论分析模块(QUANTIFY)

处理定性变量,包括数量化理论I—Ⅳ。其中:数量化理论I,与回归分析类似,在自变量为定量和/或定性变量时,对主要定量基准变量进行预测:数量化理论Ⅱ,与判别分析类似,在含定性变量时,对样品进行有模型模式识别;数量化理论Ⅲ,与因子分析和主成分分析类似,用于分析样品或说明变量中起支配作用的主要因素或成分,并实现对样品或变量的分类:数量化理论Ⅳ,也称eij型数量化,表征事物之间定义的一种亲近程度,在eij前提下,对各事物赋予一个具有内在意义的数值,依此对事物分类。

(6)评价与预测模块(STRATEGY)

主要用于环境评价、建模与预测,包括模糊综合评判、GM模型(即基于灰色关联的预测模型)、特征分析、概率回归分析。

4 用户界面

“E&G Processor”是一个完全用菜单驱动的、具有良好界面的人机交互系统,其操作界面类似于Surfer for DOS,所有用户数据通过用户界面和系统提供的参数文件与应用程序相连接。系统的各个模块名称及它们的相互关系如图所示(图1)。

图1 “E&G”总模块示意图

5 E&G Processor的应用举例

例1 水稻产量与水系沉积物中微量元素的关系 选取了黑龙江省中南部85个1:5万国际标准图幅的区域化探及相应的水稻产量,并用多元逐步回归与R型聚类分析模块作了处理。R型聚类分析表明,研究区内水稻产量与Zn、Co、Mo含量呈正相关关系,与Cu呈较强的负相关关系。回归分析结果表明,水稻产量与微量元素含量的回归方程为:

水稻产量=204.3+1.5Zn+1.9Co-3.6Cu

其中:水稻产量单位为kg,微量元素含量的单位为10-6。F统计量为40.49,远远超过临界值4.00,复相关系数为0.77,回归效果好。同时也说明,在回归过程中,由于Zn、Co两个变量的引入导致Mo元素的回归系数减小,说明Zn-Co元素组合与Mo元素之间存在某种对水稻产量的协同作用,而与Cu则存在一定的拮抗作用。

例2 地方性甲状腺肿与微量元素的关系 利用判别分析模块研究了黑龙江中南部240个1:5万国际标准图幅的区域化探及相应的地方性甲状腺肿数据。研究表明:地方性甲状腺肿与As、Ba、Co、Cr、Cu、Fe、Mn、Mo、Ni、Pb、Sr、U、V和Zn等14个元素含量有一定的地方相关性。把研究区的地方性甲状腺肿发病率分成六个等级,并建立了判别数学模型。依据该模型对黑龙江省其他地区的地方病发病率进行预测,正确识别率为86.4%。

例3 甜菜与玉米产量与微量元素之间的关系 利用例2中的区域化探数据和相应的甜菜、玉米平均产量数据,用E&G Processor的因子分析模块作了处理。从相关系数矩阵看:甜菜产量与Ba、Co、Mo、V和Zn含量关系密切,玉米产量与Ba、Co、Fe、Mo、Sr、Zn和V含量关系密切。斜交因子解进一步阐明,玉米产量主要与Ba、Sr含量呈正相关关系,与Fe、Zn含量呈负相关关系,而排除了Co、Mo、V这三个由于其他因素引起的“假”相关关系。甜菜产量与Mo、Zn含量呈强正相关关系,与V含量呈弱负相关关系。这种关系为进一步确定微肥的配方和不同地区使用微肥的原则的确定提供了坚实的理论依据。6小结

本文主要介绍了E&G Processor的设计思想、主要内容、用户界面和部分应用成果。实际上,E&G Processor包含了主要经典模式识别方法,并在新模式识别方法方面有一定的创新。除了上述三方面的应用成果外,我们还用E&G Processor作了大量的应用。由于在E&G Processor设计和制作过程中大量考虑并贯穿“模式识别”的主要思想,因此,E&G Processor在多变量模式识别方面有独到之处。

温馨提示:答案为网友推荐,仅供参考
相似回答