放射性数据的统计描述

如题所述

(一)随机样本、抽样总体和目标总体

随机样本是从抽样总体中随机抽取的一部分个体。样本中个体的数目称样本容量或样本大小。

在地质领域里,抽样总体通常是无限总体。若按变量个数来划分,有单元总体和多元总体之分。对于单元总体,个体就是某个元素的一个观测值;对于多元总体,个体是样本中相应元素的一组观测值。因此,一个地质样品与样本的概念不同,总体和地质体的概念也不同。

由于地质工作的特殊性,这里提出目标总体的概念,关于目标总体,科克伦等著的书中写道:“目标总体是我们所关心的总体,地质工作者所希望的就是做出关于它的推断或结论,它正是我们所研究的对象”。

假如研究某个含铀矿的可能性或在什么地方有铀矿体,可对整个岩体按一定比例尺进行γ测量(随机性的空间测量),那么最多能得到整个岩体(目标总体)露出地面的被实际抽取样本的那一部分的全体(抽样总体),地下的岩体部分测不到(当然也就不是抽样总体)。而且地表的那一部分的全体由于风化作用、污染及地质体的不均匀性等原因与地下的部分也不完全相同。这就是说,抽样总体只能是目标总体的一部分,在形成的时间、空间以及组成成分方面,抽样总体与目标总体也不完全相同。事实上二者完全一致起来是相当困难的。因此由抽样总体正确推断目标总体,不能只依靠统计理论和方法,还必须依靠研究者专业知识的丰富程度和经验的成熟程度。

应当指出,个体、样本、抽样总体和目标总体之间的内在联系是处理数据的出发点,它们的关系可图示如下:

放射性勘探方法

在地质研究中,由个体观测值组成样本,用样本统计推断抽样总体,进而用专业知识解释、推断(地质推断)目标总体,这是数据处理的最基本的工作步骤。事实上,用样本得出的关于总体的结论是关于抽样总体的统计推断。对目标总体来说,这种推断只能起一种“启发性”或“指示性”的作用,这种作用的大小与二者的相关联程度有关,如果抽样总体与目标总体一致,则关于抽样总体的结论就是目标总体的结论。这时如果目标总体是矿体,则结论也适合这个矿体。

上述步骤是由个别推断一般,由局部推断个体的问题。因此在进行统计推断时,必须使构成样本数据的五个条件得到满足。尽管这样,推断也仍然有一定的风险,这种风险一方面来自地质现象的随机性,另一方面来自抽样总体与目标总体的不一致。这也是地质工作的困难所在,同时也是常被地质工作者忽略而又非遇到不可的普遍问题。

(二)频率分布与概率分布

某一事件A在N次试验中出现的次数m,称为频数;而出现次数m与试验次数N的比m/N,称为频率或相对频数。若在相同条件下多次重复试验,当试验次数N足够大时,可以发现,某随机事件(大量重复试验具有统计规律的事件)出现的频率是趋于稳定的。它围绕着某一固定数值作微小波动,这一固定值体现了随机事件的统计规律性。它反映某一事件在某种条件下出现的客观可能性大小。这个某事件出现的客观可能性的固定数值(常数),称为该事件出现的概率,通常用A表示事件A在每次试验中发生的概率:记事件A出现的概率为P{A}。不可能事件的概率为0,必然事件的概率为1,而随机事件的概率介于0与1之间。由贝努里大数定理可知:

放射性勘探方法

式中,ε、δ为任意小的正数。

当试验或观测次数无限增大时,事件出现的频率无限接近其概率1。这一点正是矿床勘探中用足够数量的样品的平均品位估计矿体真实平均品位的理论依据。

对N个试验结果(N个观测值)进行统计,用等间距的区间分组作为横轴分度值,用各组观测值在n个观测值中出现的频率作为纵轴的高,绘制矩形,即构成频率分布直方图。如果从左边开始用直线段依次连接上述直方图中矩形的顶边中点得一条折线,这就是频率分布的折线图。这种以样本观测值为基础得到的频率分布,又称为样本分布或经验分布,记为FN(x)。假设样本容量无限增大并将各分组区间的长度无限减小,则可得出一条反映事件出现的可能性大小的光滑曲线、实际上不可能无限增大样本容量,但通过理论概括可以得出反应总体分布的理论频率曲线,也称总体分布,记为F(x)。二者的关系可以用格利文科定理(依概率收敛)说明:

当N→∞时,称FN(x)依概率收敛于F(x),即

放射性勘探方法

也就是说,当N很大时,样本的分布函数FN(x)实际上将近似等于总体的分布函数F(x)。这也是用样本分布推断总体分布的理论依据。

(三)总体参数与样本统计量的关系

一种概率分布的特征常常用它的特征参数来表示,例如正态分布的集中性、离散性、陡峭性、偏斜性(不对称性)等,分别用总体的均值、方差、峰度系数、偏度系数来表征。由于它们都是事先未知的,只能用样本的相应特征数来估计。为了区别于样本统计量,称总体特征数为参数,常用希腊字母表示,如μ、σ、γ1、γ2等。由样本值计算得到的特征数称为样本统计量,常用英文字母表示,如

、s、g1、g2等。用样本统计量估计总体参数,称为参数估计。由中心极限定理可知:不论原始分布如何,当样本容量增加时,样本平均数的分布近似于正态分布。此时总体参数与样本统计量之间有如下关系。

(1)样本平均数的平均数等于总体平均数即

放射性勘探方法

(2)样本平均数的方差等于总体方差除以样本容量n,即

放射性勘探方法

需要注意的是,上述关系只有当n足够大时才成立。对于地质变量,一般样本容量在50以上即可以认为成立。

(四)样本统计量

1.集中性统计量

它反映了分布的集中趋势,可作为大量数据的整体性代表。有算术平均数、加权平均数、几何平均数、中位数和众数等。

(1)算术平均数

设x1,x2,…,xn为一个样本,则样本的算术平均数:

放射性勘探方法

对于样本平均数有

=μ,就是说

是μ的无偏估计量。

算术平均数的物理意义为各个数值的平衡点或重心。在放射性数据中,常作为岩石中的元素背景值的估计值或岩石放射性照射量率本底值的估计值。

当m很大时,计算

值就必须分组统计。设分N组,把落入每组内的

值一律用该组的组中值xj来代替,此时

放射性勘探方法

式中:xj为第j组的组中值;

为第j组内频数。用上式求平均数的方法称加权平均法。所得平均数称加权平均数。

(2)几何平均数

放射性勘探方法

通过取对数,即

放射性勘探方法

同样可分组统计,用加权平均法计算:

放射性勘探方法

放射性勘探方法

其中:

式中:

为第j组的组内频数;lgxj为第j组对数值的组中值;N为分组数。

当求出对数值的平均数后,取反对数就是几何平均数。

(3)中位数(Me)

是将一个样本的诸值按大小次序排列居于中间的那个数值。例如在样本分布中累积频率等于50%时,所对应的自变量值即为中位数。其优点是求法简单,与数列两端的数值变化无关。

(4)众数(MQ)

是指具最大频数(或最大频率分布密度)的自变量值。

图6-1 不对称频率分布特征值之间的关系

应当指出,在非对称曲线中,中位数在众数和平均数之间(图6-1)。在对称曲线中三者重合,如正态频率分布曲线中平均数、中位数和众数就是相等的数。

应该指出,上述统计量都是用于估计总体平均数,即数学期望值的。实践中应用什么样的统计量估计总体分布的中心趋势呢?原则上说,用最接近数学期望值的那个统计量值。但是在有些问题中并不要求有很高的精度,这时可选用计算方便的统计量。例如在铀矿普查中,岩石伽马射线照射量率底数的确定,就常用中位数来估计总体平均数。

2.离散性统计量

它反映了数据分布的离散程度,是统计误差大小的量度,常用来反映数据的波动性质。这类统计量有:极差、方差或均方差、变异系数等。

(1)极差

它是样本值中最大值与最小值之差。常用d或D表示,即

放射性勘探方法

极差计算简单,但不能充分提供有用的信息。

(2)方差与均方差(标准差)

它们是常用来描述数据波动性的两个统计量。二者能较好地提供有用信息,反映数据的离散程度。

设有n个观测值x1,x2,…,xn组成一个样本,其平均数为

(算术平均值),则其方差和均方差分别为

放射性勘探方法

均方差是每个观测值(xi)与样本平均值

之离差平方和的均值再开方,所以称均方差。

应当指出,当n较小(n<30)时,用

计算。这是因为上式算出的均方差才是总体均方差σ的无偏估计量。

当n比较大且需要分组时用下式计算:

放射性勘探方法

其中:

放射性勘探方法

式中,把样本值xi(i=1,2,…,n)分成N组;xj为第j组组中值;

为第j组的频数,fj为相应的频率。

为了计算方便,均方差写成

放射性勘探方法

其中:

放射性勘探方法

均方差有三个重要性质:①若各观测值恒等于一个常数C,则其均方差为零。即sc=0;②各观测值xi同加(减)一个常数C后,其均方差不变。即sx+c=sx;③各观测值xi同乘一个常数K后(即Kxi),

均方差等于原(观测值的)均方差的K倍,即

(3)变异系数

也称变化系数,用B表示,即

放射性勘探方法

这是一个量纲为1的数,它反映了样本中诸数据的离散性相对其平均数的变化程度,也称相对离散程度。当两个或两个以上样本值比较时,即使它们的均方差相同,但是平均数不一样,其相对离散程度也不一样。一般认为,均方差相同平均数较大者,相对离散程度较小。当平均数相同时,相对离散程度决定于均方差的大小。

(4)或然误差

用γ表示,它的大小是均方差的0.6745倍。即

放射性勘探方法

它表示在一个样本的数据中任选一个观测值,其相对于真值的差介于(-0.6745σ~+0.6745σ)之间的概率为50%。或然误差不仅反映了观测值相对于真值之误差的大小,而且反映了产生该误差的概率高低。

算术平均误差

放射性勘探方法

其中:

误差σ,δ,γ三者的关系示于图6-2。其中:

放射性勘探方法

图6-2 σ,δ,γ三者的关系

3.样本矩

由于总体的未知参数往往是理论(总体)分布的矩或矩的函数,而样本又可以确定一个经验分布,也就存在样本的各阶矩,样本各阶矩是从不同侧面描述样本分布,来反映总体特征的。

所谓样本矩,就是由样本值导出的各阶矩。例如:设x1,x2,…,xn为一个样本,则称

(K=1,2,…)为样本的K阶原点矩。K=1时,得到样本的平均值,即

放射性勘探方法

相应的,称

(K=1,2,…)为样本的各阶中心矩。当K=2时,得到样本的方差,即

放射性勘探方法

由定义可知,样本矩和总体矩一样,都具有平均的概念。

一般的,只要分布对于数学期望是对称的,则它的一切奇数阶中心矩都等于零。若不对称,则它的一切奇数阶中心矩都不等于零。

为了方便应用,类似地定义出偏度系数和峰度系数,以便对分布的偏斜程度和陡峭程度做出估计。样本的偏度系数g1与峰度系数g2的定义式分别为

放射性勘探方法

式中:V3、V4、s分别为样本的三阶中心矩、四阶中心矩和均方差。

对于正态分布理论上存在

放射性勘探方法

式中(K-1)!!=(K-1)(K-3)(K-5)…表示从1至(K-1)的一切奇数的乘积。特别K=4时,V4=3σ4,则

。g2计算式中减去3,就是为了使正态分布的g2=0,以方便应用。

图6-3 g1和g2的直观意义

(a)g1>0;(b)g1<0;(c)1—g2>0,2—g2=0,3—g2<0

关于g1和g2的物理含义,由图6-3可明显看出:当频率分布向正方向偏斜时,g1>0;向负方向偏斜时,g1<0。分布对称时,g1=0。当频率分布的陡峭程度超过正态分布时,g2>0,低于正态分布时,g2<0;为正态分布时,g2=0。理论上,g1和g2分别服从

放射性勘探方法

式中:

都是均值为零,方差分别为

的正态分布;n为样本的容量。

上述分析表明,作正态总体检验时,也可用g1和g2两个统计量,并且只有当g1、g2都符合正态分布要求时,抽样总体才是正态总体,二者缺一不可。

偏度系数的计算还有一个精度较差但计算简单的公式:

放射性勘探方法

4.协方差矩阵与相关系数矩阵

以上所介绍的统计量都是描述一个随机变量的分布特征的。对两个或两个以上的随机变量总体,不仅要描述各变量的均值和方差等,而且还常常要描述它们之间的相互关系。为此引入混合矩与相关系数的概念。

设有一个二元样本(x1,y1),(x2,y2),…,(xn,yn)。若随机变量x与y之间存在

放射性勘探方法

则称它为x和y的K+L阶原点混合矩。

如果存在

(K,L=1,2,…),则称它为x和y的K+L中心混合矩。特别当K=1,L=1时,就得到样本的协方差,记为cov(x,y),即

放射性勘探方法

相应地,定义样本相关系数为

放射性勘探方法

放射性勘探方法

相关系数rxy是一个量纲为1的数,这样就避免了不同量纲对它的影响。但是协方差cov(x,y)却受量纲的影响,并且协方差具有如下性质:①cov(x,y)=cov(y,x);②cov(ax,by)=abcov(x,y),a、b为常数;③cov(x1+x2,y)=cov(x1,y)+cov(x2,y)。

对于k个随机变量,常用协方差矩阵描述它们之间的相关关系。先讨论两个随机变量情形:

有两个随机变量(x1,x2)的样本,样本容量为n(即n个样品),则x1、x2有四个协方差(设它们都存在),分别记作

放射性勘探方法

将它们排成短阵的形式:

放射性勘探方法

这个矩阵称为(x1,x2)的协方差矩阵。

对于k个随机变量,x1,x2,…,xk的样本,样本容量为n(即n个样品),观测如表6-3所列。

表6-3 观测结果

每两个随机变量之间的协方差为

放射性勘探方法

如果它们都存在,则矩阵

放射性勘探方法

为k个随机变量(x1,x2,…,xk)的协方差矩阵。由于cij=cji(i,j=1,2,…,k),因此协方差矩阵是对称矩阵,它反映了每两个变量之间的相关程度。对角线上元素用下式计算:

放射性勘探方法

非对角线上元素用下式计算:

放射性勘探方法

协方差矩阵是由协方差组成的,所以它受变量的量纲和数量级不一致影响。为了避免这一点常常由简单相关系数rxy组成相关矩阵。

放射性勘探方法

式中,元素rxy用(6-33)式或(6-34)式计算。

对于独立随机变量组,协方差矩阵中,对角线上元素为方差,非对角线上元素等于零。相关矩阵中,对角线上元素为1,非对角线上元素为零。

温馨提示:答案为网友推荐,仅供参考
相似回答