正态分布化为标准正态分布时1/σdx=d(x-u/σ)?为什么?

如题所述

1、正态分布是不是二项分布项数取到很大时的极限?
答:二项分布与正态分布无关。他们只是两种互不相关的分布。
2、是不是一个事件由很多个互不相关的随机因素决定时,就服从正态分布?
答:正态分布只是日常生活中的多数现象出现的分布情况,与因素的多少没有关系。
3、正态分布从a到b的面积如何计算?正态分布表是如何算出来的?
答:这个函数事实上是可以积分的,但现在我们做不到,只能查表。
4、正态分布的公式是如何推导出来的?
答:我现在还不知道,等着你学会了教给我。
为了澄清上述问题,笔者从博杰学习网数据库中查找资料,写成《正态分布释疑》,希望给在“正态分布”这一部分仍然迷茫的读者朋友们一些启示。
首先给出新课标教材中关于“正态分布”的几页课本的照片。

读罢以上几页书,您或许已经注意到:
1、正态分布其实就是二项分布的近似,就是二项分布项数趋于无穷时的极限。下面的二项分布推导过程也要用到这样的思想。
2、一个随机变量如果是众多的、互不相关的、不分主次的偶然因素作用结果之和,它就服从或近似服从正态分布。
下面再给出正态分布公式的推导。
第十八章概率分布的统一(2)
2002年1月公布于 http://entropy.com.cn
张学文 [email protected]
2002.12.修订
本章继续利用最复杂原理和不同的约束条件的配合求出不同的概率分布函数。它们包括:正态分布、对数正态、伽玛分布(Gamma)、瑞利分布、威伯分布、极值分布、Beta分布、Logistic分布。
§18.1正态分布
连续的随机变量x的概率密度分布函数f(x)如果服从
(18.1)
关系,就说该变量遵守正态分布(也称为高斯分布)。这里a和σ分别是该变量的平均值和标准差。正态分布最早由数学家高斯得到,它广泛适合观测的误差等很多种场合。这个分布可以从某种合理的假设出发而推导出来,所以被认为是理论依据比较充分的概率分布。20世纪科技界流行的一种观点就是自然现象似乎都应当符合正态分布,很多理论工作也是在正态分布的假设上形成的。这些工作提高了正态分布的地位。人们对正态分布的重视也导致对其他的分布函数的忽视。这种观点与丰富的自然现象不符。
这里我们利用最复杂原理配合对应的约束条件推导出正态分布公式(18.1)。
一个连续变量x的概率密度分布函数是f(x),那么这个函数的积分应当等于1(变量出现各种值的概率的合积值为1—必然事件),
(18.2)
如果该随机变量的标准差必须为一个固定值σ,即
(18.3)
承认变量仅受上面的约束条件(没有更多的),并且承认变量出现什么值有随机性,在这些约束下的随机性最大也就是变量对应的复杂程度或者说信息熵最大,即∫-f(x)ln f(x)dx 应当最大。利用拉哥朗日方法构造一个新函数F
F=∫-f(x)ln f(x)dx+C1[∫f(x)dx-1]+C2[∫(x-a)2f(x)dx-σ2]
以上积分应当遍及变量x的一切可能值(从负无穷大积分到正无穷大)。复杂程度最大就是要求函数F对f的变分为零,有

我们得到
-lnf(x)-1+ C1+ C2(x-a)2=0
f(x)=exp(-1+ C1)exp[C2(x-a)2] (18.4)
这个公式已经与正态分布公式具有相同的外型了。利用关系(18.2)、(18.3)可以把(18.4)中的待定常数C1、 C2确定出来。借助定积分表,得到的分布函数恰好是最初给的(18.1)式。这样就利用最复杂原理(最大信息熵)和标准差为常数的限制得到了正态分布函数公式。它意味着对于确定的标准差,随机变量可以有很多种分布函数,但是复杂程度最大(信息熵最大)的分布函数只可能是正态分布。
于是我们从最复杂原理推导出来了正态分布公式。
公式中的平均值为a,它的含义自然是
(18.5)
请注意,在推导公式时公式(18.5)并没有作为约束条件出现。这与负指数分布的推导时把它作为约束条件是不同的。
与(18.1)公式对应的正态分布见于图18.1中。
图18.1正态分布函数

对应二元正态分布也有类似的结果。如果f(x,y)是一个二元的概率密度分布函数,即
(18.6)
它对于变量x,y的标准差分别为固定值σx ,σy ,即
(18.7)
(18.8)
上面的a,b分别是x,y的平均值。而x,y的相关矩ε
(18.9)
也是固定值(等价于相关系数固定)。
那么复杂程度最大时的随机变量的概率密度分布函数也可以利用拉哥朗日方法求得。它就是经常遇到的二元的正态分布公式:
,ρ≠1,(18.10)
这里的ρ是变量的相关系数,它与相关矩ε的关系是
ρ=ε/(σxσy) (18.11)
这样,形成二元的正态分布所依赖的约束条件和原理(最复杂原理)我们也清楚了(说明:具体推算过程是1995年由马力同志完成的,因为比较繁这里没有列出)。
利用分布函数可以计算信息熵,对应正态分布,它的信息熵H与变量的标准差σ的对数值成正比例
关于正态分布的应用事例在很多书籍都有介绍,这里就不必再重复了。
本节说明著名的正态(高斯)分布也是最复杂原理(信息熵最大)的一个应用特例。
下面介绍有关“中心极限定理”的内容。
中心极限定理,是概率论中讨论随机变量和的分布以正态分布为极限的一组定理。这组定理是数理统计学和误差分析的理论基础,指出了大量随机变量之和近似服从正态分布的条件。
棣莫佛-拉普拉斯定理
用正态分布逼近二项分布
棣莫佛-拉普拉斯(de Movire - Laplace)定理是中心极限定理的最初版本,讨论了服从二项分布的随机变量序列。它指出,参数为n, p的二项分布以np为均值、np(1-p)为方差的正态分布为极限。

内容
若μn是n次伯努利实验中事件A出现的次数,0 < p < 1,则对任意有限区间[a,b]:
(i)当及时,一致地有

(ii)当时,一致地有
, 其中

在高尔顿板问题上的应用
高尔顿绘制的高尔顿板模型,其中的小球显出钟形曲线。
棣莫佛-拉普拉斯定理指出二项分布的极限为正态分布。高尔顿板可以看作是伯努利试验的实验模型。如果我们把小球碰到钉子看作一次实验,而把从右边落下算是成功,从左边落下看作失败,就有了一次的伯努利试验。小球从顶端到底层共需要经过n排钉子,这就相当于一个n次伯努利试验。小球的高度曲线也就可以看作二项分布随机变量的概率密度函数。因此,中心极限定理解释了高密顿板小球累积高度曲线为什么是正态分布独有的钟形曲线。

林德伯格-列维定理
中心极限定理的动态展示,独立同分布随机变量之和趋近正态分布。
林德伯格-列维(Lindberg-Levy)定理,是棣莫佛-拉普拉斯定理的扩展,讨论独立同分布随机变量序列的中心极限定理。它表明,独立同分布、且数学期望和方差有限的随机变量序列的标准化和以标准正态分布为极限:
设随机变量X1, X2,...,Xn独立同分布,且具有有限的数学期望和方差E(Xi) = µ,D(Xi) = σ² ≠ 0 (i=1,2,...n)。记
,,则
其中Φ(z)是标准正态分布的分布函数。

证明
记Xk − μ的特征函数为,则ζn的特征函数为.由于E(Xk) = μ,D(Xk) = σ2故因此

所以

由于是连续函数,它对应的分布函数为Φ(Z),因此由逆极限定理知

定理证毕。

林德伯格-费勒定理
林德伯格-费勒定理,是中心极限定理的高级形式,是对林德伯格-列维定理的扩展,讨论独立,但不同分布的情况下的随机变量和。它表明,满足一定条件时,独立,但不同分布的随机变量序列的标准化和依然以标准正态分布为极限:

内容
记随机变量序列Xi(Xi独立但不一定同分布,E[Xi] = 0且有有限方差)部分和为



.
如果对每个ε > 0,序列满足
\epsilon\sigma_n\}] = 0" src="http://upload.wikimedia.org/math/f/a/d/fad067162105d5a86e7b306a12956c75.png">
则称它满足林德伯格(Lindeberg)条件。
满足此条件的序列趋向于正态分布,即

与之相关的是李雅普诺夫(Lyapunov)条件:

满足李雅普诺夫条件的序列必满足林德伯格条件。

证明
在此只对较强的李雅普诺夫条件给出证明。
以下证明对每一实数t,特征函数满足。

泰勒展开,上式可近似为
}-
由李雅普诺夫条件,当时,第一项收敛于零。
令,则由李雅普诺夫不等式,

因此第二项也收敛于零。
证毕。
最后,解释“如何积分”的问题。
首先要指明的是,正态分布函数积分后得到的函数不是初等函数。因此在我们通常意义下的函数范围内,正态分布函数是“不可积”的。
其次需要指出,任何我们现在接触到的函数都有其不定积分,只是不一定是初等函数。因此“正态分布表”仍然可以用定积分算出。但这个函数涉及到Exp,笔者也不理解,这里不再介绍。
今天雷老师的班会中强调,我国的科技发展需要一批有大志的人才,不能拘泥于现在的考试、竞赛,而要想得更深、看得更远。但不能脱离考试,毕竟现实是难以改变的。我们认为,在课本知识的基础上善于思考,敢于创新,就是为将来的民族科学振兴奠定基础。
但愿本文的努力成为读者科学探索的开端。
温馨提示:答案为网友推荐,仅供参考
第1个回答  2016-05-24
你好!因为μ是常数,常数的微分是0,所以d(x-μ)=dx-dμ=dx,从而d[(x-μ)/σ]=(1/σ)d(x-μ)=(1/σ)dx。经济数学团队帮你解答,请及时采纳。谢谢!本回答被网友采纳
第2个回答  2018-03-24
你好!因为μ是常数,常数的微分是0,所以d(x-μ)=dx-dμ=dx,从而d[(x-μ)/σ]=(1/σ)d(x-μ)=(1/σ)dx。请及时采纳。谢谢!
相似回答