经典测量理论的详细内容

如题所述

真分数理论是最早实现数学形式化的测量理论。它从十九世纪末开始兴起,二十世纪30年代形成比较完整的体系而渐趋成熟。50年代格里克森的著作使其具有完备的数学理论形式,而1968年洛德和诺维克的《心理测验分数的统计理论》一书,将经典真分数理论发展至颠峰状态,并实现了向现代测量理论的转换。
所谓真分数是指被测者在所测特质(如能力、知识、个性等)上的真实值,即(True Score)真分数。而我们通过一定测量工具(如测验量表和测量仪器)进行测量,在测量工具上直接获得的值(读数),叫观测值或观察分数。由于有测量误差存在,所以,观察值并不等于所测特质的真实值,换句话说,观察分数中包含有真分数和误差分数。而要获得对真实分数的值,就必须将测量的误差从观察分数中分离出来。为了解决这一问题,真分数理论提出了三个假设:其一,真分数具有不变性。这一假设其实质是指真分数所指代的被测者的某种特质,必须具有某种程度的稳定性,至少在所讨论的问题范围内,或者说在一个特定的时间内,个体具有的特质为一个常数,保持恒定。其二,误差是完全随机的。这一假设有三个方面的含义。一是测量误差的平均数为零的正态随机变量。在多次测量中,误差有正有负。如果测量误差为正值,观测分数就会高于其实际的分数(真分数);如果测量误差为负值,则观测分数就会低于其实际的分数,即观察分数会出现上下波动的现象。但是,只要重复测量次数足够多,这种正负偏差会两相抵消,测量误差的平均数恰好为零。用数学式表达为:E(E)=0。二是测量误差分数与所测的特质即真分数之间相互独立。不仅如此,测量误差之间,测量误差与所测特质外其它变量间,也相互独立的。其三,观测分数是真分数与误差分数的和。即X=T+E。
在上述三个基本假设的基础上,真分数理论作出了如下两个重要推论:第一,真分数等于实得分数的平均数(T=E(X));第二,在一组测量分数中,实得分数的变异数(方差)等于真分数的变异数(方差)与误差分数的变异数(方差)之和。即(S2X= S2T + S2E)。 经典测量理论在真分数理论假设的基石上构建起了它的理论大厦,主要包括信度、效度、项目分析、常模、标准化等基本概念。
(1)信度(Reliability)。信度是测量理论中最重要的核心概念,指测量果的一致性程度,亦称可靠性程度。在经典测量理论中信度被定义为:一组测量分数的真分数的方差(变异数)在总方差(总变异数)中所占的比率。
由于真分数的方差和误差分数的方差是无法获得的,因此这个信度概念还只是一个理想的构想的概念,不能直接计算。为了解决这一问题,CTT提出了平行测验(Parallel Test)的概念。
所谓平行测验是指能够对同一被试的同一特质作相同准确测量的不同测验形式(测验题目)。如果某一测验有许多平行式,则某被试可以在每一形式上获一个观测分数,这样就产生了一个观测分数的分布,这一分布的平均值就称作该被试的真分数。实际上,平行测验是一个构想的概念,要在实际的测验的编制中实现是非常困难甚至是不可能的,最多也只能说是比较接近。
在平行测验假设的基础上,CTT提出了估计测验信度的一系列方法,如采用相关法进行重测信度(Test-retest Reliability)、复本信度(Equivalent-forms Reliability)、分半信度(Split-half Reliability)的估计,提出同质性的概念以保证反应的一致性,如克伦巴赫(Cronbachα)系数、库德和理查逊(G.F.Kuder & M.W.Richardson,1937)提出的估计一致性的两个公式K-R20公式和K-R21公式、荷伊特信度(Hoyt,1941)等都是进行同质性估计的重要方法。
(2)效度(Validity)
测量的效度是指测量结果的有效性程度,也就是已测到的质和量与主试者欲测的质和量相符合的程度,有的也称效度为正确性。效度是任何一种测评必须解决的首要问题,因为有效性决定了一种对测量效度的考查是一个很复杂的问题,特别是对人的潜在特质的测量,因为潜在特质并不是一个看得见摸得着的物质实体,而是一种观念构想。对潜在特质的测量只能采用间接的方法,其测量模型可表示用行为主义的公式S-R表示,在测量过程中我们所能控制的是呈现给被试的刺激S,所能观测到的是被试在一定测量情景下对刺激S的反应R。而潜在特质是介于S和R之间的,在这一中间过程对S传入大脑的信息作出了处理,处理后的信息以R方式输出。简单地说,效度要弄清楚的是在S信号传入大脑后,哪种(哪些或最主要是哪一种)特质参与了对输入信号的处理。
CTT对效度问题提出了诸多解决方案,因而有很多效度名称。如,同时效度,预测效度,表面效度,相容效度,协同效度,假设效度,效标关联效度,实证效度,经验效度等等。为了规范效度问题的研究与解释,美国心理学会在1974年将测量的效度分为三大类,即,内容效度(Content Validity),是指测验的内容对欲测范围内内容的代表性程度;结构效度(Construct Validity),测量结果与测验的理论假设之间的一致性程度;效标关联效度(Criterion-related Validity),又称实证效度,指测量的结果与某种外在效标之间的一致性程度,一般用测验分数与效标之间的相关系数表示。
成就测验或学科测验(以检测知识为主的考试)较容易获得较高的内容效度,而对这类测验也往往注重考察它们的内容效度。对于能力测验、个性测验、态度测验、品德测评等,其内容效度的考察往往比较困难,而采用效标关联效度较多。效度的检验不是一次就能完成的,往往要通过累积证据的方法不断积累效度资料来证实它的有效性,结构效度在根据某一理论结构模型(智力、个性等)编制测验时特别注重,它也是通过累积证据的方法来效度获得支持的。
(3)项目分析(Item Analysis)
为了提高测验的信度和效度,CTT理论特别注重测验项目的质量,除了深入研究试题的类型和功能及编制技巧外,还发明一系列筛选、甄别项目的方法,统称为项目分析,其中最主要的是难度分析和区分度分析。项目难度的主要指标是通过率,即在该题上答对的人数与全体被试的比率(或平均得分与该题满分的比率)。仅难度还不足以说明题目质量的优劣,CTT还提出以题目对被试水平区分鉴别能力作为评价试题质量的区分度概念。
(4)常模(Norm)
CTT理论认为,仅从测验试卷上的得分不能获得被试个体确切地位的信息。为了对测验的分数进行合理的解释,提出常模的概念。所谓常模即是从某一总体中抽取的被试样本在该测验上得分的分布,以常模团体的平均数(或中位数)为参照点,将个体的分数标定在高或低于参照点的某一位置以确定该被试在团体中的相对地位。这种标定可以通过原始分数(Raw Score)转换成量表分(Scale Score),或称导出分数。CTT将这种类型的测验称为常模参照测验(Norm-referenced Test),与此相对应的称为标准参照测验(Criterion-referenced Test),其测验分数的解释与转换方法有所不同。
(5)标准化(Standardization)
所谓标准化是指对测验实施程序、对象范围、施测环境、测试方式、测验时限、分数解释(常模)作了统一的规定,使测验能够在异时、异地,不同的主试等条件下进行,并能得到同等有效的测验结果。标准化的思想主要来自于自然科学中对实验条件进行严格控制以降低测量误差,其方法主要源自实验心理学中对无关变量和干扰变量控制的方法。
2 概化理论
凡测量都有误差,误差可能来自测量工具的不标准或不适合所测量的对象,也可能来自工具的使用者没有掌握要领,也可能是测量条件和环境所造成,也可能是测量对象不合作所引起。总之产生测量误差的原因是多种多样的,而CTT理论仅以一个E就概括了所有的误差,并不能指明哪种误差或在总误差中各种误差的相对大小如何。这样对于测量工具和程序的改革没有明确的指导意义,只能根据主试自己的理解去控制一些因素,针对性并不强。鉴于此种情况,二十世纪六十至七十年代初,克伦巴赫(Cronbach)等人提出了概化理论(Generalizability Theory)简称GT理论。
GT理论的基本思想是,任何测量都处在一定的情境关系之中,应该从测量的情境关系中具体地考察测量工作,提出了多种真分数与多种不同的信度系数的观念,并设计了一套方法去系统辩明与实验性研究多种误差方差的来源。并用“全域分数”(Universe Score)代替“真分数”(True Score),用“概括化系数,G系数”(Generalizability Coefficent)代替了“信度”(Reliabilty)。
概化理论认为,测量的总方差可以分解为代表目标测量的方差成分和构成误差的种种方差成分。测量工作中要加以认识和予应用的心理特质水平是测量目标。而构成测量条件与具体情境关系的因素,称为测量侧面(Facets of Measurement)。如学生阅读能力测验,其目的是对学生阅读能力的测量,因此,阅读能力就成为测量目标,除此外试题的水平和评分者等因素也会影响测验的总变异。这两个因素就是测量侧面。这里对学生阅读能力的测量是在双侧面情境的条件下进行的。测量侧面中的单个事例叫侧面的水平,如有两个评分者甲和乙,则评分者这一侧面就有两个水平。测量侧面又分为随机侧面和固定侧面。随机侧面是指测量侧面中所包含的各水平中是类似水平的随机样本,而非固定不变的侧面,如大规模考试中评分者每次都有可能不同,由这样变化的评分者所组成的测量侧面就称为随机侧面。固定侧面是指在各次实施中测量侧面的所在水平一直保持不变的测量侧面,如标准化的心理测验中测验的项目总是一样,这样的侧面就叫固定侧面。因此,进行测验的标准化就是对某些测量侧面进行固定。固定测量侧面可以减少测量误差,但却会使测量目标变得更为局限。比如,把阅读理解题定为对科技说明文,这时,所测的特质就不再是一般的阅读理解能力,而是特定的对科技说明文的理解能力了。这样,测验所得的分数就不能再推广到原来那么宽广的范围了。
概化理论强调,测量目标是具体的,并不是绝对固定不变的。因而全域分数也就不固定,可以有多种。一方面,当固定侧面时,侧面本身会转化为测量目标的一部分(如对一般阅读理解能力的测量转变为对科技说明文的测量),测量目标要局限化;另一方面,当测量中考察目的与应用需要改变时,测量目标对象就可能完全转移。比如,当作文考试结果是要对考生作判断时,测量目标就是考生的作文能力,若要把评分严与评分宽的评分者区分开,评分者的能力就成了测量目标,也即测量目标就完全发生了转移。显然,测量目标不同时,标志测量目标的分数也就不同。测量目标在具体关系条件下的分数叫全域分数。这样,有时对同一批测量资料来说,当测量工作的具体关系变化时全域分数也会变。即同一测验资料就可能有多种全域分数。
概化理论把全域分数方差对总变差的比称为为概括力系数(简称G系数)。而总方差可以分成全域分数方差(δ2 (p)和误差分数方差(δ2(δ)),如果测验是常模参照性测验,则G系数E2ρ是评价测验稳定性程度的最佳指标:
即: E2ρ=(δ2(p))/[ δ2(p) +(δ2(δ))]
若该测验是标准参照性测验,则其依存性j指标是测验稳定一致性的最好指标。
j=(δ2(p))/[ δ2(p) +(δ2(△))]
上两式中,误差方差δ2(δ)可能是很多项的和,如上例中考生的阅读理解能力的方差是标志测量目标的方差,即为全域分数方差记为(δ2(p)),而试题、评分者及三个主效应间的交互作用方差(共有7种方差成分)都不应包括在全域分数方差之中,作为误差方差(δ2(δ))的一部分,是构成总方差的成分之一。由此可见,当全域分数方差不变,而误差分数方差增大时,概括力系数值降低,信度降低。反之,当全域分数方差增大,而误差分数方差不变,则概括力系数增大,信度提高。所以,随着测量情境关系的变化,测量目标与侧面的变动,概括力系数即信度也就会不同。同一批资料就可能有多种不同含义与取值的概括力系数。一般说来,增大概括力系数的方法有两种:第一种是,固定测量侧面(如固定试题)。第二种是增加侧面所包含的水平数(如增加试题或评分者数目)。(漆书青,1993)
概化理论是用方差分析的方法来全面估计出各种方差成分的相对大小,并可直接比较其大小。虽然真分数理论也可以分别地估出某一方差成分的大小,如代表试题侧面的内部一致性系数,代表评分者侧面的评分者信度等,正因为是单独估出的,这些值之间不能直接比较,也只有对主效应作估计,而不能对交互作用进行估计。而概化理论却能做到这一点。它既能估计出主效应,也能估计出交互作用效应,并能对各估计值的大小进行直接比较。在概化理论中,理论估出各方差成分相对大小的过程,叫概化理论的概括分研究阶段或称G-研究阶段。
概化理论并不内静止地分析各种误差来源,还要在G-研究的基础上,通过实验性研究,进一步考察不同测验设计条件下的概括力系数的变化状况,如固定侧面或增加侧面水平下的变化状况,从而探求到最佳的控制误差的方法,作出最佳的设计决策,从而改进测验的内容、方式方法提供了有价值的信息。这一阶段称作决策研究或称D-研究阶段。
GT在研究测量误差方面有更大的优越性,它能针对不同测量情境估计测量误差的多种来源,为改善测验,提高测量质量有用的信息。其缺陷是统计计算相当繁杂,如果借助一些统计分析软件可以解决这一问题。GT理论目前在我国还处于实验研究阶段,在面试、考核等主观性测评中有一些应用(刘远我,张厚粲,1998)
3 项目反应理论
任何一种理论都不可能是完美无缺的,作为测量初期发展起来的理论更是不可避免地存在着一些缺陷。项目反应理论(Item Response Theory, IRT)则是在反对和克服传统测量理论的不足之中发展起来的一种现代测量理论。
无论是CTT还是GT,其测验内容的选择、项目参数的获得和常模的制定,都是通过抽取一定的样本(行为样本或被试样本),因此可以说二者都建立在随机抽样理论基础之上。它们的局限性主要表现在以下四个方面:
(1)测量结果的应用范围有限。一般来说,对测量误差的控制有三种方法:配对或标准化、随机化、统计调整。配对或标准化技术的应用使得误差变量的影响不能解释测量结果的差异,随机化技术的应用可使误差变量的影响不能在测量结果上形成系统误差。统计调整技术建立在数学模型基础上,将误差变量的影响参数化,从而在测量中调整参数估计值,减少误差变量的影响。经典测验理论主要应用的是配对或标准化技术和随机化技术。然而,使用配对或标准技术的测量结果仅仅能在相同的测量条件下成立,却不能将其拓展到非标准化的环境之中去,使得测量的应用受到很大的限制。
(2)测量分数赖性于具体的测验(内容)。经典测量理论控制误差应用标准化技术,但其标准化的对象是测验的各种外部变量,对测验的内部变量即测验的项目的“性质”这一变量却没有也不可能实现标准化。这就造成了测验分数对具体测验的依赖性,迫使经典测验理论要么使用统一的试卷,要么使用实际上并不平行的所谓“平行试卷”。这种处理方法,即给实际操作带来困难,也给结果的解释带来较大的误差。
(3)测量参数依赖于被试样本。经典测量理论构造了一个完整的理论体系,同时设计了一套参数指标来刻划测量各方面的特性。如测验的信度、效度、项目的难度、区分度等。但是这些参数的估计对样本的依赖性是很大的。测验的信度和效度采用相关分析法,同样受到样本的影响。为避免抽样误差对参数估计的影响,经典测量理论特别强调样本对总体的代表性。但经典理论所应用的是随机抽样,随机抽样总是偏差存在。何况在实际工作中,由于客观条件的限制,还不能做到随机抽样。因此,参数估计值对样本的依赖性使得所估参数对测验的分析的价值是有限的。
(4)信度估计的精确性不高。测量的重要目标就是降低测量误差,提高测量的精度。在经典测量理论中,信度被定义为真分数的变异在总变异(观测分数)中所占的比率。然而,真分数的方差是无法求取的,误差的方差也无法计算。为了估计信度,CTT就提出了平行测验的概念,并在此基础上推演出了若干个信度估计公式。但是严格的平行测验是不存在的,等价测验也很难获得的,在此基础上估计的测验信度很难达到比较高的精确程度。另外,经典测量理论中的信度估计值也是一个笼统值,即假定对不同能力水平的被试来说,测量的误差是相同的。而事实是,一份测验只有在施测于能力水平与测验难度相当的被试时容易获得比较高的测量精确度。当测验施测于能力水平高于(或低于)测验难度的被试时就容易产生较大的测量误差。而且测量误差值会随着被试水平与测验难度距离的增加而变大。
项目反应理论研究是以潜在特质为假设并从项目特征曲线开始。所谓项目特质曲线就是用能稳定反映被试水平的特质量表分代替被试卷面总分作为回归曲线的自变量,并把求得的被试在试题上正确作答概率对特质分数的回归曲线称为项目特质曲线(Item Characteristic Curve,简称ICC)。项目反应理论研究中的一项重要工作就是要确定项目特征曲线的形态,然后写出这条特征曲线的解析式,即项目反应函数,也称为项目特征函数(Item Characteristic Function,简称ICF)。
第一个项目反应理论模型是由洛德于1952年提出的双参数正态肩形曲线模型。其项目特征曲线的形状和函数如下。
θ表示被试特质水平的参数;Pi(θ)表示特质水平为θ的被试在项目I上正确回称的概率。从理论上讲,θ的取值在-∞和+∞之间,当θ=-∞时Pi(θ)为0,当θ=+∞时Pi(θ)为1;bi为项目难度参数,它与特质θ定义在同一个量表上。取θ=bi代入上式,得Pi(θ)=0.5,可见b点是肩形曲线的对称中心,也是曲线的拐点;ai称为项目的区分度参数。从图中可以看出,ai是曲线在拐点bi处的切线斜率的函数,即
自洛德提出第一个IRT模型后,许多学者投入到此领域的研究中,提出了很多种模型,目前应用最多是伯恩鲍姆(Brinbaum)提出的逻辑斯蒂克模型(Logistic
Model)和拉希模型(Rasch Model)。逻辑斯蒂克模型如下:
上式是三参数模型,除了试题的难度参数bi和区分度ai以外,他还增加了一个猜测参数ci, ci通常定义为被试中能力水平远低于项目难度2/ai个单位的人在该项目实际猜测作答获得成功的概率。当令ci=0,则上述天参数模型就变成了双参数模型,如ci=0且ai=1,则变成了单参数模型,逻辑斯蒂克的单数模型与丹麦学者拉希(Rasch)提出的单参数模型是相同的。拉希模型是在实践中最常用的模型之一,其模型如下:
与CTT理论和GT理论相比,IRT具有以下优点:
第一,项目反应理论深入测验的微观领域,将被试特质水平与被试在项目上的行为关联起来并且将其参数化,模型化,是通过统计调整控制误差的最好方法。若模型成立并且项目参数均已知,则模型在测验中为项目性质调整数据,可生成独立于测验项目性质的特质水平测量,这是项目反应理论建立项目反应模型的最大优点。也就是通常所说的被试能力估计不依赖于测验项目的特殊选择。
第二,IRT模型项目参数的估计独立于被试样本。项目特征曲线是被试作答正确的概率对其潜在特质水平的回归。而回归曲线并不依赖于回归变量本身的次数分布。对于项目反应函数来说,已知特质水平面为θ0的被试在项目i上正确作答的概率仅仅依赖于其值θ0,并不依赖于具有θ0水平的人数有多少,也不依赖于其它θ取值上的人次数。所以,在求取项目特征曲线的各种参数时,由于回归线的形状、位置都不依赖于被试的分布,所以它的参数,包括难度、区分度和猜测参数也都是不变的。
IRT的第三个优点是能力参数与项目难度参数的配套性,亦即项目难度参数与能力参数是定义在同一个量表上的。这样,对一个能力参数已知的被试,配给一个项目参数已知的试题,我们可以立刻通过模型预测被试正确作答的概率。如果估出被试的能力,我们可以在题库中选出难度与其能力相当的项目进行新一轮的测试,使得能力估计更为精确。这一特点为自适应测评奠定了基础。
第四个优良性质是通过模型测得的被试能力水平,可以精确估计其测量误差。这一优良特性得益于伯恩鲍姆的工作。他把费啸的描写测验信息结构的测度引进了项目反应模型。他提出在项目反应模型下,能力参数未定的被试在n个测验项目上的信息测度可由下式给出。其中Ii(θ)是项目i上的信息,Pi’(θ)是Pi(θ)的导数。
利用IRT这些优良性质,可以开发优质题库,可以按测量精度目标编制各种测验试卷,可能实施测验等值,可以侦察测验项目功能偏差,可以实现计算机化的自适应测验(CAT)。
项目反应理论的发展除了自身的基本理论系统,模型种类,数据模型拟合检验方法和参数估计方法的发展之外,在实际应用方面也有很大成就,主要表现在三个方面:一是指导测验编制。伯恩鲍姆和费啸的测验信息结构的测度引入测验,导致通过建立测验信息目标函数来影响测验的结果,从根本上改善了测验编制的指导思想。在此基础上发展起了多种测验编制指导方法,特别是对目标参照性测验编制的指导,一改经典测验理论软弱无力的指导状况。二是计算化自适应测验的兴起,其三是项目反应理论认知测量模型的出现,将测量导向与认知心理学相结合的方向,应用测量模型直接探索人的认知结构。
IRT的优良特性确实是测评希望达到的理想状态,但也存在着一定的局限性,首先它假定所测的特质是单维的,这只是一种理想状态,在现实中很难满足这一假设。其次,现有的IRT模型主要是针对的是二级评分试题(即只有正确与错误两种答案的试题),而对多级评分的试题模型,虽说有一些探索,但还不是太成熟。第三,IRT的参数估计不依赖于特定的样本,但是要使参数的估计具有稳定性,需要大样本才可以,而在现实的测评中要对大量的试题进行大样本测试以获取稳定的参数估计值,其人才和物力的投入都是相当可观的。上述问题都制约了IRT理论在实践中应用的推进程度。但必须提出的是,IRT代表了现代测量理论的发展方向,随着统计理论成熟和计算机技术的普及和测评需求的发展,IRT理论将逐步扩大其的现代人才测评中的应用范围。
上述三种测量理论构成了现代人才测评的理论基石。三种理论各有长短,经典理论容易理解、操作简单,体系完整,在现实中更易于被接受,因为适应面很广。GT理论主要解决测量误差的问题,对于分析测量的信度有一定优势。IRT理论数理逻辑严密,测量精度高,但对使用者的素质和客观条件都有很高的要求,故应用的范围受到限制。在人才测评实践中,要根据具体的测评对象、目的和具备的条件选择恰当的理论来指导测评工作。当然如果能将几种测量理论的优势结合起来则会获得更好的测评结果。

温馨提示:答案为网友推荐,仅供参考
相似回答