心理测量学：发展、实践和挑战

现代社会无处不在的测量和量化是人们认识世界的科学方式。

在重视心理学的视角下，心理学和统计思维相结合，有助于心理学理论的构建和人类行为的解释。

与温度、压力等物理属性测量不同，心理测量包括智力、知识、能力、态度、人格特质的测量和教育测量，是一个高度隐含和抽象、依赖模型的研究领域。

基于心理测量存在不完备性的共识，心理测量学家对科学的独特贡献在于将误差概念引入统计模型，发展评价解释测量结果的标准和体系。

当前，心理测量和教育测量已经渗透到社会生活的各个环节，跨学科合作日益加深，社会发展需求不断增长，新技术、新仪器以及跨领域研究大量涌现，心理测量理论的发展和实践应用面临新的契机和挑战。

心理测量的理论发展心理测量学兴起于19世纪末20世纪初，经典测试理论( Classical Test Theory，CTT )是第一个实现数学形式化的心理测量理论。

该理论将个体在测量工具上的表现称为观察点数，观察点数既包括测量工具所测量特性的真实值，也包括测量中存在的误差。

虽然不能直接得到真值，但是可以通过观察得分间接得出。如果无限多次重复测量，观察分数的期望值将无限接近我们关注的真实值。

CTT的理论体系比较完善，模型直观形象、易于理解，已经被广泛接受和应用。

但该理论还存在一些局限性，如对测量误差及其来源的认识比较笼统，忽视了测量情况对误差的影响；对测量的检测取决于平行试验，但平行试验的条件在实践应用中难以满足；主题无偏估计依赖于代表性样本，易受采样方法的影响；每次测试对特定总体只有一个测量标准的错误，即测量误差每个被试都是一样的，这不符合大多数人的共识。

概化理论( Generalizability Theory，GT )提出“测量情境关系”的核心概念，认为测量目标与测量情境共同构成测量情境关系，并扩展到基于测量结果的推理和决策质量评估。

GT分解测量点数的总方差，估计误差源，尽量减小误差方差，根据概化系数可靠性指数评价测试精度。同一测量目标根据测试性质和测试情况关系，可以具有多个置信度。

经典测试理论向现代测试理论的转变发生在20世纪52、70年代，美国心理测量学家洛德( Lord )于1952年首次提出双参数正态肩形曲线模型，项目反应理论( Item Response Theory，IRT )

IRT认为被试的潜在属性水平可以说明测试中的性能，利用项目特征函数明确项目回答行为和潜在属性水平的定量关系。

IRT对不同能力的被试有不同的衡量标准，这意味着同一主题对不同能力衡量的可信度和贡献存在差异，在理论上更有说服力。

然而，由于IRT的基本假设(单维性、局部独立性、单调性)难以满足大多数测试场景，多维项目反应理论和大量展开模型应运而生。

过去20年来，IRT的模型开发、参数估计算法、IRT在评价中的应用等研究仍然是心理测量学领域期刊内容的重要组成部分。

20世纪80年代，认知心理学为受试者解决问题的加工过程提供了深刻的认识，为心理和教育测试的编写和分析提供了新思路，成为教育评估领域的新里程碑。

无论是CTT还是IRT，被试的能力都按特定能力或特质的连续体排序，而认知诊断模型( Cognitive Diagnostic Model，CDM )可以提供丰富的学习历史和准确的学习成果诊断信息。

考生在考试中的表现被视为一系列动态心理过程的加工结果，通过将动态心理过程抽象为“认知属性”，将考试问题与认知属性对应起来，建立——Q矩阵，再通过建立更精细的模型来估计考生在考试中认知属性上的知识状态，从教育的角度引导学生尽快

心理测量的实践应用心理测量的发展不仅体现在理论和模型的研究进展上，也体现在心理测量的大规模实践运用上。

自1904年第一个智力量表问世以来，经典测量理论迅速普及，应用于人格、智力、态度、兴趣、动机、行为模式和认知发展等多种心理品质或素质的测量，对心理学非常有贡献，是构建心理学理论或实验研究的工具。

经典测量理论的发展为解决实际问题提供了理论指导，验证测量信度和效度的内涵不断更新，从初效效度到测试实施，从分数解释到决策评估，形成了实践中保证测量结果准确使用到什么程度的论证体系，长期

20世纪80年代以后，IRT模型以其多种形式严重影响了教育评估和人力资源，从以前的琐碎使用发展到现在许多国家的普遍使用，成为大规模评估项目中使用最广泛的模型。

一个世纪以来，不断发展的心理测量理论和模型被广泛应用于教育、人力资源、临床医疗、市场调查、风险决策、工业、体育、政治和军事等现代社会各行各业，使心理测量成为一个具有巨大商业影响的繁荣领域。

教育评估仍然是心理测量应用的最重要领域。

心理测量作为教学评价的工具，通过测量教师可以发现学生的心理问题和学业短板，有针对性地进行心理干预和教育。

由美国教育研究协会、美国心理学会和美国国家教育测量协会联合颁布的《教育与心理测量标准》提出了考试创建、实施应遵循的基本原则，规定了考试应达到的技术要求。

许多大型考试机构、教育集团、国家教育机构、人力资源机构都投入了考试的开发和实施，如美国教育考试服务中心开发了美国高考、研究生入学考试、学术能力评估考试、国际交流英语考试、母语非英语者英语能力考试和企业管理研究生入学考试等。

目前，心理测量广泛应用于测试设计、制作与实施、题库建设、分数报告、公平性检测等一系列教学评估环节，各种程序和应用已经非常成熟。

以学生为中心的评估包括成就测试、学习能力预测、人才选拔测试、档案式评估、人格调查、价值观调查等学生和成人群体的大规模调查评估。围绕教师和教育质量的评估包括课程评估、增值性评估、教育行为观察方法调查等国际教育

另外，人力资源的开发呼唤高质量的测试。

围绕人才选拔和职业选择评估实践，美国劳工部制定了《测试与评估：雇主实用指南》，帮助各级管理者和人才部门在法律框架下合理使用测试。

准入类职业资格考试开始应用于医师资格考试、教师资格考试、飞行员选拔考试、建筑师注册考试等职业选拔，对从业人员的职业素养进行检测。

此外，心理测量对政策分析的支持和贡献也有所增加，不仅有助于研究教育理论和评估实际问题的解决方案，而且有助于对涉及教师政策、教育改革、法律、性别和教育机会公平性等社会问题的政府官员和公众进行重要的政策分析。

随着评价从结果导向的单一化评价向过程导向的多元化和形成性评价的转变，认知诊断的思想和模型受到越来越多不同领域的关注，心理测量领域和计算机领域的共同努力推动了基于认知诊断的自适应学习和自适应评价的发展和应用。

多模态数据采集和智能处理技术为突破原有实践中难以解决的问题带来了诸多可能性，计算机自动评分技术、交互、游戏化等新的评价形式层出不穷，并应用于各类考试和行业。

面对当前快速变化的环境和技术，心理和教育测量专家应保持开放和乐观的态度，融合计算机、认知科学等其他领域的先进技术，推动心理测量长期积累的经验和方法更好地为实践服务。

智能时代的心理测量面临着机遇和挑战不断发展完善的测量理论是解决实践过程中问题的基础社会持续发展带来的新需求同时也影响着测量方法和技术的创新。

目前，心理测量学几乎涵盖了所有有利于人类行为和社会科学的统计方法，并呈现出与其他学科迅速融合的趋势。

在此过程中，心理测量的理论和实践面临着前所未有的机遇和挑战。

信息时代出现了许多实践需要和发展契机。

另一方面，仍然存在提高测量生态有效性、高效方便地进行大规模测量的需求；另一方面，电子设备逐渐融入我们的生活，影响着我们在虚拟环境和现实环境中的行为和特质。

已有研究显示了心理测量与信息化融合的可能性。

例如，测量的数据源不仅限于问卷和测试，还可以来自虚拟环境中的行为痕迹和文本信息，以及图像、视频信息和可穿戴设备上记录的生理信息。

在实现个体特质、能力测量的基础上，可以为个体提供有效的反馈和建议，实现个性化的自适应学习。

特别是后冠状病毒时代可以加速网络教育的大规模实现和应用，解决燃眉之急，但网络教育与评价的新范式还没有达到规范和合理化的要求，心理测量与其他学科领域的融合与发展还需要注意许多问题。

在未来多种测量范式并存的发展趋势下，现代心理测量学已不仅与心理学和统计学相结合，而且与不同学科领域形成交叉关系。

现代心理测量学是多元化的研究领域，在珍惜多元化发展的同时，应该突破不同领域各自的政治障碍，重新思考心理和教育测量的标准和概念体系。

心理测量快速发展的趋势带来了一些挑战性的问题。

首先，随着认知科学和信息技术的发展，比以往任何时候都要丰富的个人数据与传统的测量数据有很大的不同。

其次，由于数据和模型复杂性的增加，许多模型都是一个黑匣子，隐藏着重要的算法和假设，但心理测量和其他学科大数据的收集和解释能力仍然十分有限。

因此，测量工具的开发、实施和解释，更应重视数据采集与处理工作的可靠性，心理测量专家作为可靠的中介者，应坚持对测量结果和使用评价的积极追求。

科学合理地分析测量数据并根据测量结果做出准确的决策对当今社会和未来仍然至关重要。

在此过程中，心理测量学家要坚持谨慎乐观的态度，发挥自身优势，对具体操作程序和标准规范提出有效的评估方案，兼顾测量效率和公平。

从未来的发展来看，心理测量学不仅仅是一个提供统计和数据分析模型或方法的工具箱，更重要的是，面对当前快速更迭的应用环境和需求，激发人们对各领域测量意义的思考，在心理测量与其他学科理论快速融合的发展时期，测量目标和方法的本质

(作者单位：北京师范大学中国基础教育质量监测协同创新中心)来源：中国社会科学网-中国社会科学报作者：辛涛

相关推荐