【恢复高考40周年(21)】张厚粲:教育测量学:高考科学化的技术保障

  作者:张厚粲,北京师范大学心理学院,心理学家,教授。

  原文刊载于《中国考试》2017年第8期。

  

  摘要:高考在教育领域发挥着“指挥棒”的作用。将心理统计测量技术用于高考研究,为提高高考试题质量提供了科学依据,使高考能够对考生作出客观、全面的评价。教育和心理测验的发展趋势不仅是预测考生今后在大学的学习成绩,还要关注考生的学习发展。

  关键词:恢复高考;高考改革;测验技术;高校招生

  从1977年恢复高考以来,高考已经走过了40年。40年来,高考一直是全社会关注的焦点,在教育领域发挥着“指挥棒”的作用。回望40年来我们走过的路,或许可以对今天的高考改革有所启发。

  1979年,我首次给北京师范大学心理专业“文化大革命”后招收的第一个班——78级同学开设了《心理统计》课程。1980年,我又邀请出生于中国台湾、毕业于美国明尼苏达大学心理系的林安玲老师给78级同学开设了《心理测验》课程。同学们通过学习认识到,借助于心理教育测量学理论和统计学技术,可以对考试的多方面特质,包括难度、题目区分度、信度、效度、公平性等进行检验,从而可以改进和提高考试的质量,加强考试的科学化程度。考虑到高考在当时具有非常重要的意义,在我的鼓励和指导下,心理专业78级的同学尝试将心理统计测量技术用于高考研究,对高考试卷的质量进行了第一次统计检验。

  1

  高考需要教育测量学

  我们研究小组将最初的研究结果撰写成《对高考试题的统计分析》一文,发表在《北京师范大学学报(社会科学版)》1981年第5期。在这篇文章中,我们提出,高考选拔测验的工具是试卷,试题的好坏对高考质量有重要的影响。好的试题具有良好的区分、鉴别能力,它可以把学习好的和学习较差的学生准确地区分开来,以备择优录取。如果试卷质量不够理想,就不能把最好的学生选拔出来。提高试卷质量是做好高考工作的保证,仅仅凭借个人的经验进行高考命题,不足以保证高考试题和试卷的质量;20世纪以来,对学习成绩的评定已成为一门专门的学科——“心理和教育测量学”,只有基于心理和教育测量原理进行试题和试卷的统计分析,才可以弥补个人经验的不足,从而使高考对考生作出更客观、更全面的评价。

  在对取样问题进行分析讨论之后,我们对取自1979年和1980年高考试卷的两个样本进行了统计分析,分析的内容包括难度、区分度、信度。与此同时,我们还通过北京师范大学教务处取得数学、物理、化学等系的学生高考入学成绩和在校成绩,计算高考的效度系数。

  效度研究发现,只有数学高考成绩可以较好地预测大学学习成绩,而政治、语文等科目鲜有预测能力。信度研究发现,1979年物理试卷的α系数达到0.957,1979年数学试卷的α系数达到0.869,1980年化学试卷的α系数达到0.856,信度比较理想。但是,其他许多科目试卷的信度并不理想。通过区分度分析,各个科目的试卷中都发现了一些区分度较好的题目,也发现了一些区分度较差的题目。这些结果,可以为改进高考命题工作提供实证依据。难度分析发现,1979年和1980年高考试卷均存在一些过难或过易的试题。正是这些难度不当的试题,降低了考试的区分度。

  在这篇文章中,我们结合研究成果比较系统地介绍了效度、信度、难度、区分度等心理测量学的基本概念,介绍了心理测量学的基本原理。

  研究结论认为,高考试题中尽管某个学科试卷和一部分试题具有较好的质量,但仍然存在许多质量不高的试题和试卷,试题的质量很不稳定。造成这种参差不齐现象的最主要原因是依旧沿用经验式命题方法。一个人的经验再丰富,也难免带有一定的局限性。再好的售货员不用尺或秤,而仅凭经验卖布卖糖是会出错的。同样,再有经验的教师仅凭经验来编制测验也并不可靠,很难保证试题质量。因此,我们认为,应更多地采用客观性选择题。有人担心选择题虽然会提高测验的信度,但由于选择题不能考查学生综合运用知识的能力,因此又会降低效度。我们认为,一个试题能否考查综合运用能力,不在于其形式是选择题还是论述题,而在于其内容,良好的选择题同样可以考查这种能力,更何况一份试卷可以包含多种题型。为了不断提高试题的质量,应该大力开展教育和心理测量学研究,应尽快成立专门的常设研究机构,负责研究教育测量问题,同时也要培养我国的教育测量技术队伍。

  在实证研究的基础之上,我们建议在高考中更多地采用客观性选择题。虽然论述题能够较好地考查学生组织材料能力和创造能力,但评分过程难以克服主观因素的影响,评分者信度不高,很难反映学生的真实水平。研究发现,1983年高考同一份语文卷不同省份间评分差距高达33分,同一省内评分差距高达23分,其中作文差异最大,满分45分的作文,评分差距高达27分。

  在这篇文章中,我们还对根据双向细目表编制试卷、对试题进行统计分析、题库建设、常模建设等方面提出了具体的建议。

  结合实证研究结果,我们提出在高考的总分计算中以标准分取代原始分的建议。我们以1984年高考成绩为例来说明采用标准分计算总分的必要性。1984年高考的数学考试,题目出得活,对知识的覆盖面宽,着重考査学生灵活思考、综合运用已有知识的能力。试卷分析结果表明,对于高分考生具有很好的题目区分度,适合当时全国高考录取率很低的实际情况。但是,试题过难,在全国19个省、市、自治区中,及格率最高的省份为23.1%,最低的省份只有0.73%,总平均及格率为10.8%,因此,在高考总分中,数学成绩所占比重很小,对于大学录取的影响微乎其微。相反,语文、政治等容易得分的科目在大学录取中反而发挥了较大的作用。

  2

  高考的效度研究

  在教育部有关司局的支持下,尤其是得到当时负责招生处工作的杨学为同志的大力支持与协助,我们又进行了一系列的后续研究,对高考试卷进行了更加深入的统计分析。

  在效度研究方面,我们从全国6个大区各种水平、各种类型的16所高等院校抽取了24个教学班为样本,以大学一年级的各科学习成绩总分作为效标,对1978年、1979年两个年度的高考进行了效度分析。样本包含清华大学、同济大学、四川大学、兰州大学等。结果,在24个相关系数中只有5个达到了显著性水平,不及总数的21%。其中出现了6个负相关,占总数的25%。这一结果表明,高考总分并不能有效地预测学生考入大学后的学习成绩。

  我们分别从北京的市重点中学、区重点中学和普通中学中取样,按文理科分别计算了高考成绩与中学各科成绩的相关。结果,除政治科外,其他各科的相关系数都达到显著水平,即高考成绩与中学成绩之间表现出了很大的一致性。另外,我们请班主任和主要任课教师在高考前填写《中学生学习能力评定量表》,对每位学生从4个方面进行等级评定,内容包括思维能力、记忆力、一般学习品质和社会活动能力,评定内容包含“高考录取可能性”一项。高考成绩公布后,我们发现中学教师评定的预测效度极好,高考总分与评定总分的相关为0.76,高考总分与录取可能性评定的相关为0.99。这一结果表明,中学教师对学生的了解是比较准确的。我们建议,不断完善评定量表,使中学教师在帮助高校选拔人才中发挥应有的作用,从而克服一次高考定终身的简单化的弊病。

  在预测大学学习表现方面,高考的哪些科目预测效度较好?哪些科目预测效度较差?对此,我们进行了实证效度研究。我们用多元回归的方法,以清华大学、北京工业大学、北京中医学院等7所大学某些专业的83级学生为样本,以他们在大学一年级的各科学习总成绩(Y)作为效标,以高考的各科分数建立对Y的多元回归方程,并比较各个偏回归系数。我们为不同专业建立了可以对不同高考科目分数加权的回归方程。从这个回归方程中可以看出,不同高考科目对不同专业的大学学习成绩的预测效度不同。我们发现,对于每个专业,都有3~4科高考成绩具有较好的预测效度。例如,对于计算机专业的学生,外语、数学和物理3科的预测效度明显高于语文、政治、化学、生物4科。对于医学专业的学生,数学、物理、化学、生物4科的预测效度明显高于政治、语文、外语3科。在7科中,以高考化学成绩的预测效度最高,明显高于其他6科。我们还发现,政治和语文两科对各个专业的预测效度都很差,与大学学习成绩的相关系数极低,政治成绩甚至出现与大学学习成绩的负相关。据此,我们建议高考根据测试的不同要求分两次进行。一次是以检査中学知识和一般学习能力为目的的中学毕业统考,考试科目可以较全;另一次是选拔性考试,目的是为培养某一专业方向的高级人才选拔优秀中学毕业生,内容只包括与专业学习关系密切的3~4个科目。我们建议将语文和政治两科的考查问题放到中学毕业时的资格考试。

  3

  好的测验可以帮助学生发展

  考试不仅仅具有选拔功能,更重要的是可以为学生、教师和家长提供改进学习的反馈信息,可以借助“大数据”来改进学习。早在20 世纪80 年代初,我就指出,教育和心理测验的发展趋势是从关注预测转向关注学生发展。

  在1983年第4期的《教育研究》中,我发表了《智力概念的演变和智力测验发展的新趋势》一文。我在文中指出:“心理测验当前正在从强调诊断和预测转向强调发展和提高人们的智力水平。这是心理测验发展的一个更为重要的方面。”我引用了桑代克(R. L. Thorndike)1975年在《比奈测验七十年以后》一文中的一段文字:“从使教育对所有儿童和青年最大限度地发挥作用这一目的出发,我们必须认真面对这样一个由来已久而又一直未受到重视的问题——因材施教,即为发展每个人的能力提供最为有效的措施。一个对学习能力的良好测量还并不等于最佳的教育措施。”另外还引用了比奈1908年在谈及自己的研究目的时一段文字:“对儿童正常发展的深刻了解,不只是非常有趣,而且将有助于进行真正适合儿童能力的教学。”我在文章中指出,心理测验的目的应确定为“提高教学质量、促进智力发展”。这种转变反映出,随着社会和科学的发展,心理测验作为一门科学也发展到了更高级的阶段。

  精心编制的测验可以帮助学生发现学习中的系统性错误。在这篇文章中,我结合几个小学生学习四则运算过程的具体案例,说明精心编制的测验可以把复杂的技能分解为构成它的一些基本思维、操作过程和基本能力要素,可以根据特定的错误类型确认出学生的系统性错误,即不仅指出错误的数量,也指出错误的性质和根源。这种诊断性方法在教学上的重要意义是显而易见的。这是心理测验的一个重要的发展方向。

  4

  结语

  回望40年前我们关于高考改革和考试科学化所做的研究和所提出的建议,我发现,一些建议已经实现:(1)对试题进行统计分析,对试题和试卷质量进行定量化评价;(2)按照“考试蓝图”设计试卷,命制试题;(3)将标准参照的高中学业水平考试与选拔性的竞争考试分开;(4)减少高考科目,根据大学不同专业的需要,按照大学的要求,由考生自己选考若干科目;(5)更多地采用客观性试题;(6)由高中教师对学生进行综合评价。

  受制于种种制约条件,一些建议尚未实现:(1)让高中教师在高校招生中发挥作用,获得更大的发言权;(2)为了保证考试质量进行考前预测;(3)建立跨年度常模,使高考发挥教育发展监测的作用。

  我们关于高考总分采用标准分的建议,在20世纪90年代曾经被全国许多省份采用。进入21世纪之后,又出现了回潮和反复,凸显了改革道路的艰难和曲折。

  2013年11月12日,十八届三中全会通过的《中共中央关于全面深化改革若干重大问题的决定》(以下简称《决定》)第42条明确阐明:“推进考试招生制度改革,探索招生和考试相对分离、学生考试多次选择、学校依法自主招生、专业机构组织实施、政府宏观管理、社会参与监督的运行机制,从根本上解决一考定终身的弊端。”《决定》明确发出了高考制度改革的信号,为教育改革指明了方向,今天需要下决心加以落实。

  2014年9月4日颁布的《国务院关于深化考试招生制度改革的实施意见》中明确指出:改革招生录取机制,探索基于统一高考和高中学业水平考试成绩、参考综合素质评价的多元录取机制。这是当前和今后一个时期指导考试招生制度改革的纲领性文件,标志着新一轮考试招生制度改革全面启动。

  我固然为自己40年前基于实证研究结果提出的改革建议得到认同、在提高国家文化教育水平、促进社会发展和民族复兴方面起到积极作用而感到欣慰,但我也知道,从“写入文件”到真正实施之间,仍有雄关漫道需要跨越。因此,为了将《决定》和《实施意见》变为现实,我们还需要继续奋斗。尽管我今年已经90岁了,但我仍然愿意和大家一道继续推进大学招生制度的改革。

声明:本文由入驻搜狐公众平台的作者撰写,除搜狐官方账号外,观点仅代表作者本人,不代表搜狐立场。
推荐阅读