本站首页|二中一瞥|教育教学|师生园地|校友专栏|校友录|留言
   
   位置: 双峰二中网站 >> 教育教学 >> 教材教法 >> 正文
用户名:

密 码:

注册对象:本校教职工、校友
最新调查
  • 没有任何调查
  • 频道统计
    欢迎您来到双峰二中官方网站
    考试与命题
    字体颜色
     

    考试与命题

    每一个教师当接受到命题任务的时候,总是想要命出一套自己感到满意的试题。而实际结果,有时如愿以偿,主观愿望达到了预期效果;有时则不然,命题者辛辛苦苦,而考试结束后,师生议论纷纷。这就联想到如何理解和吃透命题的要求和标准问题。

    考试命题标准,过去常以题多面广,基础知识覆盖面大,重点突出,在基础知识的灵活性和综合性上有一定梯度来形容一套试题的质量,这种描述性的评价,虽然在一定程度上也能反映一套试题的好坏,但是不够科学。我国著名学者费孝通指出,“在研究工作中怎样运用数据和我们的科学水平有关”,“马马虎虎,……大致如此的态度与小农经济有密切的关系”,他认为“停留在用生动和突出的事例来说明问题这样的水平上,那是危险的,容易犯夸大的毛病,结果会导致脱离实际的偏向,”因而在强调定性分析的同时,也要强调定量分析,做到定性分析与定量分析相结合。

    试题联系着考试。考试常有两类:一类是各类学校招收新生、国家机关招聘公务员和企事业单位选拔人才的招生考试;二是学校教学工作中为某门学科学完或学期进行到一定的阶段所举行的考试。前者为了选拔合格的人才;后者是对学生所掌握的知识、技能和能力的水平进行阶段性的检查和评定,以便从中发现问题,更好地改进教学。实际上,考生在每次考试中的成绩,都不是考生的真正成绩,而是在考生真正成绩基础上加上一个条件误差和随机误差。如果用X表示某考生某一次考试的成绩,X0表示该生的真正成绩。则

    X=X0+E0+ES

    其中ES 是随机误差,它是由于测试过程中受偶然因素影响以及对测试不准确所造成的,即使是对同一套试题,这种误差也是不可能避免。如考场的环境、考生情绪、身体不舒适以及评阅试卷时阅卷老师对评分标准掌握不够等;其中E0是条件误差,这是由于试题内容和形式的改变,题意不清楚,难度不当等因素所引起的。这两种误差常纠缠在一起,除了极为明显的情况外,一般难于直接分辩。因此要使每次考试成绩接近考生的真正成绩,除掉考生在应试中要注意若干事项外。就得从命题角度去力争试题科学化、标准化了,将随机误差和条件误差降到最低程度。换言之,一套理想的试题也就是两种误差最小的试题。

    根据人们积累的经验,在第一类考试中,正常情况下,如果命题合理,则考生成绩应该服从某种正态分布。如果试题太难,则会出现正偏态分布,成绩分布曲线高峰偏向左边;试题容易则会出现负偏态分布,成绩分布曲线高峰偏向右边。如果试题中有一道难题,且占分数最多,若有近半考生得了满分,其他考生得了零分,就会出现多峰分布。当然成绩的分布也与考生的学习情况有关,好的考试成绩往往呈负偏态分布。

    (一)

    在学校里,就功能而言,考试大体可以分为两大类,一类是总结性考试,一类是形成性考试。前者是一种静态性的,指教学任务完成之后,对教学效果进行评价,通过考试评定学生的成绩(如期末考试和学科会考),这种考试是总结性的。后一种考试是动态性的,指在教学过程中进行的考试(如单元测验或期中考试),目的是促进教和学活动的改进,它能把教学过程的中间反锁信息充分利用到后来的教学活动中去。这两种考试既有联系,联系表现在功能常常可以转化,但又有区别,主要区别在于:前者一般是表现学习的水平、个人与个人之间的差异;后者则反映达成教学目标的达成程度上,关心的是个人内部发展。它所要获得的信息主要是:要达成什么样的标准,学生有没有达成这个标准,相差还有多大等。两种考试经常有机会地结合,才能客观、公正地反映教和学的问题,指导教学工作。

    (二)

    我们不仅可以从学生成绩的分布曲线来大体评价试题的合理性和标准化问题,还可以通过计算一套试题的效度、信度、难度和区分度来评价一套试题的合理性和标准化程度。

    效度是衡量试题质量好坏的第一个指标。实际上它是教育测量学里的一个概念,所谓试题的效度是指该试题能够测出学生实际水平的程度。例如一套好的几何试题对测试几何知识和技能是有效的,但对测试历史知识是无效的。一套好的语文试题对测试语文基础知识和技能是有效的,但对测试外语知识是无效的。表面看来这似乎是个显而易见的道理,其实违反这个标准的错误常有发生。如某高考理科数学附加题,按教育部门有关规定,它的成绩将作为准备录取全国重点院校的考生参考成绩。当年全国重点院校在我省招生2215名,按理附加题应该有多于2215人做才有参考价值,而实际上全省考生中对此题动笔的廖廖无几,有分数的学生不超过500人,不能达到衡量尖子学生的实际水平目的,它的效度是极低的。所以一套试题如果要有高效度就必须严格限于数学高考大纲。超过中学数学高考大纲规定、难度不当的试题,显然是违反效度标准的,用它来考察考生成绩是无效的。

    效度的类型有三种:内容效度、结构效度和准测关联效度。常用是的内容效度,这是采用推理的和评判性的分析来评定测验内容是否能测出我们想要测的目标,测验试卷的内容是否能代表所要测量的全部或主要的内容范围。例如,对学校的学科单元测验,或期中、期末考试,分析测验内容和分析教学内容、教学目标,把两者相对照,看前者在多大程度上能体现后者,如果两者互相吻合,则认为该测验具有很高的内容效度,在实际使用中是有效的。反之,则要进行修改和重新编题。测验内容还要防止其它因素的影响。例如,在测量学生学习能力时,测验内容中所用到的知识就应该是规定学生学习过的,不然可能由于知识因素而影响了对学生能力的测量。

    通常效度(公式略)的最高值为1,说明试题完全反映考生的实际水平;效度值为0,说明这套试题考后的成绩和考生的实际水平毫无关系,效度最低值是-1,即考试后的成绩同考生实际水平恰恰相反。

    根据测验的不同性质,对效度有不同的要求,一般希望效度系数至少在0.40以上,当然达到0.70,甚至0.80则更好。

    近几年来我们接触了中学各类数学试题,从中发现影响试题的效度的因素是:

    ①试题的内容超纲,超教材,所考内容不是平时考生所学内容。切有偏、难、怪题目杂在其中。

    ②题义不明,词句艰深难懂(有时其中还夹有别的学科专有名词)。只有那些能读懂看懂的考生才能回答,这种题目一般只能测试阅读能力而不能测试数学的知识和技能。

    ③试题所涉及知识面不广,常集中到某一点,出现知识奇重、奇轻现象。如试题偏重於代数方面内容,这就考察不出考生对三角、解几和立体几何知识的技能的掌握情况了。

    ④试题偏重、偏难,绝大多数考生不能在规定的时间内完卷,致使后面部份内容无法考察。在一套试题中,为了区度好中差考生,安排一定难度的题目是必要的,但必须设制成梯度,不能以难题挡道,影响考生去解答后面部分试题。

    2、信度:它是反映试题的稳定性和可*性的指标,也即用试题考察学生成绩前后一致的程度。一位从美国考察中学数学教学情况的人员回来说,在美国一些中学,常在一次大面积的考试后,用类似的考题,在相隔几天之后抽样考察小部分同学,然后比较“样品同学”前后两次考分之间的差异,由此确定大面积考试的分数是否可*地反映了考生的真实情况。信度高的试题,学生成绩始终如一。他们要求信度在0.9以上,常达0.95,这就要求我们教师在命题时慎之又慎,付出艰巨的劳动。

    实际计算信度系数的方法有多种:

        1)某测验先后举行两次,用积差相关或等级相关公式求考试两项测验得分的相关系数,以此作为某测验的信度系数。这种方法要求前一项测验对后一项测验没有影响,或对每个考试影响几乎相同。

        2)某测验有两个对等的复份(通常称为A卷和B卷),各测一次,求两次测验的相关,这种方法要求必须备有试题不同而性质对等的测验复份。

        3)把一个测验分成等质量的两半,当成两个对等的分测验,这常常是将测验题从易到难排列,然后以奇数题和偶数题分半,再求这两半试题得分的相关系数rhh。当然也可以用其它方法分半后求相关。

        据实验,影响试题信度的原因有:试题数量偏少,且又以大题出现。这样一来,考生做得出可以得较多的分,做不出就会丢失较多的分,使考生的分数上下摆动,易受偶然因素影响,例如碰上准备到的某题或没有准备到的,考生成绩大不一样。假设按中学数学教材中初中十章内容,每章命一题,某次考试只考了5题,很可能甲生会8个,只答对3个,而乙生会6个却答对5个前者掌握知识多得分少,而后者掌握知识少却得分多,这样的试题的稳定性和可*性就弱了,同时由於试题少,也容易造成押题、猜题,把考察学生水平,在一定程度上变成了猜题押宝的本领。

    命题者未能很好处理重点知识与一般知识的关系、知识与能力关系,试题形式与内容的关系,重点不突出,结果是该考的没有考,不该考的又考了,同时试题的难度又不当,题意又模糊,碰上这类题目考生只好凭借猜测或个人理解随意作答。对於象这样质量差的试题,信度一定是低的。另外,在教学过程中,试题时易时难,心中无一定标准。评分标准不科学,评分者常以自己印象和情绪随意给分,都是影响试题信度的因素。

    3、难度是指题目的难易程度。好的试题应该有适当的难度,难度过高或过低对于鉴别考生水平是不起作用的,例如有一年高考理科数学第八题是一道难度很大的试题,据抽样统该题难度值为0.19,平均每人得2.24分。这样的试题也难以考察出学生的水平。试题的难度一般以通过某题的人数与总人数之比或考生所得分的平均值与该题满分之比作为难度的指标,其值越小,难度越大。根据历年来的经验资料,试题难度一般以0.5-0.7为宜。

    据调查,试题难度常有以下十三项指标构成评价体系

    1、超纲度;2、歧义度;3、可猜度;4、陌生程度;5、关卡度;6、关卡深度;7、综合度;8、应用度;9、繁简度;10、提示度;11、计算度;12、教学重点;13、教学难点。

    而整套试卷的难度又有以下九项指标构成了评价体系

    1、试卷容量;2、作答时间;3、选择题坡度;4、填空题坡度;5、解答题坡度;6、题目难度;7、超纲量;8、广度;9、难题比例。

    难度值最高为1.0,表示难度最小,即全体考试都能正确完成;难度值最低为0,表示难度最大。即全体考试都不能正确完成,所以,难度值反映考试通过某试题的比率或正确完成的程度。

    造成试题难度不当的主要原因是命题者没有很好“吃透两头”,一是“吃透”中学课标和教材这一头,不明确什么是“课标内”,什么是“课标外”。不理解什么叫中学课标能达到的难度,而将这一难度理解成中学数学所能达到的程度,结果是高考题出成了数学竞赛题,中学生做的题出成了大学生做的题;二是“吃透”学生这一头,过高或过低地估计了学生,不能真正了解学生的实际水平,也就无法考出学生的实际水平。

    4.区分度:是表示题目对于考生水平区分能力的指标。区分度高的题目,对考生实际水平有较好的区分、鉴别能力,对于这些题目,成绩优秀的学生得高分,成绩差的学生得低分;区分度低的题目,优秀学生、中等学生和差学生的得分无规律或相差不明显,常常出现中等学生和优秀学生的成绩落在同一分数段。国际标准化测验优秀题目的区分度常在0.4以上,若在0.29以下就需要改进或淘汰。例如某年高考理科数学第一、二、三题中就是这种情况。

    影响试题区分度的主要原因是试题“一块板”,即都是容易题或都是难度题,没有层次。区分度高的题应该是将试题设制成三档或四档,分成基础题,小综合题,大综合题和提高题四个阶梯,即使是安置在后面的难题,也要设置几个小的阶梯,让考生凭借自己的知识和能力去“爬坡”,到哪个阶梯终止,就可以按阶梯的高低计算考生的实得分数。这样就可将好、中、差学生区别开来。

    (三)

    通过以上的分析,我们体会到,要命好一套试题必须认真思考以下几个问题:  

    1、要依据中学课标和考试纲要命题。这是提高试题效度的根本。某年全国高考统一招生试题,清华大学、同济大学分别测得当年理科数学试题效度-0.095-0.009,效度出现负值这在一定程度上说明高考分数不能有效地预测进入该校的学生学习成绩。这主要是当时考纲还没有最后确定,教材还没有趋于统一所造成的。后来,虽然高考试题中超纲现象时有发生,但总的方面是好的,是按考纲和教材命题的,这是近四年来我国高考试题效度提高的主要原因。这也告诉我们,平时按课标和国标教材进行教学,考试也就要按课标和国标教材命题,两者保持一致,才能保证命出一套有较高效度的试题。

    2、要明确考试目的和对象。这是命题的前提。命题前,弄清楚考试的目的和对象是非常重要的。只有这样,才能确定试题的难易程度。若是数学竞赛,则试题的灵活性和难度就要大一些,以便选拨出“尖子”学生;若是高考,则试题应注重基础和基础知识及灵活应用两个方面,以利于中学教学和为高一级学校选拔新生;若是毕业考试,则应注重基础知识(最基本、最重要的知识),以便考察学生是否完成了中学阶段的学习任务。如果不注意这些方面,去区别不同对象,就可能“无的放矢”,将高考试题命成了数学竞赛试题,毕业考试命题成了高考试题,造成了大面积的学生成绩大幅度下降的现象,达不到预期效果。

    3、要把握住难度,难度是“四度”中的关键,难度不当,影响效度、信度和区分度。一般说来,中等难度的题目区分度最好,但据有关资料说明,太容易的题目区分度普遍不高,而难度适当却有较好的区分能力,对选拔学生来说还是有效的。因此对于“选拔人才”一类的考试,安排适当数量的难题还需要的;平时教学中为了培养学生能力,根据学生的实际,适当安排一些难题(体现在知识的灵活性和综合性上)也是应该的。作为高校招生考试,为了拉开学生的成绩距离,可安排少量难题。在这里应该知道,难度也是相对的。如某年理科数学第四题,据抽样检查,难度值0.25,是难度很大的问题,实际上这一题是高中数学第二册复习题五的第一题,会者并不难,有些学生之所以不会做,一是逻辑表达能力不够,二是学后遗忘。

    4、在一套试题中要注意安排填空、选择、解答等多种形式的题型,有目的地注意对能力的考察。目前的试题不仅要考察基础知识,还要考察能力水平,这是一件很不容易的。因此在题目中应尽量减少死记硬背的内容、适当增加灵活应用基础知识和测量分析推理能力以及创造思维能力的内容。这一点可在命题前,设计一个考点与不同层次要求的双向细目表,然后据此命题。

    5、要处理好试卷内部结构各方面关系。试题既要注意知识的覆盖面,又要体现重点知识题序的安排要符合考生的心理特点和思维规律,试卷的题序由易到难,题型由客观到主观;试题份量与考试时间相当,各部分内容力求同课时数相当。

    6、每套试题要注意配上一个较为科学的评分标准。目前的各类考试中,评分不客观是影响试题信度的重要因素之一。不同的评分者对于问答题或大的证明题、计算题,评分结果往往不一致,这就难保考生分数的一致性和稳定性。据一资料统计,有一份几何试卷请115名教师评阅,所得分数有60多种。因此一套试题要使它具有高的信度就必须配之以科学评分标准,“到哪一步,就给到哪一步的分,答对多少就给多少分。”不同水平的考生就给不同水平的分数。坚持分段给分法,但分段也不要太细,太细反而不科学,另外对有创造思维能力的学生可以给较高的分数。

     

  • 上一篇: 双峰二中教学常规
  • 下一篇: 一个我自认为做得不错的课件
  • 告诉好友   打印此文  收藏此页  关闭窗口  返回顶部
    | 了解本站 | 设为首页 | 加入收藏 | 站长邮箱 | 用户在线 | 联系我们 |
    举办:湖南省双峰县二中 总监:贺万里   主管:张炼红   维护:蔡波
    校址:双峰县青树坪镇(离320国道300米)   电话:0738-6742450
    备案号:湘ICP备07002518号