核心素養是全球教育界關注的(de)焦點問題,也是當下教育改革的(de)風向标。然而,如(rú)何合理(lǐ)測評學(xué)科核心素養成為(wèi)教育改革和(hé)發展的(de)重要議題,學(xué)科核心素養的(de)測評需加關注各種新型評價形式[1]。認知診斷測評作為(wèi)一(yī)種新的(de)教育測評範式,旨在将嚴格的(de)心理(lǐ)測量标準與形成性評估的(de)目标相結合[2]。通過知識鏈間的(de)關系獲取更恰當的(de)學(xué)習路徑和(hé)學(xué)習進階,更好地(dì)指導教學(xué)實踐。本研究采用認知診斷測評理(lǐ)論,試圖為(wèi)核心素養的(de)測評提供新的(de)視(shì)角和(hé)方法。
一(yī) 認知診斷用于核心素養測評的(de)可(kě)行性分析 1 核心素養的(de)本質特征決定了它的(de)可(kě)測性 可(kě)測性是素養測評的(de)前提,素養的(de)本質決定了素養的(de)可(kě)測性,如(rú)素養是知識、技能、态度的(de)超越和(hé)統整,是一(yī)整套可(kě)以被觀察、教授、習得和(hé)測量的(de)行為(wèi)[3]。素養是完成某一(yī)情境工作任務所必需的(de)一(yī)系列行為(wèi)模式,這些行為(wèi)與績效表現密切相關[4]。核心素養具有可(kě)測量性,可(kě)加以評價,核心素養的(de)表現水平可(kě)經過推測得知,呈現出一(yī)個連續體的(de)狀态,代表構成要素的(de)高(gāo)低(dī)水平[5]。可(kě)見,核心素養是在繼承“三維目标”的(de)基礎上發展出來的(de)、更具有統整性的(de)概念,它不能脫離(lí)知識而存在,是通過知識積累、技能發展、态度養成而形成的(de)綜合行為(wèi)能力。如(rú)歐盟核心素養框架就是将行為(wèi)導向的(de)核心素養分解成知識、技能和(hé)态度三個方面來進行評價的(de)[6]。這種可(kě)分解性,對核心素養的(de)認知診斷測評起着至關重要的(de)作用。 2 核心素養與認知診斷技術都具有內(nèi)隐性 核心素養具有綜合性、內(nèi)隐性、情境性和(hé)适應性等特點,難以直接觀察,必須将核心素養依附于具體行為(wèi),通過觀察外顯的(de)行為(wèi)表現來間接了解內(nèi)隐的(de)核心素養狀況。如(rú)歐盟國家核心素養評價的(de)一(yī)種思路是将核心素養轉換為(wèi)可(kě)觀察的(de)外顯行為(wèi),對核心素養開展評價[7]。認知診斷測評作為(wèi)新型的(de)測評手段,是高(gāo)級潛變量模型,主要解決通過傳統測評無法測量的(de)內(nèi)部能力問題。利用認知診斷測評技術來測量學(xué)生的(de)核心素養,可(kě)以較好地(dì)将核心素養內(nèi)隐的(de)特征外顯化,讓核心素養的(de)測評從模糊狀态轉為(wèi)清晰,為(wèi)了解核心素養的(de)內(nèi)部特征及其結構化特點提供新視(shì)角。 3 認知診斷測評使素養測評更加可(kě)操作 認知診斷需要将核心素養所代表的(de)行為(wèi)能力分析成認知屬性,進而通過現代心理(lǐ)學(xué)和(hé)測量學(xué)的(de)手段對核心素養的(de)內(nèi)部結構、認知規律及其在細粒度上的(de)表現做(zuò)出全面的(de)診斷和(hé)評價。認知診斷測評不僅注重學(xué)生個性化的(de)評價,而且關注群體的(de)學(xué)習路徑和(hé)學(xué)習進階等整體狀态。因此,核心素養的(de)認知診斷測評成為(wèi)了評價學(xué)生學(xué)業成就、考量課标教材合理(lǐ)性、指導教學(xué)有效有序開展的(de)依據。此外,認知診斷測評讓核心素養的(de)計算機自(zì)适應測評也成為(wèi)可(kě)能,如(rú)美國計算機自(zì)适應測驗已經以不同形式存在于州立K-12教育測評中[8]。核心素養的(de)認知診斷測評更加具體,師生對核心素養的(de)理(lǐ)解更加深刻,使得有針對性地(dì)培養學(xué)生核心素養有了可(kě)操作的(de)依據。 二 核心素養測評的(de)認知診斷體系建構 1 理(lǐ)論假設與基礎論證 核心素養的(de)屬性層次界定是核心素養認知診斷測評的(de)基石,它直接影響認知診斷測評的(de)質量。屬性層次既要符合學(xué)科邏輯思維,又要遵循學(xué)生認知規律——這就要求屬性層次建構者在學(xué)科理(lǐ)解的(de)基礎上,充分了解學(xué)生的(de)認知規律,既要有豐富的(de)學(xué)科經驗,又要有大量的(de)學(xué)生知識。Leighton等[9]認為(wèi),目前認知診斷屬性在達到評估和(hé)診斷目的(de)方面存在困難。為(wèi)解決這一(yī)困難,國際上較為(wèi)成熟的(de)辦法是聯合學(xué)科專家、心理(lǐ)測評專家和(hé)一(yī)線教師,來開發認知診斷屬性層次。此外,還可(kě)以采用心理(lǐ)研究的(de)方法來構建适合認知診斷的(de)屬性層次,如(rú)口語報告法、眼動研究技術等。屬性的(de)細粒度直接影響結果的(de)解析深度,由于測評目的(de)不同,其屬性的(de)劃分也存在差異。但從數據的(de)複雜性角度來考慮,一(yī)般屬性個數以6~9個為(wèi)宜。若某一(yī)核心素養的(de)屬性有6個,那麽可(kě)能的(de)屬性類型有以下5種[10],如(rú)圖1所示。 圖1 屬性層次關系的(de)基本類型 2 認知診斷測評編制 在認知診斷測評編制中,Q矩陣起到了結構化統領的(de)作用。Q矩陣理(lǐ)論将被試不可(kě)觀察的(de)認知狀态轉化為(wèi)在項目上可(kě)觀察的(de)作答模式,以此來分析和(hé)推測被試的(de)認知狀态[11]。以圖1中的(de)C類分支型為(wèi)例,用1表示考查該屬性,0表示不考察。這樣,一(yī)道(dào)試題總計可(kě)能的(de)考查模式應有26個。本研究在圖1中C類屬性層次關系的(de)限制下,計算出理(lǐ)想測量模式,如(rú)表1所示。 表1 C類分支型的(de)理(lǐ)想測量模式屬性考查分布 在表1的(de)理(lǐ)想測量模式中,排除學(xué)生做(zuò)題過程中的(de)猜測與忽視(shì)情況,可(kě)以推導出屬性掌握模式及其對應的(de)理(lǐ)想反應模式,如(rú)表2所示。 表2 C類分支型屬性的(de)掌握模式及其對應的(de)理(lǐ)想反應模式 在表2中,屬性掌握模式(100100)表明學(xué)生隻掌握了第一(yī)個和(hé)第四個屬性——在這種掌握模式下,排除猜測和(hé)忽視(shì)情況,學(xué)生隻能夠做(zuò)對T1、T4、T12、T15測試題。 3 認知診斷模型選擇與應用 認知診斷測評依據不同的(de)測評條件開發出了多種模型。以RSM為(wèi)例,該模型為(wèi)了将測量得到的(de)多維度數據降到二維空間進行分類,構建了一(yī)組序偶(θ,ζ),規則空間是以(θ,ζ)為(wèi)參數的(de)分類笛卡爾乘積二維空間。其中,θ表示項目反應理(lǐ)論中計算出的(de)被試的(de)能力值,ζ表示警戒指标,即能力為(wèi)θ的(de)被試實際反應模式偏離(lí)理(lǐ)想反應模式的(de)程度[12]。因此,可(kě)以依據理(lǐ)想反應模式計算出标準的(de)規則點(純規則點)(θRi,ζRi)和(hé)實際反應模式(θXi,ζXi)。定義ζ的(de)值如(rú)公式(1)所示。其中,P(θ)=[P1(θ), P2(θ),…,Pi(θ)](i=1 ,2, 3, …, n),Pi(θ)指能力為(wèi)θ的(de)被試在第i個項目上作答正确的(de)概率。 公式(1) 雙參數評估中P(θ)的(de)計算如(rú)公式(2)所示,其中ai, bi指第i個項目的(de)區分度和(hé)難度,D一(yī)般取常值1.7。T(θ)指正确回答項目概率的(de)均值向量,其計算如(rú)公式(3)所示,其中t1(θ)的(de)計算如(rú)公式(4)所示。 依據以上規則空間模型,計算出純規則點(θRi,ζRi)和(hé)實際反應模式(θXi,ζXi),一(yī)般采用馬氏距離(lí)判别法或貝葉斯方法,按照純規則點将被試分到不同的(de)理(lǐ)想反應模式中,即可(kě)達到對被試進行分類診斷的(de)目的(de)[14]。 4 結果分析與診斷報告 認知診斷測評了解學(xué)生在多維、細粒度的(de)潛在認知屬性上的(de)差異,充分體現了學(xué)生診斷性、個性化的(de)形成性評估特點;同時,也可(kě)以通過知識鏈間的(de)關系獲取更恰當的(de)學(xué)習路徑和(hé)學(xué)習進階,關注統整性的(de)終結性評估。認知診斷測評模型的(de)本質,就是通過心理(lǐ)測量學(xué)手段,按照實際反應模式和(hé)理(lǐ)想反應模式匹配的(de)最大概率,将被試劃歸到不同的(de)理(lǐ)想掌握模式中,進而依據被試在理(lǐ)想掌握模式所處的(de)狀态對被試進行有針對性的(de)屬性掌握策略與方法的(de)補救。除此之外,認知診斷測評還可(kě)以獲得學(xué)生核心素養的(de)學(xué)習進階。學(xué)習進階作為(wèi)學(xué)生學(xué)習某一(yī)領域知識的(de)認知過程和(hé)發展順序,涉及對發展學(xué)生相關認知活動的(de)描述,對整個教育教學(xué)有奠基作用,也可(kě)為(wèi)國家課程标準的(de)修訂、教材的(de)編寫、教學(xué)順序的(de)安排以及學(xué)生學(xué)習效果的(de)測評提供基礎性的(de)理(lǐ)論支持。 三 核心素養的(de)認知診斷測評的(de)案例分析 認知診斷中屬性建構是整個測評的(de)基礎。本研究以數感為(wèi)例進行案例分析,将數感分為(wèi)9個認知屬性[15]——A1:理(lǐ)解整數的(de)基本含義;A2:理(lǐ)解分數和(hé)小數的(de)基本含義;A3:數字的(de)多元化表示;A4:理(lǐ)解整數的(de)相對和(hé)絕對大小;A5:理(lǐ)解分數的(de)相對和(hé)絕對大小;A6:整數運算;A7:分數、小數的(de)簡單運算;A8:分數、小數的(de)複雜運算;A9:整數的(de)應用。數感的(de)認知診斷屬性模型如(rú)圖2所示。按照理(lǐ)想測量模式對屬性考查的(de)要求形成了測評工具,其部分測試樣題如(rú)表3所示。 圖2 數感的(de)認知診斷屬性模型 表3 數感認知診斷測試樣題(部分) 本研究依據規則空間模型建立的(de)序偶[(θ,ζ)]規則,計算出純規則點(θXi,ζXi);依據被試測量的(de)實際數據,計算出實際反應模式對應的(de)序偶(θXi,ζXi);使用馬氏距離(lí)衡量學(xué)生實際反應模式的(de)點與理(lǐ)想反應模式的(de)純規則點之間的(de)距離(lí),其主要的(de)能力值θ和(hé)對應的(de)掌握模式如(rú)表4所示[16]。 表4 數感的(de)認知診斷分類結果 表4顯示,三年(nián)級學(xué)生主要掌握了A1、A2、A3、A4和(hé)A6屬性,并且這些掌握模式對應的(de)能力值相對較低(dī)。四年(nián)級學(xué)生進一(yī)步掌握了A5和(hé)A9屬性,并且對應的(de)能力值也有所增加。五年(nián)級學(xué)生幾乎掌握了所有的(de)屬性,并且在θ=5.48、θ=3.62等高(gāo)能力的(de)掌握模式上占據較大的(de)比例。針對不同水平的(de)學(xué)生,可(kě)以制定個性化的(de)補救方案,如(rú)對于隻掌握A1和(hé)A2的(de)學(xué)生,補救途徑可(kě)以是A3→A4→A5→A6→A9→A7→A8或A4→A6→A9→A3→A5→A7→A8。在第一(yī)種補救方法中,學(xué)生首先了解數字的(de)大小,然後掌握整數的(de)運算和(hé)應用,最後掌握分數和(hé)小數的(de)運算;而在第二種補救方法中,學(xué)生首先提高(gāo)對整數的(de)數感,然後提高(gāo)對分數和(hé)小數的(de)數感。 四 啓示與讨論 1 啓示 (1)認知診斷測評使核心素養的(de)測評從理(lǐ)念性的(de)描述轉化為(wèi)實踐性的(de)操作 到目前為(wèi)止,學(xué)習測評的(de)觀念發生了兩次重要改變:第一(yī)次是由“對學(xué)習的(de)評價”到“為(wèi)了學(xué)習的(de)評價”;第二次是從“為(wèi)了學(xué)習的(de)評價”到“評價是學(xué)習的(de)一(yī)種方式”[17]。評價理(lǐ)念的(de)變化,要求核心素養的(de)評價要突出學(xué)生本身在學(xué)習中的(de)主體地(dì)位和(hé)作用,能夠制定個性化的(de)評價方案和(hé)策略。然而,現有核心素養的(de)評價标準僅停留在對認知水平的(de)描述階段,是一(yī)種表現性的(de)标準,這種标準是學(xué)生被劃入相應類别所需的(de)特定表現(包括知識、技能和(hé)能力等)的(de)最低(dī)水平描述[18],其評價的(de)結果主觀性太強,故難以提出可(kě)操作的(de)培養措施和(hé)補救措施。核心素養的(de)認知診斷測評将評價的(de)目标整合到測評體系中,依據學(xué)生行為(wèi)能力表現推測學(xué)生素養水平,可(kě)實現通過外在表現推測內(nèi)隐特征的(de)目的(de)。這種評價将學(xué)生的(de)素養水平按照不同的(de)理(lǐ)想掌握模式進行細分,并給每種掌握模式制定了個性化的(de)補救方案。可(kě)見,認知診斷測評技術可(kě)将籠統的(de)核心素養評價更加清晰化,為(wèi)核心素養評價并通過評價促進核心素養的(de)培育起到了重要作用。 (2)核心素養的(de)認知診斷測評兼具形成性評估和(hé)終結性評估的(de)特點 核心素養是一(yī)個人在某個方面的(de)關鍵能力和(hé)重要品質,具有高(gāo)度的(de)抽象性和(hé)綜合性,因此其評價需要關注整合性,不宜碎片化。但是,由于核心素養的(de)內(nèi)隐性和(hé)綜合性特征,在如(rú)何評價、培養學(xué)生的(de)核心素養方面存在很大困難,因此核心素養的(de)評價還需要進行形成性評估。如(rú)PIAS中核心素養的(de)評價既能夠通過作答反映學(xué)生在思維品質上的(de)差異,也可(kě)關注學(xué)生的(de)個性化發展和(hé)創造性表現,有利于對學(xué)生進行個性化診斷[19]。核心素養的(de)認知診斷測評可(kě)以得到每一(yī)個學(xué)生的(de)診斷報告,發現學(xué)生在學(xué)習中存在的(de)問題,以及在全體學(xué)生中所處的(de)水平,從而有針對性地(dì)提出補救的(de)方案和(hé)路徑。在終結性評估方面,通過測評可(kě)以得到核心素養的(de)學(xué)習進階,進一(yī)步為(wèi)培養核心素養提供合理(lǐ)的(de)路徑和(hé)策略。學(xué)習進階是修訂課程标準、編寫教材、進行教學(xué)與學(xué)習評價的(de)重要基礎,為(wèi)整個教育教學(xué)的(de)發展提供了有效支持。認知診斷精細的(de)過程性、個性化測評特點,為(wèi)核心素養的(de)測評提供了抓手;認知診斷對整個認知規律和(hé)學(xué)習進階的(de)把握,則為(wèi)核心素養的(de)測評指明了發展方向。 (3)認知診斷測評為(wèi)核心素養的(de)計算機自(zì)适應測評奠定了基礎 學(xué)習測評發展的(de)趨勢是走向計算機自(zì)動化。“互聯網+”時代的(de)到來,給信息、通訊和(hé)技術(ICT)在學(xué)習測評中的(de)應用提供了巨大的(de)發展空間。美國的(de)ICT測評技術已經開啓了從“明确考試的(de)範式”到“嵌入式評價範式”的(de)轉變。在“明确考試的(de)範式”中,測評強調精準測查學(xué)生的(de)學(xué)業表現;在“嵌入式評價範式”中,測評強調有針對性的(de)及時反饋[20]。可(kě)見,學(xué)習測評技術的(de)自(zì)适應性具有傳統測評所缺乏的(de)衆多優點,核心素養測評走向計算機自(zì)适應化是測評發展的(de)必然趨勢。目前,PISA和(hé)NAP-SL測試都已全部使用計算機自(zì)适應測評進行學(xué)業測評。而認知診斷理(lǐ)論作為(wèi)計算機自(zì)适應測評的(de)重要理(lǐ)論,為(wèi)計算機自(zì)适應測評起到了基礎性的(de)支撐作用。核心素養的(de)認知診斷測評,也為(wèi)核心素養的(de)計算機自(zì)适應測評提供了前提條件。現有的(de)學(xué)習測評分析工具可(kě)通過學(xué)生的(de)在線學(xué)習和(hé)測評,将結果以可(kě)視(shì)化的(de)形式呈現給學(xué)生,幫助學(xué)生分析學(xué)習過程中存在的(de)問題,促進反思,調整學(xué)習策略夫[21]。未來核心素養測評可(kě)以通過數字化工具和(hé)大數據、雲計算等技術,将心理(lǐ)測量模型和(hé)具體的(de)學(xué)科核心素養無縫嵌入到學(xué)生的(de)學(xué)習和(hé)測評過程中,對學(xué)生的(de)學(xué)習過程進行動态監測,以促進學(xué)生更好地(dì)學(xué)習[22]。 2 讨論 無論是個性化的(de)學(xué)生特征分析、綜合性的(de)學(xué)習進階制定,還是計算機自(zì)适應測評的(de)理(lǐ)論準備,核心素養的(de)認知診斷測評都具有明顯的(de)優勢。與此同時,核心素養的(de)認知診斷測評也存在有待改進的(de)空間:①認知診斷測評理(lǐ)論強調的(de)是對核心素養的(de)具體化。由于核心素養的(de)抽象性和(hé)內(nèi)隐性,“個體所具備的(de)核心素養及其水平,必須借助于他們在具體任務中的(de)實際表現加以推測”[23]。但核心素養的(de)具體化并不意味着測評隻關注局部而不考慮整體,更不可(kě)将評價碎片化,應該在具體與抽象之間保持“精妙的(de)平衡”[24]。②認知診斷的(de)測評基本上都是以0或1的(de)二元狀态評分,這使得測評試題的(de)編制有較大的(de)局限。核心素養的(de)測評關注課程學(xué)習的(de)“真實性學(xué)業成就”,而真實性學(xué)業成就不隻是習得事實性的(de)學(xué)科知識和(hé)概念,而是能夠運用這些知識或概念解決複雜的(de)現實性問題[25],因此核心素養需要有一(yī)定情境化、整合性和(hé)開放性的(de)評價任務——當然,随着認知診斷測評的(de)多級評分模式的(de)成熟,這一(yī)問題可(kě)能會得到較好的(de)解決。此外,認知診斷測評對技術的(de)要求較高(gāo),故在測評的(de)廣泛普及方面會受較多的(de)限制,這就需要專業人員開發具有普适性的(de)核心素養的(de)認知診斷測試平台,為(wèi)更多人員參與測評提供技術服務。