在語言能力測試中,評分的公平性與科學性是考生最為關注的核心問題之一。思培考試(CELPIP)作為一項國際認可的英語水平測試,其評分機制備受矚目。從閱讀與聽力的客觀評分到口語與寫作的多維度評估,思培考試如何確保每位考生的成績真實反映其語言能力?接下來將深入解析思培考試的評分方法、流程、標準及常見問題,為你揭開這一權威考試背后的評分邏輯。
什么是思培
思培考試(又稱加拿大英語語言能力測試)是加拿大移民,公民和難民部(Immigration, Refugees and Citizenship Canada)認可用于移民和公民身份的英語考試。
思培考試由Paragon Testing Enterprises研發和管理,為加拿大永久居民申請人量身打造。考試內容涵蓋一系列與移民到加拿大相關的實際情景,旨在考量加拿大移民申請人在日常生活相關的場景中與他人交流能力
CELPIP閱讀和聽力部分的評分方法
CELPIP閱讀和聽力的所有題目均采用選擇題或其他相似題型設計。所有閱讀和聽力部分的答案都采用二分法計分:答案要么正確,要么錯誤。未作答的題目被視為錯誤答案。所有評分工作均由計算機系統自動完成。
CELPIP口語和寫作部分的評分方式
CELPIP-General測試的口語和寫作部分由經過培訓的專業評分員進行評分,這些評分員熟知一致的評分標準,基于標準評分量表對考生的表現進行評估。評分員會接受持續的培訓和定期監控。Paragon公司利用評分員一致性統計指標來判斷評分質量;針對某位考生,若一位評分員給出的評分與該考生其他評分員的評分足夠接近(即達成共識),則認為這位評分員與其他評分員達成了一致意見。
思培考試CELPIP評分程序
所有測試均通過在線系統隨機分配給評分員,始終保持考生匿名性。每位考生在各部分的任務表現(例如,考生在組件中對所有任務的回答)都將由多名評分員進行評估。每位CELPIP口語測試者的表演至少由三位口語評分員評分,而每位CELPIP寫作測試者的寫作至少由四位寫作評分員評分。評分員相互獨立工作,且不知曉其他評分員所給出的評分。
評分標準
針對寫作和口語部分制定的評分維度已在本頁面上方的“性能標準”部分列出:
口語:內容/連貫性、詞匯、可聽性和任務完成度
寫作:內容/連貫性、詞匯、易讀性和任務完成度
每個維度都被細分為五個性能等級,并為每個等級在每個維度提供了性能描述符。評分員通過對考生表現中與評分標準匹配的具體證據進行識別,為每個維度分配一個等級。
基準評分
當對考生表現的評分完成后,會檢查評分的一致性。如果評分存在分歧,系統會自動指派一名基準評分員對該表現進行評估。所有基準評分員均為經驗豐富的評分員,他們在評分過程中表現出一貫的準確性和可靠性。基準評分員并不知道最初的評分結果。
最終分數如何確定?
口語和寫作部分的分數來源于評分員所給予的各個維度的評分。這些分數隨后會被轉換成CELPIP等級。轉換規則由參與標準設定練習的英語語言專家制定。標準制定是一個廣泛的、以研究為基礎的過程。語言專家與測試專業人員合作,確定語言學習者在每個性能等級(例如CLB 8)應具備的能力。然后,專家們對測試進行詳細分析,確定應試者在每個CELPIP級別需要達到的水平。這一過程在每個口語和寫作部分的分數與其相應的CELPIP級別之間建立了一種可靠的聯系。
思培考試CELPIP評分常見問題
是否每位考生都是使用的同一套試卷?
出于安全考慮,存在多種不同的考試版本(測試形式)。即使在同一時間段參加考試,不同的考生也會被分配不同的測試形式。每個測試形式中會包含一些獨有的題目,也可能包含與其它形式共享的一些題目。Paragon采取多套試卷的形式來管理考試,目的是最大程度降低考前有人接觸到試題的風險,從而避免考生因此取得不公平或不應得的高分。
考試中有未得分的題目嗎?
是的,新的題目會不斷編寫出來。在這些題目作為計分題目投入使用之前,會先進行預測試,以確保它們的質量與現有題目相當。Paragon會在每次測試中包含一些新編寫的題目,這些題目看起來與計分題目無異,但它們并不用于計算你的最終得分。Paragon不會告訴考生哪些題目是不計分的,因為重要的是考生應對每一個題目盡全力作答。這樣做可以確保收集到的新題目數據能用來評估其質量。只有表現良好的題目在未來才會被用作計分題目。
不同試卷難度是否相同?
盡管每份試卷包含不同的問題,但每份試卷都是遵循明確的內容和難度指導原則構建的。Paragon通過預測試和試卷創建流程確保了不同試卷的難度大致相同。然而,每次考試的題目并非完全相同,這意味著試卷間可能存在微小的難度差異。如果最終測試分數沒有校正這些小差異,對考生而言將是不公平的。因此,通過分數等值化的過程,甚至消除了這種輕微的變異性,確保了考試公平性。
思培考試CELPIP中什么是分數等化?
等分是根據不同試卷難度的細微差別對最終分數進行修正的過程。例如,如果一名應試者在相對簡單的試卷上答對了30道題,而另一名應試者在較難的試卷上答對了30道題,那么等分法就會糾正試卷難度上的差異。最重要的是,兩種測試形式所報告的分數必須具有可比性。我們需要確保最終分數能夠反映您的基本語言水平,而不是取決于您或其他人所回答問題的難度。
為什么思培考試CELPIP不出具原始分數?
任何測試的目標都是不論具體考試題目如何,都要為每位考生提供公正且準確的評估。雖然CELPIP測試在編制過程中遵循了內容和難度的相關指導原則,但仍然可能出現不同試卷之間難度稍有差異的情況。原始分數僅僅是考生答對題目的數量之和,它無法顧及這些細微的難度差異。因此,在不同形式的測試中,一個原始分數30分可能代表的意義并不相同。這就意味著不同考生的原始分數難以解讀和比較。
為了彌補不同試卷之間的差異,Paragon將考生的原始分數轉化為標準化分數。標準化分數對原始分數進行了統一調整,使得在不同形式的測試中,考生的成績可以互相比較。
思培考試CELPIP分數等級是如何確定的?
在確定閱讀和聽力的標度分數后,將其轉換為CELPIP級別。轉換規則是由參與標準制定工作的英語專家制定的。標準設定是一個廣泛的、以研究為基礎的過程。語言專家與測試專業人員合作,確定語言學習者在每個成績等級(如CLB 8)上需要具備的能力。然后,專家們對測試進行詳細分析,確定應試者在每個CELPIP級別需要達到的水平。這一過程在每個閱讀和聽力標度分數與其相應的CELPIP級別之間建立了可靠的聯系。
思培考試CELPIP閱讀和聽力分數的可靠性如何?
衡量測驗可靠性的方法有很多。克朗巴赫α系數(Cronbach's alpha)就是一種很好的可靠性測量方法,它專門測量測驗表的內部一致性。這一統計測量的結果范圍為-1到+1,其中-1表示完全缺乏內部一致性,+1表示完全一致。0.80或更高的結果被認為是極好的。對于CELPIP閱讀和聽力部分,測試表的平均克朗巴赫α系數(Cronbach's alpha)值為0.88。這表明思培考試CELPIP閱讀和聽力測試表具有極好的內部一致性。
通過以上介紹,相信你已全面了解思培考試評分機制的科學性與公平性。無論是閱讀、聽力的客觀評分,還是口語、寫作的多維度評估,思培考試都以嚴謹的流程和高標準確保每位考生的成績真實可靠。如果您正準備參加思培考試,或對評分機制仍有疑問,不妨進一步探索相關資源,為您的語言能力提升做好充分準備。思培考試不僅是語言能力的測試,更是邁向國際化發展的重要橋梁。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.