Approfondimento 6.2 Test equating Soprattutto quando si sviluppano test di prestazione massima, nei quali il soggetto deve indicare la risposta corretta perché possiede una certa conoscenza o è in grado di risolvere un certo quesito con una strategia appropriata, il problema principale è che una volta esposto il soggetto agli item diventa di fatto inutile somministrare gli stessi una seconda volta, dato che nel frattempo il soggetto potrebbe essersi procurato le risposte che gli/le mancavano, oppure potrebbe aver sviluppato la strategia necessaria. Una soluzione a questo problema potrebbe essere quella di sviluppare forme parallele per lo stesso test, ma avremmo comunque il problema di verificare l’effettivo parallelismo di tutte le diverse versioni, che come abbiamo visto nel Capitolo 4 del manuale non è affatto un obiettivo semplice da raggiungere. Una possibile soluzione al problema potrebbe essere quella di equalizzare (equating, in inglese) i punteggi delle varie versioni parallele in base alla difficoltà della versione somministrata. Riuscire in questo intento significa produrre riuscire a misurare lo stesso costrutto con item diversi ed ottenere punteggi fra loro confrontabili non solo per somministrazioni di due versioni diverse allo stesso soggetto, ma anche per soggetti diversi che compilano versioni diverse. Tipicamente le procedure di equalizzazione vengono utilizzate in quelle situazioni in cui, per forza di cose, vengono generate versioni diverse di uno stesso test, e a non tutti i soggetti viene somministrata la stessa versione: può essere il caso di un compito in classe, oppure di una prova di selezione. Per quanto chi ha sviluppato il test si sia sforzato di produrre versioni il più simili possibili in termini di contenuto e difficoltà degli item, qualche differenza emergerà comunque. L’equalizzazione permetterà allora di “aggiustare” le differenze di difficoltà degli item fra le varie versioni, in modo da consentire un uso intercambiabile delle stesse (Kolen, 1988). L’equalizzazione è solo una di quelle procedure note come scaling to achieve comparability (SAC, American Psychological Association, 1985). Una di queste procedure è il vertical scaling (o vertical equating), che viene utilizzato di solito per le batterie di profitto. In queste batterie di test, Carlo Chiorri, Teoria e tecnica psicometrica. Costruire un test psicologico Copyright © 2011 The McGraw-Hill Companies S.r.l., Publishing Group Italia Approfondimento 6.2 – Test equating 2 agli studenti vengono somministrare domande commisurate alla classe frequentata, ma i punteggi devono poter essere ricondotti su di un un’unica scala per permettere confronti fra alunni di classi diverse, come ad esempio fra un bambino di terza e uno di quinta elementare, ma non solo: permette anche il confronto del rendimento scolastico di uno stesso bambino da un anno all’altro. Altri esempi di SAC riguardano la conversione dei punteggi in un test nei punteggi di un altro test, l’equalizzazione di test diversi all’interno di una stessa batteria in modo da ottenere per tutti le stesse caratteristiche distributive, oppure l’equalizzazione di test diversi che misurano la stessa cosa (ad esempio, due diversi test per la valutazione dell’ansia). In tutti questi casi, però, la procedura di equalizzazione permette di correggere le valutazioni in base alla difficoltà o affettività degli item, ma non in base alle differenze di contenuto, per cui i test non possono essere utilizzati in modo intercambiabile. Questo approfondimento è una semplice introduzione al problema, spesso abbastanza complesso da risolvere, dell’equalizzazione dei punteggi ai test. Per una trattazione più dettagliata si rimanda il lettore interessato a Holland e Dorans (2006), Kolen e Brennan (2004) e von Davier (2011). 1. A cosa serve l’equalizzazione? L’equalizzazione ha lo scopo fondamentale di permettere la somministrazione di forme alternative di un test e al tempo stesso di poter confrontare i punteggi dei soggetti che ricevono versioni diverse (Kolen, 1988). Quindi, se somministriamo un test di profitto che deve servire per selezionare degli studenti per ricevere una borsa di studio e abbiamo il problema di somministrare versioni diverse per evitare illecite “collaborazioni”, dobbiamo assicurarci che sia possibile confrontare i punteggi dei soggetti che ricevono versioni diverse senza che nessuno sia avvantaggiato dal ricevere item più facili o difficili. Il punto, però, è che per qualche motivo gli studenti che ricevono la forma A del test potrebbero essere effettivamente più bravi di quelli che ricevono la forma B, da cui punteggi più alti che non sono il risultato di una maggiore facilità degli item della forma A: senza avere a diCarlo Chiorri, Teoria e tecnica psicometrica. Costruire un test psicologico Copyright © 2011 The McGraw-Hill Companies S.r.l., Publishing Group Italia Approfondimento 6.2 – Test equating 3 sposizione altre informazioni non saremo mai in grado di stabilire quale sia il reale motivo della differenza. Qualcuno potrebbe supporre che standardizzare i punteggi ai test (ad esempio, calcolando i ranghi percentili dei punteggi o trasformandoli a punti z potrebbe risolvere il problema), ma anche questa soluzione è impraticabile, dato che se un gruppo di studenti è effettivamente più preparato dell’altro, lo stesso livello di preparazione comporterebbe un punteggio standardizzato minore (penalizzazione) nel gruppo dei più bravi e maggiore (vantaggio) nel gruppo dei meno bravi. L’equalizzazione permette di ovviare a questi inconvenienti, ma sfortunatamente non è sempre applicabile, dato che richiede che siano soddisfatte alcune assunzioni (Angoff, 1984): a. le forme del test devono misurare la stessa abilità b. la conversione dal punteggio grezzo al punteggio equalizzato deve essere indipendente dai dati utilizzati per derivare la conversione e deve essere applicabile in tutte le situazioni simili c. i punteggi delle varie forme, a seguito dell’equalizzazione, devono essere intercambiabili d. l’equalizzazione deve essere simmetrica, ossia indipendente da quale test viene considerato come riferimento Di fatto, queste condizioni possono essere soddisfatte quando le forme del test sono effettivamente parallele. 2. Il processo di equalizzazione nella teoria classica dei test Se è prevista la necessità di confrontare punteggi provenienti da scale che dovrebbero misurare la stessa cosa, ma che non contengono gli stessi item, occorre stabilire fin dall’inizio una scala comune che serva di riferimento. Ad esempio, una serie di forme alternative di test di intelligenza dovrebbe avere come scala di riferimento una scala con media 100 ad ogni livello di età di un campione rappresentativo della popolazione di bambini e adolescenti. Per generare questa scala di riferimento, di solito si utilizza la distribuzione dei punteggi di una delle forme alternative e le altre vengono “riscalate” di conseguenza, in modo che ogni singolo Carlo Chiorri, Teoria e tecnica psicometrica. Costruire un test psicologico Copyright © 2011 The McGraw-Hill Companies S.r.l., Publishing Group Italia Approfondimento 6.2 – Test equating 4 punteggio sulla scala di riferimento abbia lo stesso significato in termini di costrutto posseduto. Una volta somministrata la forma A del test, ad esempio, potremmo convertire i punteggi grezzi in una scala che abbia media 50 e deviazione standard 10. A questo punto valutiamo la distribuzione dei punteggi della forma B: potremmo scoprire che, in media, i punteggi alla forma B sono uniformemente superiori di un punto a quelli della forma A. Se la media della forma A, ad esempio era, 80, a questo punteggio corrisponderà un punteggio standardizzato di 50. La conversione dei punteggi grezzi della forma B dovrà essere tale da generare per il punteggio 81 un punteggio di 50 sulla scala comune. Per ottenere questo risultato occorre progettare uno studio di equalizzazione dei punteggi. In secondo luogo, occorrerà definire le regole di corrispondenza fra i punteggi nelle varie versioni del test: le procedure “classiche” di equalizzazione, che stiamo per vedere, si differenziano da quelle dei modello di risposta all’item, che vedremo più avanti, proprio in questo aspetto. Infine, occorrerà applicare appropriati metodi statistici per stabilire le corrispondenze. 2.1 Progettazione di uno studio di equalizzazione Supponiamo di voler equalizzare i punteggi della versione B di un test dopo aver ottenuto e standardizzato i punteggi della versione A. Una possibile soluzione potrebbe essere quella di somministrare agli stessi soggetti sia la versione A che quella B, in quello che è noto come single group design (Kolen, 1988). In questi casi occorre innanzitutto controbilanciare l’ordine delle prove, ossia, ad una metà dei soggetti, determinata casualmente, verrà prima somministrata la versione A e poi la B, e all’altra metà la somministrazione avverrà nell’ordine inverso: in questo modo avremo la possibilità di controllare gli effetti di fatica e di familiarizzazione con gli item. Per quanto questo metodo permetta di escludere, grazie alla randomizzazione, che eventuali differenze di punteggi medi nelle due versioni possano essere dovuti semplicemente al fatto che un gruppo era più abile dell’altro, non è necessariamente sempre applicabile, soprattutto quando l’effetto di familiarizzazione degli item è molto forte. Inoltre, è Carlo Chiorri, Teoria e tecnica psicometrica. Costruire un test psicologico Copyright © 2011 The McGraw-Hill Companies S.r.l., Publishing Group Italia Approfondimento 6.2 – Test equating 5 difficilmente applicabile quando il test è molto è lungo, dato gli inevitabili effetti della fatica e della noia, e l’eventualità che il tempo a disposizione non sia sufficiente. Per ovviare a questo problema, una volta suddivisi casualmente a metà i soggetti, ad una metà può essere somministrata la versione A del test, e all’altra metà la versione B, in quello che è chiamato random group design. Il problema di questo metodo è che per ottenere risultati attendibili occorrono gruppi molto più ampi del single group design, dove i soggetti fungono da controllo di se stessi aumentando la potenza della procedura nell’individuare eventuali differenze. Una terza possibilità quella di utilizzare il common item nonequivalent groups design (o anchor test design). In questo tipo di metodo, le versioni A e B del test hanno alcuni item in comune, che possono o meno essere considerati nel calcolo del punteggio totale: se sono considerati si parla di internal design e gli item sono somministrati in ordine casuale insieme agli altri, altrimenti di parla di externa design, in cui gli item comuni vengono somministrati separatamente, e in questo caso possono costituire un vero e proprio terzo test a sé stante (Kolen, 1988). Se per esempio abbiamo somministrato due versioni di un test composto da 50 item a due gruppi casuali di soggetti e la media di risposte corrette nella versione A è 26 e quella nella versione B è 33, a cosa possiamo attribuire questa differenza? Diversa abilità/preparazione dei soggetti? Item più difficili nella versione A? O una combinazione di questi due fattori? In base alle informazioni che abbiamo a disposizione, non possiamo saperlo. Supponiamo però che 20 item fossero stati uguali nelle due versioni, che nel gruppo che ha ricevuto la versione B la media di risposte corrette a questi dieci item sia stata 16 e nell’altro gruppo 15. Abbiamo quindi che i soggetti del gruppo A hanno risposto correttamente, in media, al 52% delle domande totali e al 75% di quelle comuni, mentre quelli del gruppo B hanno risposto correttamente al 66% delle domande totali e all’80% di quelle comuni. Questo significa che la differenza di prestazione al sottogruppo di item comuni non è sostanziale, mentre quella nelle altre domande sì: in qualche modo, la prestazione agli item comuni funge da “controllo” per quella nel test totale, per cui possiamo concludere che dato che la pre- Carlo Chiorri, Teoria e tecnica psicometrica. Costruire un test psicologico Copyright © 2011 The McGraw-Hill Companies S.r.l., Publishing Group Italia Approfondimento 6.2 – Test equating 6 stazione negli item comuni è simile, la differenza a livello di punteggio totale può essere attribuita al fatto che la versione A era più difficile. Questo tipo di metodologia è molto popolare, in quanto consente di risolvere questo tipo di problemi con una sola somministrazione delle due versioni, per quanto abbia lo svantaggio di richiedere, come il random group design, un numero elevato di soggetti per ogni versione. Un altro potenziale svantaggio di questa procedura è che siano rispettate alcune assunzioni statistiche, altrimenti non è possibile separare l’effetto della difficoltà degli item da quello della difficoltà degli item. La prima assunzione è che gli item comuni siano un campione rappresentativo, sia in termini di validità di contenuto, sia in termini di caratteristiche psicometriche, dell’intero gruppo di item utilizzati per costruire le forme A e B (Klein & Jarjoura, 1985). Inoltre, è consigliabile un ampio set di item comuni, in modo da aumentare la rappresentatività del contenuto, porre gli item comuni nella stessa posizione (o quasi) all’interno delle due versioni, in modo da evitare effetti di ordine o di posizione, e utilizzare due set di item comuni (double links) in modo da aumentare l’attendibilità del confronto (Brennan & Kolen, 1987). Cook e Petersen (1987) suggeriscono ad ogni modo che la proporzione di item comuni sia almeno il 20% della lunghezza totale del test. Per quanto sia il tipo di metodologia più diffusa, il common item nonequivalent groups design consente di ottenere un’equalizzazione adeguata solo se le due forme da equalizzazione hanno caratteristiche psicometriche simili, in particolare la quota di punteggio vero che consentono di individuare, e se la qualità degli item comuni è alta. 2.2 Conversione dei punteggi Nei metodi tradizionali di equalizzazione, la corrispondenza dei punteggi viene realizzata imponendo l’uguaglianza delle caratteristiche distributive dei punteggi alle varie versioni del test. La procedura più semplice è quella di equalizzazione delle medie (mean equating), in cui le medie delle due forme vengono poste uguali per un particolare gruppo di soggetti: in pratica, i punteggi della forma B vengono convertiti in modo tale che la loro media sia uguale a quella della dei punteggi della Carlo Chiorri, Teoria e tecnica psicometrica. Costruire un test psicologico Copyright © 2011 The McGraw-Hill Companies S.r.l., Publishing Group Italia Approfondimento 6.2 – Test equating 7 forma A. Nell’equalizzazione lineare (linear equating), viene invece imposta l’uguaglianza di medie e deviazioni standard. Nell’equalizzazione equipercentile (equipercentile equating) la distribuzione dei punteggi della forma B viene resa uguale a quella della forma A per un particolare gruppo di soggetti, in modo da ottenere l’uguaglianza non solo di media e deviazione standard ma anche si skewness e curtosi. 2.2.1 Equalizzazione delle medie Supponiamo di aver utilizzato un single group design e avere ottenuto una media di 55 nella forma A e una media di 60 nella forma B. Nell’equalizzazione delle medie, occorre che il punteggio 55 e il punteggio 60 corrispondano allo stesso punteggio della scala comune, in modo che rappresentino lo stesso livello nel costrutto. L’equalizzazione delle medie assume quindi che le differenze osservate a livello della media dei punteggi nelle due forme sia costante per qualunque altro punteggio, per cui la differenza di un punteggio alla forma A (XA) dalla media di questa forma (MA) sarà considerata come un livello uguale nel costrutto alla stessa differenza di un punteggio della forma B (XB) dalla media di questa forma (MB): X A − M A = X B − M B A questo punto, spostando MA a secondo membro possiamo scrivere: X A = X B − M B + M A , che ci permette di convertire i punteggi della forma B su una scala comune, quella della distribuzione della forma A, per cui, nel nostro esempio, avremo che X A = X B − 60 + 55 = X B − 5 . 2.2.2 Equalizzazione lineare Supponiamo di aver somministrato ad un sottocampione casuale di soggetti la forma A e ad un altro sottocampione casuale al forma B di un test. L’equalizzazione delle medie assume che le differenze di difficoltà fra le due forme siano costanti per tutta la gamma di punteggi possibili. In molti casi, però, la differenza in difficoltà relativa fra le due forme potrebbe essere meglio considerata come variabile, per cui, ad esempio, la forma A potrebbe essere relativamente più difficile per chi ha un Carlo Chiorri, Teoria e tecnica psicometrica. Costruire un test psicologico Copyright © 2011 The McGraw-Hill Companies S.r.l., Publishing Group Italia Approfondimento 6.2 – Test equating 8 livello basso nel costrutto rispetto a chi ha un punteggio alto. In questi casi è allora preferibile utilizzare una conversione di tipo lineare mediante la formula: XA − MA XB − MB = sA sB dove sA e sB sono le deviazioni standard dei punteggi delle forme A e B, rispettivamente. Risolvendo per XA abbiamo che: XA = sA s X B + M A − A M B sB sB Se nell’esempio della sezione precedente avessimo saputo che sA = 6 e sB = 5, avremmo avuto che: XA = 6 6 X B + 55 − × 60 = 1,2 X B − 17 5 5 In questo modo, otteniamo un’equazione di equalizzazione ce tiene conto del fatto che la difficoltà delle due forme varia in funzione del livello del soggetto nel costrutto. Se le due versioni del test vengono somministrate allo stesso gruppo di soggetti in ordine controbilanciato, dobbiamo tenere conto del disegno per misure ripetute, quindi avremo che la formula per la conversione dei punteggi della forma A nella forma B sarà: XB = s B21 + s B2 2 M + M A2 M B1 + M B 2 X A − A1 + 2 2 2 2 s A1 + s A 2 dove s2A1 e s2A2 sono, rispettivamente, le varianze nel punteggio alla forma A dei gruppi che hanno ricevuto la versione A come prima e come seconda, s2B1 e s2B2 sono, rispettivamente, le varianze nel punteggio alla forma B dei gruppi che hanno ricevuto la versione B come prima e come seconda, MB1 e MB2 sono, rispettivamente, le medie nel punteggio alla forma B dei gruppi che hanno ricevuto la versione B come prima e come seconda, e MA1 e MA2 sono, rispettivamente, le medie nel punteggio alla forma A dei gruppi che hanno ricevuto la versione A come prima e come seconda. Se è stato utilizzata una variante del common item nonequivalent groups design in cui un gruppo (indicato successivamente come gruppo 1) riceve la forma A, l’altro gruppo (gruppo 2) la Carlo Chiorri, Teoria e tecnica psicometrica. Costruire un test psicologico Copyright © 2011 The McGraw-Hill Companies S.r.l., Publishing Group Italia Approfondimento 6.2 – Test equating 9 forma B, ma entrambe completano anche una forma comune C, si dovrà assumere che (Barbaranelli & Natali, 2005): a. se si effettua la regressione del test A sul test C, il coefficiente di regressione bAC, l’intercetta aAC e l’errore standard della stima sA|C nella sottopopolazione 1 sono uguali ai loro corrispettivi valori nella popolazione totale; b. se si effettua la regressione del test B sul test C, il coefficiente di regressione bBC, l’intercetta aBC e l’errore standard della stima sB|C nella sottopopolazione 2 sono uguali ai loro corrispettivi valori nella popolazione totale. Ora, se i due gruppi sono formati mediante assegnazione casuale è probabile che tali assunzioni siano soddisfatte, ma se i due gruppi non hanno punteggi simili sul test comune C è altrettanto possibile che esse siano state violate. La conversione del punteggio al test B nel test A avverrà mediante la formula: XB = 2 2 2 s B2 2 + bBC 2 ( sC − sC 2 ) 2 2 2 s A21 + b AC 1 ( s C − s C1 ) ( X A − [M A1 − b AC1 ( M C − M C1 )]) + [M B 2 − bBC 2 ( M C − M C 2 )] dove i pedici 1 e 2 riferiscono ai due gruppi che hanno ricevuto i due test A e B e la loro assenza si riferisce al gruppo complessivo formato dall’unione dei gruppi 1 e 2. 2.2.3 Equalizzazione equipercentile L’equalizzazione equipercentile permette di ottenere una corrispondenza ancora più precisa. In questo metodo, i punteggi nella forma A e nella forma B che hanno lo stesso rango percentile per un particolare gruppo di soggetti sono considerati indicare lo stesso livello nel costrutto. In pratica, in ogni forma viene determinato il rango percentile di ogni punteggio, e viene realizzata una rappresentazione grafica come quella della Figura 6.2.1. Carlo Chiorri, Teoria e tecnica psicometrica. Costruire un test psicologico Copyright © 2011 The McGraw-Hill Companies S.r.l., Publishing Group Italia Approfondimento 6.2 – Test equating 10 Figura 6.2.1 Ranghi percentili di due diverse versioni di un test La Figura 6.2.1 mostra come nella forma A il 50° percentile corrisponda al punteggio 26, mentre nella forma B al punteggio 34. I due punteggi, quindi, vanno considerati come espressioni dello stesso livello nel costrutto. Di solito, la corrispondenza fra i punteggi viene rappresentata come un grafico in cui si hanno i punteggi grezzi della forma A su un asse, quelli della forma B sull’altro, e una linea che rappresenta i percentili corrispondenti, dai quali è possibile risalire ai punteggi grezzi corrispondenti in ognuna delle due versioni (Figura 6.2.2). Carlo Chiorri, Teoria e tecnica psicometrica. Costruire un test psicologico Copyright © 2011 The McGraw-Hill Companies S.r.l., Publishing Group Italia Approfondimento 6.2 – Test equating 11 Figura 6.2.2 Linea equipercentile: ogni punto del grafico corrisponde ad un percentile. A partire da questi punti è possibile risalire al punteggio grezzo equalizzato per ognuna delle due versioni del test La linea rappresentata dai percentili in Figura 6.2.2 è detta unsmoothed, ossia “non lisciata”, dato che, a causa dell’errore di campionamento, non è perfettamente diritta. Mediante adeguate procedure è possibile correggere questa imperfezione e rendere la linea smoothed (Fairbank, 1987; Kolen, 1984). In generale, se le due forme da equalizzare hanno la stessa deviazione standard, l’equalizzazione della media e quella lineare producono lo stesso risultato. Se le distribuzioni hanno anche la stessa skewness e la stessa curtosi, l’equalizzazione lineare e quella equipercentile producono a loro volta lo stesso risultato. 2.3 Tipi di errore nell’equalizzazione In base al metodo utilizzato le stime dei punteggi equalizzazioni potranno essere affette, in varia misura da due diversi tipi di errori: 1. Errore casuale di equalizzazione: è presente ogniqualvolta vengono utilizzati campioni di soggetti per stimare i parametri (media, deviazione standard, rango percentile) della popolazione. Tale errore può essere ridotto utilizzando campioni più ampi, purchè rappresentativi della popolazione. 2. Errore sistematico di equalizzazione: questo tipo di errore deriva da violazioni delle assunzioni e delle condizioni di applicabilità della particolare metodologia utilizzata. Nel single group design, ad esempio, l’errore sistematico può derivare dal non essere riusciti a controllare gli effetti della fatica e della pratica, mentre nel random group design può derivare da un’assegnazione dei soggetti alle due forme non casuale. Nel caso del common item nonequivalent groups design, invece, le distorsioni sistematiche possono derivare dal fatto di non aver inserito nello stesso punto (o quasi) gli item comuni, oppure dal fatto che questi non siano un campione rappresentativo dell’insieme totale degli item. Carlo Chiorri, Teoria e tecnica psicometrica. Costruire un test psicologico Copyright © 2011 The McGraw-Hill Companies S.r.l., Publishing Group Italia Approfondimento 6.2 – Test equating 12 Naturalmente i due tipi di errore possono combinarsi in forme di errore miste ancor più difficili da individuare se non si è progettato adeguatamente lo studio 3. Il processo di equalizzazione nella teoria della risposta all’item Il motivo principale per cui si ricorre all’equalizzazione di, ad esempio, versioni diverse dello stesso test è quello di annullare le differenze di difficoltà fra di esse, in modo da consentire un confronto equo fra i soggetti, soprattutto in quelle situazioni in cui il test viene utilizzato per prendere decisioni importanti come l’ammissione all’università o la selezione per un posto di lavoro. Poiché la difficoltà degli item è uno dei due parametri centrali, insieme all’abilità dei soggetti, nella teoria della risposta all’item (IRT), sono state ben presto sviluppate strategie di equalizzazione anche in questa cornice di riferimento teorica. Come notano Cook e Eignor (1991), però, una delle questioni da affrontare è che nella formulazione classica delle assunzioni dell’equalizzazione si stabilisce che le due forme del test devono misurare la stessa abilità, ma non viene specificato che l’abilità sia unidimensionale, cosa invece richiesta dai modelli di risposta all’item. Per cui, l’equalizzazione dei punteggi nell’ambito IRT richiede che questa ulteriore assunzione sia soddisfatta, insieme al fatto che i campioni a cui vengono somministrate le due forme del test siano casuali e che le due forme abbiano la medesima attendibilità. Lo scopo è quello di raggiungere la situazione descritta da Lord (1977) in cui i punteggi trasformati della forma B e quelli grezzi della forma A sono tali da rendere da annullare la rilevanza del fatto che i soggetti abbiano ricevuto l’una o l’altra versione del test. Cook e Eignor (1991) sottolineano come questa definizione implichi che non possano essere equalizzate due forme del test che misurano abilità diverse non possano essere equalizzate, che non sono ugualmente attendibili e che non hanno la stessa difficoltà. Se però le due forme non hanno la stessa difficoltà, la relazione fra i loro punteggi veri diviene di fatto non lineare, a causa della presenza dell’effetto soffitto o dell’effetto tetto. In questo caso, però, è virtualmente impossibile che abbiano la stessa attendibilità, per cui l’equalizzazione è impraticabile (Lord, 1977). In pratica, le forme del test devono essere parallele per poter essere equalizzate. I metodi di equalizzazione nell’ambito Carlo Chiorri, Teoria e tecnica psicometrica. Costruire un test psicologico Copyright © 2011 The McGraw-Hill Companies S.r.l., Publishing Group Italia Approfondimento 6.2 – Test equating 13 IRT, poiché sono basati sul punteggio vero, e l’uguaglianza dei punteggi veri è l’assunzione chiave del parallelismo, appaiono dunque poter garantire un’efficace equalizzazione. Se i dati utilizzati per l’equalizzazione soddisfano le alle assunzioni della IRT (si veda ad esempio l’Approfondimento 2.4), è possibile ottenere una stima dell’abilità dei soggetti indipendentemente dalla forma del test che è stata somministrata, per cui sostanzialmente non ha alcuna importanza se il soggetto compila una versione facile o difficile, dato che la stima della sua abilità sarà indipendente dalla difficoltà degli item. In questo senso, il fatto che due forme del test possano avere una difficoltà diversa non sembra costituire un problema, come invece accadrebbe nel contesto dell’equalizzazione nella Teoria Classica dei Test. Cook e Eignor (1991), però, riferiscono che non sempre i progetti di testing su larga scala consentano di riportare i punteggi utilizzando la metrica comune IRT. I metodi di equalizzazione IRT permettono di risolvere questa situazione mediante un approccio simile a quello dell’equalizzazione equipercentile che abbiamo visto in precedenza, indipendentemente dal fatto che la relazione fra le due diverse forme di un test sia lineare o non-lineare. 3.1 La procedura di equalizzazione IRT L’equalizzazione IRT è un processo a tre fasi, che ha come prerequisito fondamentale il fatto che il modello unidimensionale su cui si basano questo tipo di modelli sia adatto a descrivere i dati. In altre parole, se i due test non soddisfano l’assunzione di unidimensionalità, non è possibile andare avanti. Il primo passo è la progettazione di un metodo di raccolta dei dati che consenta successivamente l’equalizzazione. Il secondo passo prevede la verifica che le stime dei parametri provenienti dalle calibrazioni delle due forme possano essere considerate sulla stessa scala. In realtà questo passo può essere saltato in quei casi in cui il software a disposizione consente una singola sessione di calibrazione, per cui le stime dei parametri delle due forme del test avviene di fatto automaticamente sulla stessa scala. Il terzo passo prevede l’impiego della relazione fra le abilità e i punteggi veri nelle due forme per stabilire una relazione fra il punteggio vero e quello riscalato per la forma del Carlo Chiorri, Teoria e tecnica psicometrica. Costruire un test psicologico Copyright © 2011 The McGraw-Hill Companies S.r.l., Publishing Group Italia Approfondimento 6.2 – Test equating 14 test da equalizzare. Questo passo non è necessario se il software (ad esempio, il package equate di R) consente una calibrazione delle stime dei parametri sulla stessa scala nel secondo passo, anche se non necessariamente i punteggi sono equalizzati su scale comuni come la College Board Scores, che ha media 500 e deviazione standard 100 (Cook & Eignor, 1991). La progettazione dello studio avviene con le stesse modalità che abbiamo visto nella sezione 2.1. In particolare, nel common item nonequivalent groups design, gli item comuni vengono utilizzati per creare la scala comune di riferimento fra le due forme del test, in particolare nella fase di stima dei parametri, e devono essere scelti in base alle medesime linee guida illustrate nella sezione 2.1. Per quanto riguarda l’ampiezza campionaria necessaria, l’aspetto fondamentale è che il numero di soggetti consenta di ottenere stime dei parametri stabili in base al modello IRT utilizzato: questo significa che più complesso sarà il modello di riferimento, maggiore sarà la numerosità campionaria necessaria. Cook e Eignor (1991) riferiscono che i modelli 3PL necessitano di non meno 1800 soggetti. Per quanto riguarda il posizionamento delle stime dei parametri su una stessa scala, si consideri il seguente esempio, tratto da Cook e Eignor (1991): supponiamo di aver somministrato la stessa forma del test a due gruppi indipendenti di soggetti, per cui ogni stima dei parametri avviene due volte, una per gruppo, e di aver utilizzato un modello 2PL, che permette la stima non solo e dell’abilità θ dei soggetti e della difficoltà b dell’item, ma anche della discriminatività a di ogni item: in base alla proprietà dell’invarianza, le stime dei parametri nei due gruppi dovrebbero essere uguali al netto dell’errore di campionamento. Stocking e Lord (1983), però, hanno mostrato come l’espressione della probabilità di fornire una risposta corretta sia sì funzione di a(θ−b), ma anche che l’origine e l’unità di misura dell’abilità del soggetto e della difficoltà dell’item siano indeterminate. Se il modello per la probabilità di risposta corretta all’item i nella forma 1 è: e Da1i (θ1i −b1i ) P(θ1i ) = 1 + e Da1i (θ1i −b1i ) Carlo Chiorri, Teoria e tecnica psicometrica. Costruire un test psicologico Copyright © 2011 The McGraw-Hill Companies S.r.l., Publishing Group Italia Approfondimento 6.2 – Test equating 15 una trasformazione lineare per ottenere una stima su una scala comune di θ1i e b1i sarà: θ1*i = Aθ1i + B e b1*i = Ab1i + B dove A e B sono la pendenza e l’intercetta che definiscono la trasformazione lineare. Il valore trasformato di a1i, invece, può essere trasformato moltiplicando il reciproco della pendenza A per a1i: a1*i = 1 a1i A Nel momento in cui andiamo a considerate come la nuova funzione di risposta P(θ*1i) è in relazione con quella iniziale P(θ1i), otteniamo che: a1*i (θ 1*i − b1*i ) = 1 a1i [ Aθ 1i + B − ( Ab1i + B )] = a1i (θ 1i − b1i ) A Come si può notare, l’uguaglianza vale per qualunque trasformazione lineare dei parametri, da cui l’indeterminatezza della metrica per l’abilità (Harris, 1989). La stessa indeterminatezza può essere mostrata anche per il modello 3PL. I software permettono di risolvere questo problema stabilendo un’origine e un’unità di misura per la metrica dei parametri in base a quelli del gruppo di soggetti utilizzato per calibrare gli item. Ad esempio, la media delle stime di abilità viene posta a zero e la loro deviazione standard a 1. In questo modo nella procedura di calibrazione le stime dei parametri sono vincolate ad essere riferite ad una scola definita dalla media e dalla deviazione standard della distribuzione delle stime di abilità del gruppo di riferimento. Poiché le stime dei parametri di due diverse procedure di calibrazione (una per gruppo di soggetti nel random group design, ad esempio) differiranno solo relativamente all’origine e all’unità di misura, il che non è nemmeno detto perché i due gruppi potrebbero avere la stessa abilità), la trasformazione richiesta per ricondurre ad una metrica comune le stime è una classica trasformazione lineare. La procedura più semplice di equalizzazione è quella che cerca di determinare i valori di A e di B in modo che la media e deviazione standard trasformate della distribuzione delle difficoltà stimate degli item della seconda calibrazione siano uguali alla media e alla deviazione standard delle difficoltà stimate degli item della seconda calibrazione. Di fatto, questa procedura è analoga a quella che abbiamo visto nella sezione 2.2.3 Carlo Chiorri, Teoria e tecnica psicometrica. Costruire un test psicologico Copyright © 2011 The McGraw-Hill Companies S.r.l., Publishing Group Italia Approfondimento 6.2 – Test equating 16 per l’equalizzazione lineare: ad esempio, nel common item nonequivalent groups design i parametri lineari della trasformazione vengono determinati in base agli item comuni. Supponiamo di aver eseguito la calibrazione di due diverse forme con un modello 3PL, e che queste forme abbiano 30 item comuni. La media e la deviazione standard della stima della difficoltà degli item per i 30 item nella prima calibrazione sono, rispettivamente, ,80 e 1,00, mentre nella secondo sono ,50 e ,90. I parametri della trasformazione lineare possono essere calcolati come: b1 −,80 b2 −,50 1,00 = → b1 = (b2 −,50)+,80 = 1,11b1 +,24 1,00 ,90 ,90 per cui A = 1,11 e B = ,24. L’uso delle stime di difficoltà degli item come parametri di equalizzazione è giustificato dal fatto che sono le più stabili. Una volta determinati A e B, questi valori vengono applicati a tutte le stime dei parametri che necessitano la trasformazione. Per cui, se b̂i è la stima della difficoltà degli item ottenuta dalla calibrazione dell’item i e bˆi* è la trasformata della stima della difficoltà dell’item, allora bˆi* può essere calcolato come: bˆi* = Abˆi + B Allo stesso modo, il parametri di discriminazione a e l’abilità θ possono essere stimati come: aˆ i* = aˆ i e θˆa* = Aθˆa + B A Nel caso particolare del modello 3PL il parametro di guessing c non necessita trasformazione poiché viene determinato dalla metrica di probabilità, che è necessariamente uguale per tutti. Nel caso particolare dei modelli di Rasch (o 1PL), l’unico elemento di indeterminatezza è l’origine della metrica dell’abilità (Harris, 1989). I software permettono di risolvere l’indeterminatezza stabilendo l’origine della metrica dell’abilità in base all’abilità del gruppo di soggetti utilizzato per calibrare gli item, ossia fissando le stime di difficoltà a zero, oppure fissando la scala in qualche altro modo, ma la relazione fra le scale derivate dall’applicazione di due diversi Carlo Chiorri, Teoria e tecnica psicometrica. Costruire un test psicologico Copyright © 2011 The McGraw-Hill Companies S.r.l., Publishing Group Italia Approfondimento 6.2 – Test equating 17 modelli di Rasch differirà sempre solo di una costante. Se eseguiamo un modello di Rasch per due gruppi separati di soggetti che hanno ricevuto due forme del test con 40 item comuni, e la stima delle difficoltà degli item nel primo gruppo è ,75 e nel secondo è, 45, avremo che: b1 −,75 = b2 −,45 → b1 = b2 +,30 La stessa costante ,30 dovrà essere applicata per equalizzare le stime di abilità. Si noti ad ogni modo che questa procedura è necessaria solo se si usa il common item nonequivalent groups design, dato che se si usa il single group o il random groups la calibrazione delle due forme del test può essere fatta simultaneamente e dunque i risultati sono già equalizzati. Una volta determinate le stime dei parametri per le due forme e averle riportate sulla stessa scala, la stima di abilità ottenuta per ogni soggetto sarà la stessa, al netto dell’errore di misurazione, indipendentemente dalla forma del test somministrata, per cui le stime di abilità possono essere riportate come stime del livello dei soggetti nel costrutto. Questo lavoro viene fortunatamente realizzato dai software, ma è possibile trasformare qualunque valore di θ nel punteggio vero stimato Tˆ nelle due forme e utilizzare tali punteggi veri stimati come punteggi equalizzati. Se le forme J e K di un test misurano la stessa abilità θ, allora la stima dei punteggi veri per le due forme sarà in relazione con θ in base alle funzioni caratteristiche del test: nJ nK m =1 q =1 TˆJ = ∑ Pˆm (θ ) e TˆK = ∑ Pˆq (θ ) dove Pˆm (θ ) e Pˆq (θ ) sono rispettivamente le funzioni di risposta all’item stimate per gli item m nel test J e gli item q nel test K. Tali equazioni possono essere utilizzati per trasformare qualunque θ (non solo quelli stimati effettivamente ottenuti dalla somministrazione delle due forme) in un punteggio vero stimato nelle due forme. Poiché è vero questo e poiché le stime dei parametri nei due gruppi sono indipendenti, la conversione (o relazione fra i punteggi veri delle due forme) può essere considerata indipendente dai gruppi utilizzati nello studio. Si noti inoltre come la stima delle abilità per gli individui ottenute separatamente per le due forme del test dovrebbe essere la stessa una volta Carlo Chiorri, Teoria e tecnica psicometrica. Costruire un test psicologico Copyright © 2011 The McGraw-Hill Companies S.r.l., Publishing Group Italia Approfondimento 6.2 – Test equating 18 trasformata, ma se i due test differiscono in difficoltà la relazione fra i punteggi veri stimati sarà non lineare, come illustra la Figura 6.2.3. Figura 6.2.3 Relazione fra le stime di abilità e i punteggi veri stimati per due forme (A e B) di un test (adattato da Cook & Eignor, 1991, con modifiche) La Figura 6.2.3 mostra come lo stesso livello di abilità consenta di ottenere un punteggio più alto nella forma A, rispetto alla forma B, che quindi risulta più difficile. La stima dell’abilità, però, è invariante rispetto alla forma somministrata. Cook e Eignor (1991) sottolineano come i punteggi veri stimati non vadano confusi coi punteggi osservati, la cui equalizzazione in base a questa procedura, ad ogni modo, non pare portare a risultati particolarmente distorti, nonostante sia metodologicamente scorretto (Lord & Wingersky, 1983). Se c’è necessità di riportate i punteggi su una scala comune come la College Board Scores (CBS), le abilità vengono trasformate in punteggi veri stimati nelle due forme del test con le formule che abbiamo appena visto. Una volta che è stata stabilita la relazione fra i punteggi veri stimati fra le due forme, il passo successivo è individuare le relazione fra i punteggi veri stimati di una forma e i punteggi CBS. Questa fase implica una trasformazione punteggio osservato - punteggio Carlo Chiorri, Teoria e tecnica psicometrica. Costruire un test psicologico Copyright © 2011 The McGraw-Hill Companies S.r.l., Publishing Group Italia Approfondimento 6.2 – Test equating 19 CBS per entrambe le forme, e la relazione fra i punteggi stimati delle due forme viene utilizzata per derivare una stima della trasformazione punteggio vero-punteggio CBS. I vantaggi dell’uso dei metodi di equalizzazione IRT sono molteplici: oltre ad essere il metodo più adatto da utilizzare quando le forme del test differiscono per difficoltà e si è utilizzato il common item nonequivalent groups design e al fatto che i modelli IRT consentono conversioni dei punteggi indipendenti dai gruppi utilizzati per lo studio, la ricerca ha mostrato che le equalizzazioni IRT per punteggi estremi sono più precise di quelle offerte dai metodi della Teoria Classica dei Test, permettono una maggiore flessibilità nell’equalizzazione di forme vecchie e nuove di uno stesso test, non obbligano ad una nuova equalizzazione se un item non viene considerato nello scoring (come invece succede nelle tecniche di equalizzazione in base alla Teoria Classica dei Test) e consentono una pre-equalizzazione a livello degli item unitamente alla possibilità di derivare la relazione fra le forme del test ancora prima di somministrarle se sono già disponibili dati di calibrazione a livello degli item. Carlo Chiorri, Teoria e tecnica psicometrica. Costruire un test psicologico Copyright © 2011 The McGraw-Hill Companies S.r.l., Publishing Group Italia