ATTENDIBILITA’ E VALIDITA’ DELLA MISURAZIONE (cap 7) Un attributo psicologico e un costrutto, ossia una variabile psicologica latente. Latente (contrario di manifesta) significa che non e ne osservata e ne osservabile direttamente. Per renderla misurabile, e necessario operazionalizzarla. 123- Definizione del costrutto Scomposizione del costrutto in sotto dimensioni Individuazione di indicatori che siano manifestazione di ciascuna dimensione, ad esempio sintomi fisici, comportamentali e cognitivi psicologia, nella maggior parte dei casi, si misurano COSTRUTTI, ossia concetti astratti che indicano un complesso della vita psichica degli individui, non osservabili direttamente ma inferiti a partire da una serie di indicatori empirici osservabili. Gli INDICATORI sono variabili o misure empiriche che indicano il costrutto non osservabile tramite una regola di corrispondenza. Il rapporto tra costrutto e indicatori può essere di due tipi e da questo dipende la denominazione degli indicatori, che si distinguono in formativi e riflettivi. Secondo la teoria classica dei test, un indicatore “ideale” dovrebbe riflettere un unico costrutto, senza essere influenzato da altri costrutti. Un costrutto deve essere definito da più indicatori. Caso 1: Estroversione: Il mio tratto di estroversione fa si che io risponda in un certo modo alle domande del test => Analisi fattoriale Caso 2: Rischio di morte: La combinazione degli indicatori (ad esempio, livello di colesterolo nel sangue, propensione a correre in macchina e propensione a fare uso di alcol) concorrono a determinare il mio rischio di morte => Analisi in componenti principali Stabilità, accuratezza e precisione Accuratezza: il grado di corrispondenza tra misurazione e costrutto misurato (validità) Precisione e stabilità: il grado di sistematicità e coerenza con cui eseguiamo la misurazione (attendibilità) Se uno strumento di misura è accurato allora è anche stabile e preciso. Non e necessariamente vero il contrario: uno strumento può essere preciso ma non accurato, cosi come stabile ma non accurato. È ATTENDIBILE (o affidabile) lo strumento che fornisce misurazioni tra loro coerenti (se effettuando più misurazioni indipendenti dello stesso costrutto esse risultano tra loro coerenti). L’attendibilità è pertanto il grado di accordo tra misurazioni indipendenti del medesimo costrutto. è VALIDO lo strumento di misura che effettivamente misura la proprietà per cui e stato costruito. La validità e pertanto il grado in cui uno strumento misura ciò che dice di misurare. L’attendibilità e considerata la base della validità: una misurazione, per essere valida, deve essere anche attendibile. Si dice anche la l’attendibilità e il limite massimo della validità: una misurazione non può essere valida più di quanto sia attendibile. Ma attenzione: una misurazione può essere attendibile senza per questo essere necessariamente anche valida. Solitamente si associa l’attendibilità all’errore CASUALE (accidentale) e la validità all’errore SISTEMATICO. L’attendibilità e quindi più facilmente rilevabile della validità. L’errore accidentale è individuabile attraverso repliche della misurazione sullo stesso soggetto e le variazioni di valore tra le rilevazioni sono dovute all’errore accidentale. La validità è di più difficile individuazione dato che l’errore sistematico che e alla sua base si presenta costantemente in ogni rilevazione e quindi rende lo stato effettivo della proprietà studiata non conoscibile. L’attendibilità corrisponde al grado di fiducia che è lecito riporre in uno strumento, in quanto produce misurazioni coerenti. L’attendibilità si riferisce quindi al grado di coerenza tra misurazioni indipendenti della medesima proprietà. È legittimo pretendere anche una stabilità diacronica delle misurazioni, se la proprietà mentale che stiamo cercando di misurare non subisce variazioni sostanziali nel tempo. In base alla teoria classica dei test sappiamo che: X = V + E E, di conseguenza, anche che: Siccome il valore vero V e dato da ripetizioni infinte della misurazione, altro non e che il valore atteso di X: Da cui discende che: Assunti: gli errori casuali non sono in relazione tra loro punteggi osservati ed errori non sono in relazione tra loro L’attendibilità è ricavabile come rapporto tra la varianza della parte vera var(V) e la varianza totale del punteggio osservato var(X). Questo rapporto indica in quale misura la variabilità osservata dei punteggi dipende dalle reali variazioni degli stati individuali sulla proprietà misurata dal test, antiche dall’errore casuale. Diverse applicazioni dell’attendibilità Metodi basati su due applicazioni Test-retest: coerenza diacronica dei punteggi ricavati a partire dal medesimo strumento, applicato al tempo t e t+1 Forme parallele o equivalenti: coerenza sincronica dei punteggi ricavati a partire da due strumenti paralleli, applicati al tempo t Metodi basati su una sola applicazione Split-half: coerenza dei punteggi ricavati dividendo in due il medesimo strumento, applicato al tempo t (consistenza interna dello strumento) Generalizzazione dello split-half: consistenza interna dello strumento valutata attraverso la media delle correlazioni inter-item ricavabili a partire da tutte le possibili divisioni a meta (α di Cronbach, 1951) Accordo tra valutatori: concordanza delle valutazioni espresse da diversi giudici L’α di Cronbach di una scala di misura Utilizzato per valutare la consistenza (coerenza) interna di un test. Varia tra 0 e 1. NON fornisce informazioni sulla dimensionalità della scala. Media delle intercorrelazioni tra tutte le possibili divisioni a meta del test. Dipende dalla intercorrelazione degli item e dalla lunghezza della scala (numerosità degli item). FORMULA PROFETICA DI SPEARMAN-BROWN = identifica la relazione tra attendibilità e numero di item. Si utilizza una volta calcolato il valore dell’α e stabilita la lunghezza di una scala per stimare l’attendibilità di un test di lunghezza diversa oppure per individuare il numero di item che posso aggiungere/eliminare dal test di partenza per ottenere una certa attendibilità prestabilita. Varia tra 0 (min coerenza) a 1 (max coerenza) ma non esiste accordo unanime su quale sia il livello minimo che deve assumere l’α. Siccome dipende non solo dalle intercorrelazioni tra gli item ma anche dalla loro numerosità, si deve tenerne conto nella scelta del livello. Attenzione agli item ridondanti (non informativi) => “scale gonfiate” Le scale “gonfiate” sono alla base di due problemi: Paradosso dell’attenuazione: Incrementare oltre un certo limite la coerenza interna di una scala non aumenta necessariamente la validità di costrutto e anzi, in alcuni casi, finisce per limitarla. Ad esempio, se la maggior coerenza viene ottenuta sovra rappresentando con item ridondanti una dimensione del costrutto a scapito delle altre… Dilemma della larghezza della banda: L’eccessivo restringimento del contenuto della scala anche se permette di prevedere comportamenti specifici (alta fedeltà) non correla con nient’altro di rilevanza psicologica. Al contrario, item troppo generici hanno alto valore predittivo rispetto a costrutti psicologicamente rilevanti, a spese pero di comportamenti specifici (bassa fedeltà). K di Cohen Coefficiente di attendibilità utilizzato quando ci sono due o più valutatori che eseguono la medesima misurazione. Il concetto di base dell’attendibilità e basato sul grado di accordo tra questi giudici (o rilevatori). Due osservatori codificano indipendentemente lo stesso flusso di comportamento. Dopo la codifica si costruisce la MATRICE DI CONFUSIONE, che riporta in riga le osservazioni riferibili al primo osservatore e in colonna quelle del secondo. Nella diagonale principale si trovano i casi di accordo (AO) tra i giudici: Nelle celle extra-diagonal si trovano i casi di disaccordo (D) tra i giudici. I totali marginali di riga e di colonna consentono di calcolare l’accordo dovuto al caso (AC) L’accordo vero e dato da: La formula del K di Cohen: Una volta che abbiamo calcolato l’accordo osservato, il disaccordo, l’accordo dovuto al caso e, di conseguenza, quello “vero”, possiamo calcolare il K di Cohen. Per comodità alcune volte si moltiplica il risultato per 100. Validità della misurazione Uno dei momenti più difficili nel processo di sviluppo di una misura e quello dell'interpretazione dei punteggi ottenuti dalla misurazione. La registrazione di una significativa affidabilità rivela solo che lo strumento misura veramente qualcosa ma non da alcuna informazione sulla natura di ciò che si sta misurando. La difficoltà deriva dal fatto che la validazione può essere verificata all'interno di un sistema di relazioni ipotizzate tra il costrutto di interesse e altri costrutti; tali relazioni possono essere di causa, effetto o di correlazione. Le prove di validità implicano la verifica simultanea dell'ipotesi riguardante i costrutti e lo strumento. La validazione di una misura può quindi essere vista come la verifica di una teoria. Il processo di validazione non può essere affrontato prima che non sia stato portato a termine quello di verifica dell'affidabilità. VALIDITÀ DI CONTENUTO E il grado con cui gli item dello strumento costituiscono un campione rappresentativo dell’universo dei comportamenti relativi al costrutto. VALIDITÀ DI CRITERIO È il grado di corrispondenza tra la misura e una variabile esterna, diversa dal costrutto originario, che si assume come criterio di riferimento. VALIDITÀ DI COSTRUTTO E il grado con cui la misura del costrutto correla con misure dello stesso costrutto fatte con metodi diversi (CONVERGENTE) e non correla con misure di costrutti diversi fatte con lo stesso o con metodi diversi (DIVERGENTE) VALIDITÀ NOMOLOGICA E il grado con cui il costrutto che vogliamo misurare si inserisce in una serie di relazioni predittive tra costrutti e criteri appositamente definiti. Il costrutto predice ciò che deve predire e non predice ciò che non deve predire, e si inserisce in una rete di relazioni di costrutti affini. VALIDITÀ DI FACCIATA Ha a che vedere con la serietà e l’utilità percepita del test da parte dei soggetti cui il test e destinato. Validità di contenuto E il grado con cui gli item dello strumento costituiscono un campione rappresentativo dell’universo dei comportamenti relativi al costrutto (Pedon Gnisci). E il grado con cui gli elementi di uno strumento di assessment (valutazione sistematica del comportamento di una persona) sono rilevanti e rappresentativi del costrutto target per un particolare scopo di valutazione (Haynes 1995). La convalida può avvenire solo su un piano puramente LOGICO (alcuni autori parlano di convalida logica) e consiste nella scomposizione analitica del concetto in esame al fine di assicurarsi che tutte le dimensioni siano state ricoperte dagli indicatori selezionati. Alcuni fanno rientrare nella validità di contenuto anche la validità di facciata, ovvero il grado in cui gli item paiono ragionevoli e plausibili indicatori del costrutto. Validità in relazione ad un criterio (predittiva/concorrente) E il grado di corrispondenza tra la misura e una variabile esterna, diversa dal costrutto originario, che si assume come criterio di riferimento. La logica sottostante e la ricerca di una misura, detta criterio, che possa essere considerata una buona approssimazione della variabile di interesse. Il punteggio di un test e utile se consente di stimare o predire il punteggio nella variabile criterio. Due strategie: 1- rapportare il punteggio ottenuto nel test a un criterio esterno (successivo ed indipendente) dalla misura stessa (ad esempio, la valutazione a posteriori del rendimento lavorativo degli individui selezionati). La rilevazione del criterio e posteriore al test, prevede un intervallo tra temporale tra la somministrazione del test e la rilevazione del criterio => VALIDITA’ PREDITTIVA 2- rapportare il punteggio ottenuto nel test a un criterio rilevato nello stesso momento (ad esempio, l’osservazione dei candidati in situazione di interazione). La rilevazione del criterio avviene in modo concomitante alla somministrazione del test, e simultanea al test =>VALIDITA’ CONCORRENTE) Sono basate sulla correlazione tra i punteggi. Esiste anche la validità POSTDITTIVA, che e quella ad esempio utilizzata in Tribunale per stabilire se l’imputato era in possesso al momento del delitto della capacita di intendere e di volere. Fa parte della validità di criterio anche la validità PER GRUPPI NOTI in cui la misura e applicata anche a persone di cui e già nota la posizione sulla proprietà da rilevare. La validità di costrutto Definita come il grado in cui uno strumento misura ciò che dice di misurare, la validità di costrutto è l’aspetto della validità che ha ricevuto maggiore attenzione da parte di ricercatori e metodologi, tanto da rappresentare tout court il significato stesso di validità. Si tratta di valutare la rispondenza di un indicatore alle attese teoriche in termini di relazioni con altre variabili. o o Validità CONVERGENTE => grado di accordo tra due misurazioni del medesimo costrutto fatte con metodi diversi Se la misurazione e valida dal punto di vista del costrutto, l’accordo tra due misure del medesimo costrutto fatte con metodi differenti deve essere elevata (esempio: due scale di pregiudizio razziale) Validità DISCRIMINANTE => grado di discriminazione tra due misurazioni di costrutti diversi (parte della medesima rete nomologica). Se la misurazione e valida dal punto di vista del costrutto, non vi e correlazione tra la misurazione del costrutto e misurazioni di altri costrutti La validità nomologica La validità della misurazione del costrutto non va limitata solo alle manifestazioni empiriche di quest’ultimo, ma deve prendere in considerazione anche le sue relazioni con altri costrutti e/o criteri della rete di relazioni nomologiche in cui e inserito. La validità nomologica e definita come il grado in cui un costrutto si inserisce in una serie di relazioni predittive, positive o negative o nulle tra costrutti e criteri appositamente definiti. La validità di facciata (o esteriore) La misurazione deve sembrare valida dal punto di vista logico e concettuale a un osservatore esterno (esperti ma anche utilizzatori del test). Non si riferisce a ciò che il test effettivamente misura (validità di contenuto) ma a ciò che sembra misurare. La capacita di un test di produrre risultati affidabili, dipende dall’atteggiamento di chi lo usa (soggetti ed esperti). La matrice MTMM di Campbell e Fiske Il modo migliore per valutare la validità di costrutto e sviluppare uno studio in cui vengono misurati diversi costrutti con diversi strumenti, al fine di ottenere una matrice multi tratto-multi metodo (MTMM). Campbell e Fiske (1959) hanno suggerito 4 criteri per ispezionare la matrice al fine di valutare validita convergente e discriminante: 1- le correlazioni tra misure diverse dello stesso tratto (monotrattoeterometodo) devono essere diverse da zero, sufficientemente grandi e statisticamente significative; 2- tali correlazioni devono essere maggiori di quelle relative a misure diverse di tratti diversi (correlazioni eterotratto- eterometodo); 3- tali correlazioni devono poi essere maggiori delle correlazioni tra misure di diversi tratti ottenute con lo stesso metodo (etero tratto mono metodo); 4- il quarto criterio richiede che vi sia una configurazione analoga tra le correlazioni etero tratto-mono metodo e le correlazioni etero tratto etero metodo.