TFA 2015 tecniche di valutazione & pedagogia sperimentale [email protected] L'unanimità di opinione può essere adatta per una chiesa, per le vittime atterrite o bramose di qualche mito (antico o moderno) e per i seguaci deboli e pronti di qualche tiranno. Per una conoscenza obiettiva è necessaria la varietà di opinione. E un metodo che incoraggi la varietà è anche l'unico metodo che sia compatibile con una visione umanitaria PK Feyerabend, "Contro il metodo" Cinque concetti fondamentali 1. Valutazione 2. Misurazione (e oggettività) 3. Validità (e validazione) 4. Affidabilità 5. Rapporto tra valutazione e motivazione all’apprendimento Criteri di valutazione (3 cfu tecniche di valutazione) 1. Lavoro laboratoriale 2. Test Validazione di uno strumento di misurazione scelto dal gruppo (es. test Invalsi, Pisa, prove d’ingresso al tfa, prove usate in classe ecc…). Domande a risposta multipla sugli argomenti in programma Qualche considerazione introduttiva Nel corso degli ultimi anni l’inveterata tendenza ad avere idee confuse su misurazione e valutazione in campo educativo ha abbracciato più ambiti del sistema d’istruzione. Questo perché, da un ventennio circa, a essere sottoposti a valutazioni (o misurazioni?) non sono più soltanto studenti e studentesse, ma anche docenti, dirigenti e istituti dalla scuola dell’Infanzia all’Università. Credo ci siano due tendenze opposte ma egualmente deleterie a tal proposito. La prima è quella che confonde i due termini, considerandoli sinonimi o annullando la misurazione nella valutazione. La seconda è quella che tende a separarli nettamente, nell’illusione che sia possibile misurare senza valutare o che sia auspicabile valutare senza misurare. Cercheremo dunque di fare chiarezza sui due processi, sulle loro differenze e sui loro rapporti. Per procedere, è bene iniziare dalla loro funzione nel processo educativo. Un esempio della confusione a proposito di valutazione e misurazione in educazione G. Tremonti, Il passato e il buon senso, “Corriere della Sera”, 22 agosto 2008 I numeri sono una cosa. I giudizi sono una cosa diversa. I numeri sono una cosa precisa, i giudizi sono spesso confusi. Ci sarà del resto una ragione perché tutti i fenomeni significativi sono misurati con i numeri. Un terremoto è misurato con i numeri della scala Mercalli o Richter. Il moto marino è misurato in base alla scala numerica della «forza», la pendenza di una parete di montagna in base ai «gradi», la temperatura del corpo umano ancora in base ai «gradi». La mente umana è semplice e risponde a stimoli semplici. I numeri sono insieme precisi e semplici. Il messaggio che trasmettono è un messaggio diretto. Se gli stessi fenomeni – terremoto, moto marino, pendenza, temperatura corporea – fossero espressi non con i numeri ma attraverso frasi complesse con finalità descrittive, il messaggio resterebbe impreciso. NB. Tremonti allora era Ministro dell’Economia e delle Finanze e, in quanto tale, difese sulle pagine del Corriere il passaggio dai giudizi ai voti nella scuola primaria. Cominciamo dalla valutazione Iniziamo dalla valutazione perché, come vedremo, essa precede dapprima la misurazione per poi succederle (cfr. Visalberghi). Alla valutazione è riconosciuta una funzione fondamentale: essa è finalizzata al miglioramento del processo educativo. In pratica, si valuta per migliorare. La cosa è vera persino nel caso di valutazioni sommative e terminali (cfr. Vertecchi), dato che esse dovrebbero svolgere un ruolo fondamentale nella successiva programmazione dell’attività didattica. Nel processo di valutazione c’è una… «osservazione del risultato ottenuto in paragone e in contrasto con quello atteso, in modo che il paragone getti luce sulla effettiva adeguatezza delle cose adoperate come mezzi» J. Dewey, Teoria della valutazione, 1939 Nel processo di valutazione c’è una… «osservazione del risultato ottenuto in paragone e in contrasto con quello atteso, in modo che il paragone getti luce sulla effettiva adeguatezza delle cose adoperate come mezzi» J. Dewey, Teoria della valutazione, 1939 diagnostica rendicontativa Funzioni della valutazione La valutazione formativa si colloca durante il corso e la sua funzione è quella di dare forma alla successiva didattica. La valutazione sommativa si colloca alla fine di un corso e certifica l’avvenuto apprendimento. La valutazione diagnostica si colloca all’inizio di un corso e il suo scopo è dare informazioni sul livello iniziale di chi apprende. La rendicontazione (o accountability) riguarda principalmente chi insegna e ha lo scopo di rilevarne l’efficacia. Ps. Sulla rendicontazione, cfr. l’ultima slide! Per approfondire, cfr. dal file Benvenuto e Giacomantonio la lettura Funzioni della valutazione (Benedetto Vertecchi, Manuale della valutazione. Analisi degli apprendimenti) Prerogative della valutazione educativa 1. È un giudizio di valore. 2. Esprime la distanza tra una situazione osservata e una auspicata. 3. È uno strumento utile per colmare tale distanza. Ha un dimensione soggettiva (ineliminabile ma controllabile) Ha una dimensione comparativa e intersoggettiva che prevede la raccolta di informazioni valide e affidabili È finalizzata al miglioramento di apprendimento e insegnamento Due definizioni di valutazione educativa… Le due seguenti definizioni di valutazione in educazione rispecchiano le prerogative precedentemente evidenziate e possono riferirsi tanto ai prodotti quanto ai processi. Tuttavia la seconda (Becchi, Scalera) pone maggiormente l’accento sulla natura collegiale e negoziale del processo valutativo. Da notare che in entrambe le definizioni viene riservato uno spazio intermedio al processo di misurazione (implicitamente nel primo caso, esplicitamente nel secondo) e c’è un richiamo alla necessità di un’incidenza della valutazione sul miglioramento educativo. 1. Jaap Scheerens Giudizio del valore di oggetti educativi emesso sulla base di una raccolta sistematica di informazioni, al fine di sostenere i processi decisionali e l’apprendimento Autovalutazione e uso delle informazioni nella scuola orientata ai risultati, 2000 2. Egle Becchi, Vega Scalera Accertamento intersoggettivo di più dimensioni formative e organizzative di un contesto educativo e indicazione della loro misurabile distanza da espliciti livelli considerati ottimali da un gruppo di riferimento, in vista di un’incidenza concreta sull’esperienza educativa Cit. in Bondioli, Verso un modello di valutazione formativa, 2004 La valutazione educativa in parole povere è 1. un giudizio di valore 2. espresso sulla distanza tra come le cose sono e come dovrebbero essere (per esempio: quel che uno studente sa e quel che dovrebbe sapere a questo punto dell’anno) 3. finalizzato alla riduzione di tale distanza. La valutazione ha una natura soggettiva perché è chi valuta che sceglie su cosa incentrare il proprio giudizio. Inoltre è chi valuta che definisce la situazione auspicata (le cose come dovrebbero essere). Tuttavia la soggettività (che, come vedremo, introduce notevoli distorsioni e iniquità) può e deve essere controllata attraverso il confronto intersoggettivo con gli altri attori del processo valutativo e l’esplicitazione di finalità e criteri della valutazione. La valutazione educativa in parole povere è 1. un giudizio di valore 2. espresso sulla distanza tra come le cose sono e come dovrebbero essere (per esempio: quel che uno studente sa e quel che dovrebbe sapere a questo punto dell’anno) 3. finalizzato alla riduzione di tale distanza. La misurazione, attraverso la raccolta di informazioni valide e affidabili, svolge una funzione fondamentale nell’esplicitazione della distanza tra le cose come sono e le cose come dovrebbero essere. Per cui… 1. si valuta per migliorare. 2. si misura per valutare meglio. Fasi della valutazione Concludiamo questa prima presentazione presentando l’argomento della prossima: la misurazione. Essa è preceduta dalla valutazione, dato che la scelta dei criteri, delle forme, del momento e in ultima analisi la scelta stessa di valutare è un giudizio di valore (cfr. Visalberghi) Essa è seguita dalla valutazione, dato che la valutazione è un giudizio su una misura / accertamento (cfr. Gattullo). VISALBERGHI La misurazione nasce dalla valutazione e in essa confluisce. GATTULLO 1) Definizione dell’oggetto della valutazione. 2) Misurazione / accertamento. 3) Valutazione (interpretazione della misurazione / accertamento) Qualche considerazione introduttiva La misurazione ci consente di attribuire a concetti astratti (come la preparazione di Caio in matematica al termine del primo quadrimestre) alcune proprietà del sistema numerico Come abbiamo visto questa riduzione empirica svolge una preziosa funzione all’interno del più generale processo di valutazione (anche se non va confusa con esso) Legare concetti astratti a indicatori empirici è un’operazione complessa e richiede l’osservazione di determinati passaggi. Spesso tale complessità non viene colta e i passaggi non vengono tenuti in considerazione. In tal caso abbiamo misure inaccurate, che compromettono l’intero processo di valutazione con pesanti ripercussioni sull’apprendimento dei soggetti coinvolti Prima di affrontare i passaggi da seguire nella misurazione, vorrei ripartire dai problemi affrontati da Visalberghi in “Misurazione e valutazione”. Rileggiamo con attenzione il passaggio seguente… A. Visalberghi, Misurazione e valutazione nel processo educativo, 1955 «Non c’è nessuna ragione di fondo per cui la misura intesa come operazione di conteggio o confronto non debba accompagnarsi con la misura intesa come abito di equilibrio e discrezione. Si potrebbero fare, è vero, sottili analisi circa l’origine classica dei due significati ed il loro uso rinascimentale, ma non crediamo che i risultati sarebbero in contrasto con la semplice osservazione di buon senso che l’abito stesso del misurare, implicando l’attitudine a vedere un più ed un meno dove il giudizio affrettato scorge qualità assolute è esso stesso un abito di riflessività, di moderazione e di prudenza». Tre considerazioni sulle parole di Visalberghi Queste parole ci mettono in guardia contro un uso squilibrato della misurazione in educazione. E lo fanno all’interno di un lavoro che, nel complesso, difende le ragioni di un uso (misurato) del testing. Ci ricordano che una buona misura costituisce, al massimo, una buona approssimazione, ma non esaurisce quel che intendiamo misurare. Tre considerazioni sulle parole di Visalberghi Il richiamo al “vedere un più e un meno” da parte di chi misura rovescia il luogo comune che assegna a chi propone un approccio scientifico o quantitativo la tendenza a operare eccessive semplificazioni della realtà. Per Visalberghi, al contrario, affrontare scientificamente le questioni educative equivale a farsi carico delle loro complessità e la misura è chiamata ad arricchire e a rendere più ricco il nostro giudizio di valore. Tre considerazioni sulle parole di Visalberghi Si tratta di un approccio che rispecchia una visione della scienza in linea con il tramonto dell’idea che riteneva possibile considerare i dati indipendentemente dalle teorie e dai valori. Da questo punto di vista appare evidente la distanza tra questa visione matura e quella pseudoscientifica proposta (oltre mezzo secolo dopo!) da Tremonti (cfr. Presentazione precedente, slide 4) improntata a un induttivismo ingenuo. Purtroppo, come vedremo nel corso di altre unità didattiche, negli ultimi anni è la visione pseudoscientifica a guidare le politiche relative alla valutazione educativa. Il ruolo della misurazione VISALBERGHI Nonché sopprimere la valutazione, la misurazione nasce dalla valutazione e nella valutazione confluisce. Essa mantiene però una provvisoria ma nettissima autonomia che le permette di raggiungere una precisione ed un'attendibilità altrimenti impossibili. GATTULLO 1) Definizione dell’oggetto della valutazione. 2) Misurazione / accertamento. 3) Valutazione (interpretazione della misurazione / accertamento) Il ruolo della misurazione • Come visto (cfr. Visalberghi, Gattullo) la misurazione assume una posizione intermedia nel processo di valutazione educativa. • Essa lo sostiene attraverso la raccolta di informazioni affidabili sulla distanza che intercorre tra uno stato di cose osservato (per esempio: le conoscenze di uno studente in un dato momento del corso) e uno auspicato (per esempio: le conoscenze che a quel punto del corso dovrebbe possedere) • Questo significa che prima di misurare dobbiamo avere idee chiare rispetto a quel che ci interessa conoscere. Prima il perché “Troppo spesso ci chiediamo di misurare qualcosa senza affrontare la questione di che cosa potremmo fare con le misure una volta ottenute. Noi vogliamo sapere come, senza porci il problema del perché. Io spero di poter dire, senza irriverenza, cercate prima ciò che serve ai vostri bisogni e tutte le altre cose vi saranno date di conseguenza”. A. Kaplan, The Conduct of Inquiry, 1964. Cit. in P. Lucisano, Misurare perché e come, in P. Lucisano (a cura di), Lettura e comprensione, 1989 A. Visalberghi, Misurazione e valutazione nel processo educativo, 1955 Noi dobbiamo domandarci non già quali tipi di prove siano più «calde» ed umane, ma quali tipi di prove servano meglio ai fini di un giudizio impegnativo e motivato ricco di conseguenze pratiche importanti. E che deve perciò essere giusto ed obiettivo quant’è possibile. Prima il perché In poche parole, prima di scegliere o costruire uno strumento di misura dobbiamo avere chiaro a quale scopo ci serve. In quale tipo di processo di valutazione impiegheremo le misure rilevate? Si tratta di valutazione diagnostica, formativa o sommativa? In quale momento del percorso stiamo valutando? Le misure che usiamo come docenti Come docenti, spesso diamo i numeri. Le nostre valutazioni si esprimono come misure che di solito hanno un’espressione numerica (18… 30 all’università o 6… 10 a scuola), talvolta sono rappresentate da una lettera (C…A). Altre volte da un giudizio (sufficiente… ottimo). Di solito queste forme sono intercambiabili, cosa che sanno benissimo le migliaia di docenti della scuola primaria che hanno convertito facilmente i loro giudizi in voti, annullando così buona parte degli effetti deleteri che avrebbe avuto la pretesa rivoluzione gelminiana sostenuta da Tremonti. Le misure che usiamo come docenti Questa intercambiabilità dovrebbe metterci in guardia dal credere che per il sol fatto di esprimere numericamente un concetto si stia operando quantitativamente. O, viceversa, dal ritenere che per il sol fatto di esprimere giudizi si operi con delle qualità. Così, la questione tra quantitativo e qualitativo è mal posta. D’ora in poi parliamo di misurazione quando quando classifichiamo individui e/o fenomeni. Le qualità, se esistono, sono da noi conoscibili (aggredibili, comprensibili) soltanto mediante l’utilizzazione di procedure e categorie di tipo quantitativo. Gattullo, M. (1989), «Quantitativo e qualitativo in educazione e nella ricerca educativa», Scuola e Città, n. 4, 158-162. Proseguiamo definendo il processo di misurazione e descrivendo sinteticamente le scale di misura… P. Lucisano, A. Salerni, Metodologia della ricerca in educazione e formazione, 2003 La misurazione ha l’obiettivo di consentire una stima sulla base di un sistema di riferimento condiviso delle informazioni sulle quali si intende operare o che debbono essere considerate ai fini di formulare un giudizio. Definiamo misura diretta quella operazione che si effettua confrontando la grandezza da misurare con un’altra grandezza ad essa omogenea, presa come campione. Carmines e Zeller (1979) ritengono più appropriato definire la misurazione come un processo nel quale vengono collegati concetti astratti ad indicatori empirici, cioè un processo che comporta un esplicito e organizzato piano per classificare e/o per quantificare. Carmines, Edward G., and Richard A. Zeller (1979). Reliability and Validity Assessment. P. Lucisano, A. Salerni, Metodologia della ricerca in educazione e formazione, 2003 Le scale di misura Nella misurazione, attribuiamo dei valori numerici a oggetti o ad eventi secondo regole che permettono di rappresentare caratteri degli oggetti o eventi in questione con proprietà del sistema numerico. In teoria, alle variabili di tipo qualitativo possiamo assegnare solo nomi e non numeri, tuttavia nella pratica è comune etichettare variabili qualitative con numeri. E' necessario ricordare però che in questi casi i numeri non hanno le proprietà del sistema numerico. Una distinzione comunemente adottata è quella che divide le scale di misura in quattro categorie. NOMINALI ORDINALI DI RAPPORTI A INTERVALLI Le scale nominali Il tipo di misura più elementare è quello basato su scale nominali. Gli elementi che sono oggetto della misurazione possono essere solo raggruppati in categorie, distinguibili ma non ordinabili gerarchicamente. Un esempio di scala nominale è quella basata sulla nazionalità o sul credo religioso (nessuna persona sana di mente pretenderebbe di ordinare gerarchicamente gli individui sulla base della nazionalità o del credo religioso) Le scale ordinali In una scala ordinale gli elementi sono raggruppabili in categorie tra cui è possibile stabilire una relazione di ordinamento gerarchico Così, a differenza delle scale nominali, quelle ordinali consentono di ordinare gerarchicamente gli individui in relazione al fatto che possiedano in certa misura una caratteristica C B A Tuttavia la scala non definisce quanto un elemento dista dall'altro. Sappiamo che A è maggiore di B ma non sappiamo quantificare la distanza tra A e B né quella tra B e C. La relazione viene indicata con l’espressione “maggiore di” e con la notazione ‘>’ . Un esempio di scala ordinale è quella basata sui titoli di studio: sappiamo che una Laurea è gerarchicamente sovraordinata rispetto a un diploma di scuola secondaria di secondo grado. Ma non siamo in grado di stabilire la differenza tra i due titoli, né se la distanza tra essi è maggiore o minore rispetto a quella esistente tra il diploma e una licenza di scuola secondaria di primo grado. Le scale a intervalli Quando una scala ha tutte le caratteristiche di una scala ordinale ed è inoltre possibile stabilire la distanza tra ciascuna coppia di elementi si parla di scala a intervalli. Questo richiede che venga definita una unità di misura come riferimento comune con cui esprimere gli intervalli e che questa misura sia replicabile, cioè ripetibile ottenendo lo stesso risultato. L’unità di misura e lo zero di tale scala sono arbitrari. Un esempio di scala a intervalli è la temperatura misurata coi gradi centigradi Con queste scale è possibile calcolare media e deviazione standard. Le scale di rapporti Le scale di rapporti oltre alle caratteristiche delle scale ad intervalli hanno un punto zero assoluto, cioè fisso, non arbitrario. Un modo di accertare se stiamo utilizzando una scala di rapporti è dunque provare a pensare se possiamo usare lo zero. Di norma queste scale non hanno numeri negativi. Operazioni ammissibili: tutte! Un esempio classico di scala di rapporti è l'età di una persona o il suo peso: non si può essere più giovane di zero o pesare meno di zero. Descrizioni analitiche dell’obiettivo: permettono un affidabile e utile confronto tra la situazione attesa e quella osservata Indicatori Descrittori 1) Elementi che segnalano il posizionamento rispetto a un obiettivo (es. tipo e numero di risposte fornite) 2) Sintesi numeriche che segnalano il posizionamento rispetto a un obiettivo (es. % di abbandoni) Seconda parte Valutazione a norma o a criterio? Si limita a confrontare le prestazioni del soggetto con un gruppo di riferimento Es. SNV-Invalsi, Test d’accesso alle Università Norma Criterio Fornisce indicazioni sul raggiungimento di determinati livelli di conoscenza, capacità o competenza Es. Test di L2 basati su quadri di riferimento (A1…C2) Poi parleremo delle ricerche sull’incidenza degli stili valutativi sull’acquisizione di obiettivi di padronanza o di prestazione (intrinseci vs estrinseci) da parte di chi apprende Terza parte Docimologia, validità, affidabilità e d equità C’era proprio bisogno di una nuova disciplina all’interno delle scienze dell’educazione? C’era proprio bisogno della docimologia? Come vedremo, di sicuro c’è che la docimologia nasce intorno a un problema rilevante: la differenza di giudizi fornita da docenti a prestazioni identiche o quasi fornite da allieve e allievi. È a questo problema, che è insieme un problema di validità, affidabilità, equità ed efficacia della valutazione, dell’apprendimento e dell’insegnamento, che la docimologia, nel corso del secolo scorso, ha proposto come soluzioni approcci e strumenti innovativi. Qualche considerazione introduttiva (2) Nel corso dei decenni, la valutazione di chi apprende ha cessato di essere l’interesse pressoché unico della docimologia. Ed ecco che, dagli anni ottanta del XX secolo, assumono rilevanza anche questioni relative alla validità, all’affidabilità e all’equità di valutazioni di scuole e docenti. Docimo-(dokimàzo) = esaminare logia(logos) = discorso / riflessione scientifica Evoluzione della docimologia in tre definizioni… 1. Studio destinato alla critica e al miglioramento delle votazioni scolastiche (Piéron, 1929) 2. Scienza che ha per oggetto lo studio sistematico degli esami, in particolare dei sistemi di votazione e del comportamento degli esaminatori e degli esaminati (De Landsheere, 1971) 3. Scienza che ha per oggetto lo studio dei sistemi di valutazione in educazione (De Ketele, 1982) I voti e i giudizi sono la punta di un iceberg che per sintetizzare chiameremo valutazione e verifica scolastica e il tema dell’equità dell’istruzione è lo sfondo problematico nel quale tale iceberg si colloca G. Benvenuto, Mettere i voti a scuola, 2003 Analisi dello scarto dei voti tra valutatori (Laugier e Weinberg, in Piéron 1963) Scarti (scala da 1 a 20) Massimo Vero voto N. minimo Valutatori Prova Medio Più frequente Composizione di francese 3,3 6e7 13 78 Versione dal latino 3,0 5 12 19 Inglese 2,2 4 9 28 Matematica 2,0 4 9 13 Filosofia 3,4 5e7 12 127 Fisica 1,9 4 8 16 L’affidabilità nelle valutazioni nella scuola di massa: gli studi di Piéron Ciascun valutatore era sensibile ad alcune caratteristiche delle prove, mentre ne trascurava altre I punteggi attribuiti dai vari correttori davano luogo a distribuzioni diverse (ognuno interpretava a suo modo una scala di voti) Per ottenere un voto vero (“media d’un numero alquanto elevato di classificazioni indipendenti”) il numero dei correttori sarebbe dovuto esser altissimo (13 per la matematica, 127 per la dissertazione filosofica!) Principali distorsioni valutative in ambito educativo «L’arte di esaminare è, come tutte le arti, una sintesi di tecnica e di atti originali d’intuizione» A. Visalberghi, Misurazione e valutazione nel processo educativo, 1955 Principali distorsioni valutative in ambito educativo Elementi poco pertinenti risultano determinanti nel Alone giudizio Contagio Influenza del giudizio altrui sulla valutazione Contraccolpo Modificazione della didattica in funzione degli esami finali Distribuzione forzata Forzatura delle differenze individuali Pigmalione Adeguamento alle aspettative Stereotipia Forte incidenza di giudizi precedenti (fissità valutativa) Successione/Contrasto Sovra o sottostima sulla base di un confronto con un altro esaminando Terza parte Affidabilità Ecco dunque un primo tema affrontato storicamente dalla docimologia. Uno strumento di misura è affidabile se, sottoposto allo stesso stimolo, riproduce la stessa risposta. Salgo su una bilancia e la misura che mi restituisce è pari a 77,5 kg. Scendo. Risalgo dopo pochi secondi. La bilancia mi restituisce la misura di 82,5 kg. Scendo. Risalgo dopo pochi secondi. La bilancia mi restituisce la misura di 80,5 kg. E così via. Che conclusioni posso trarre? Che la bilancia non è affidabile. Parimenti, se la stessa prestazione di uno studente ottiene un 5 da un docente e un 7 da un altro, non posso che considerare inaffidabile la misura. Non di rado è lo stesso docente ad assegnare misure diverse a prestazioni identiche fornite da due allievi. A voi succede? Affidabilità ed equità L’affidabilità è una questione legata indissolubilmente con l’equità scolastica. È un legame che ha tratti paradossali, come ricordato nella “Lettera a una professoressa”: non c’è nulla che sia ingiusto quanto far parti uguali fra disuguali. Ma il punto è ricordare che stiamo misurando. In questa fase è necessario “far parti uguali”, sarà poi nel successivo giudizio di valore che arricchiremo le nostre misure con un ragionamento sulle differenze di partenza o di contesto. La confusione tra i due momenti è foriera di misure inaffidabili e valutazioni inique! Un modo per affrontare il problema consiste nell’utilizzo di strumenti “oggettivi” di verifica, che consentono di annullare o limitare iniquità o distorsioni nella fase di rilevazione. Nelle prove standardizzate chi “corregge” compie un’operazione nella quale o non mette in campo la propria soggettività (dato che le risposte esatte sono del tutto prestabilite, come nelle prove a scelta multipla) o limita la propria soggettività (come nelle prove semistrutturate, in cui ci sono numerosi esempi e criteri per l’assegnazione dei punteggi) Tuttavia… anche facendo ricorso a prove oggettive, la soggettività, eliminata o fortemente limitata nella fase finale del processo di misurazione (la “correzione”) si ripresenta all’inizio. Infatti sono stati dei… soggetti a scegliere quelle prove e non altre, o a costruire quelle prove facendo determinate scelte di metodo e contenuto. L’irriducibilità dell’elemento soggettivo (che non va eliminato ma controllato) ci ricorda però, ancora una volta, che… la misurazione nasce dalla valutazione (e in essa confluisce) la validità di una misura La validità è la capacità di una misura di misurare proprio quel che intende misurare Ciò che è possibile validare non è mai uno strumento in sé, ma uno strumento in relazione allo scopo per il quale viene costruito Ciò che a noi interessa che abbia validità non è tanto lo strumento quanto una particolare interpretazione dei dati ricavati dal suo utilizzo è possibile che uno strumento sia valido per misurare un fenomeno diverso da quello che vogliamo misurare la validità di contenuto Il contenuto della prova è appropriato agli intenti di misura della prova? es. per la misurazione del concetto “comprensione della lettura”, si deve 1 Definire in maniera operativa il concetto (“tradurlo in comportamenti osservabili”) ... le domande che possono aiutarci in queste fasi: a) la nostra definizione include tutti gli aspetti importanti del concetto? b) la nostra definizione esclude qualcuno tra gli aspetti importanti del concetto? 2 Scegliere i testi in modo che siano adatti allo scopo 3 Scegliere gli indicatori per rappresentare il concetto c) la scelta degli indici ha escluso aspetti importanti della nostra definizione? 4 SARÀ NECESSARIO CHE CIASCUNA ABILITÀ VENGA RILEVATA DA MOLTI ITEM OECD PISA. La verifica della validità di contenuto (1. Definire operativamente il concetto astratto) Literacy in lettura Utilizzare informazioni dal testo Concentrarsi su parti del testo Concentrarsi sulle relazioni fra le informazioni Focalizzarsi sull’insieme del testo Individuare informazioni Attingere a conoscenze extratestuali Concentrarsi sul contenuto Concentrarsi sulla forma Focalizzarsi sulle relazioni nel testo Comprendere il significato generale del testo Sviluppare un’interpretazione Riflettere sul contenuto e valutarlo Riflettere sulla forma e valutarla Seconda parte OECD PISA. La verifica della validità di contenuto (1. Definire operativamente il concetto astratto) Literacy in lettura Utilizzare informazioni dal testo Concentrarsi su parti del testo Concentrarsi sulle relazioni fra le informazioni Focalizzarsi sull’insieme del testo Individuare informazioni Attingere a conoscenze extratestuali Concentrarsi sul contenuto Concentrarsi sulla forma Focalizzarsi sulle relazioni nel testo Interpretare il testo Riflettere e valutare Seconda parte OECD PISA. La verifica della validità di contenuto (2. Controllare se gli elementi della definizione sono ben rappresentati nella prova) Individuare informazioni Interpretare il testo Riflettere e valutare Controllare, per ogni elemento 1) se ci sono item (quesiti) che all’interno della prova vanno a rilevare soltanto quello specifico elemento. 2) se il numero di item per ciascun elemento è da ritenersi sufficiente. Confronto tra INVALSI e PISA Processi (classificazione Snv 2012) Classe Prove 2013 II primaria V primaria I secondaria I gr. III secondaria I gr. II secondaria II gr. Totale Item va % va % va % va % va % va % Individuare informazioni 4 Ricostruire il significato 16 Interpretare e valutare 1 Totale 19,0 7 76,2 23 4,8 2 100,0 32 21,9 3 71,9 29 6,3 4 100,0 36 8,3 3 80,6 26 11,1 4 100,0 33 9,1 13 78,8 33 12,1 7 100,0 53 24,5 30 62,3 127 13,2 18 100,0 175 17,1 72,6 10,3 100,0 Edizione Processi Individuare informazioni Interpretare il testo Riflettere e valutare Pisa va 40 68 27 2000 % 29,6 50,4 20,0 Pisa va 31 67 33 2009 % 23,7 51,1 25,2 21 Numero insufficiente di quesiti e iniqua rappresentazione Iniqua rappresentazione LIVELLO 2 Literacy in lettura (benchmark Lisbona) INDIVIDUARE INFORMAZIONI INTERPRETARE IL TESTO RIFLETTERE E VALUTARE Localizzare una o più informazioni, ciascuna delle quali potrebbe dover soddisfare molteplici criteri. Orientarsi fra informazioni fra loro contrapposte Individuare l’idea chiave del testo, comprendere relazioni, creare o applicare semplici categorie oppure interpretare il significato di una parte limitata del testo nei casi in cui le informazioni non siano evidenti e siano necessarie semplici deduzioni Stabilire legami o paragoni fra il testo e nozioni di origine extratestuale oppure spiegare un aspetto del testo attingendo alla propria esperienza o alle proprie opinioni personali. Testi continui: Ricostruire legami linguistici o tematici all’interno di un paragrafo, allo scopo di localizzare o interpretare informazioni, oppure sintetizzare informazioni presenti trasversalmente nel testo, o in parti del testo, allo scopo di dedurre l’intenzione dell’autore. Testi non continui: Dimostrare di afferrare la struttura sottesa ad una rappresentazione grafica – ad esempio un semplice diagramma ad albero o una tabella – oppure integrare insieme due informazioni provenienti da un grafico o da una tabella Seconda parte «Lago Ciad» Seconda parte «Lago Ciad» Seconda parte «Lago Ciad» Seconda parte «Lago Ciad» Seconda parte «Lago Ciad» Seconda parte Seconda parte Seconda parte «Graffiti» Seconda parte Seconda parte Indicazione per la valutazione CODICE 1. Spiega il proprio punto di vista riferendosi al contenuto di una o di entrambe le lettere. Può fare riferimento alla posizione generale dell'autrice (a favore o contrario) o ai dettagli della sua argomentazione. L’interpretazione dell’argomentazione dell’autrice deve essere plausibile. La spiegazione può essere una parafrasi del testo ma non può essere per la maggior parte copiata senza cambiamenti o aggiunte. Seconda parte Esempi di risposte da CODICE 1 • Sono d’accordo con Olga. I graffiti sono illegali e per questo sono atti vandalici. • Olga, perché sono contro i graffiti. [Risposta minima.] • Sofia. Penso che sia ipocrita multare gli autori dei graffiti e poi guadagnare milioni copiandone le creazioni. • Sono in parte d’accordo con entrambe. Dovrebbe essere vietato dipingere i muri dei luoghi pubblici, ma bisognerebbe dare a queste persone la possibilità di farlo altrove. • Sofia, perché si preoccupa dell’arte. • Sono d’accordo con entrambe. I graffiti sono una cosa negativa, ma lo è anche la pubblicità, e non vorrei quindi essere ipocrita. • Con Olga, perché neanche a me piacciono i graffiti ma capisco anche il punto di vista di Sofia e il fatto che lei non voglia condannare le persone perché fanno le cose in cui credono. • Sofia. È vero che disegni e colori copiati dai graffiti compaiono nei negozi e sono accettati da persone che considerano i graffiti orribili. [La spiegazione è una combinazione di frasi dal testo, ma la quantità di manipolazione indica che il testo è stato compreso bene.] la validità del criterio verifica della validità di un test confrontando i suoi risultati con altre misure della stessa abilità rilevate in modo indipendente si tratta dunque di utilizzare un’altra misura come CRITERIO per validare la prima un modo molto semplice per validare secondo criterio è quello di prendere i punteggi di un test e verificare se sono correlati con punteggi che l’insegnante ha attribuito in modo autonomo ai suoi studenti la validità di costrutto si riferisce alla bontà di un test giudicata sulla base di quanto i punteggi ricavati dalla prova hanno senso in relazione alle nostre teorie Come la validità di contenuto, anche la validità di costrutto può essere verificata solo in relazione a un modello teorico Le operazioni necessarie per verificare la validità del costrutto prevedono la costruzione di una teoria (definizione di concetti e dei loro rapporti), la scelta di indicatori per ciascun concetto, la misurazione dei concetti, il calcolo delle correlazioni tra gli indici dei concetti misurati e il confronto tra queste correlazioni empiriche e quelle ipotizzate teoricamente tra i concetti la validità di aspetto si riferisce alla bontà di un test valutata in base al suo ASPETTO da parte di persone che non hanno esperienza di testing L’aspetto condiziona l’accettazione, l’uso e la circolazione di un test. In una prova che propone domande irrilevanti o inutili agli occhi della popolazione cui è destinata, L’aspetto finisce con il condizionare la validità delle misure, generando resistenze o superficialità nelle risposte L’item analysis CON L’ITEM ANALYSIS VERIFICHIAMO IL FUNZIONAMENTO DI CIASCUN QUESITO PER OGNI ITEM VENGONO CALCOLATI GLI INDICI DI FACILITÀ E DISCRIMINATIVITÀ L’indice di facilità Verifica quanto l’item sia risultato facile. È dato dal rapporto tra il numero di risposte esatte e il numero degli studenti. L’indice varia tra: 1 (tutti hanno risposto correttamente) e 0 (nessuna risposta esatta). Generalmente vengono rivisti o scartati gli item con un indice di facilità superiore a 0,75 o inferiore a 0,25 L’indice di discriminatività La discriminatività di un item è la sua capacità di distinguere gli studenti più competenti da quelli meno competenti (rispetto all’oggetto di misurazione) CALCOLO DELL’INDICE La prima cosa da fare è quella di dividere i soggetti, sulla base del numero di risposte esatte, in 3 fasce per individuare due fasce estreme di rendimento (i più bravi e i meno bravi), composte dallo stesso numero di soggetti. Il calcolo della discriminatività La discriminatività di un item è data da: la differenza tra il numero di risposte esatte fornite dai soggetti più bravi e il numero di risposte esatte fornite dai soggetti meno bravi, diviso per il numero di soggetti che compone ciascun estremo. L’indice varia tra: +1 (massima discriminatività positiva) all’ item rispondono bene solo i soggetti che sono andati complessivamente bene -1 (massima discriminatività negativa) all’ item rispondono bene solo i soggetti che sono andati male alla prova Generalmente, si ritengono accettabili gli item con indici di discriminatività superiore 0,30 Avvertenze per costruire prove oggettive La domanda deve focalizzare un solo problema o concetto, esprimendolo con precisione per evitare incertezze e confusioni nella scelta della risposta. Tutti i distrattori devono essere plausibili rispetto al problema considerato. Ogni distrattore deve, per contenuto e natura, risultare in qualche modo collegato alla domanda. I distrattori e la risposta esatta devono essere formulati in modo omogeneo, per struttura sintattica e per lunghezza. Allo stesso modo è bene evitare l’uso di termini come quasi sempre, spesso, qualche volta, che inducono a credere nell’esattezza delle alternative. Unica eccezione il caso in cui queste espressioni siano usate in una scala graduata:sempre, quasi sempre, talvolta, quasi mai, mai. Le domande dovrebbero evitare di contenere negazioni semplici o doppie. Se è proprio indispensabile, è consigliabile evidenziare la negazione in neretto, con sottolineatura o scrivendola in maiuscolo. Le risposte contenenti cifre o quantità disporle in ordine crescente o decrescente. Le alternative di risposta: nessuna di queste, sia a che b, tutte le precedenti sono da evitare Le alternative di risposta devono accordarsi grammaticalmente con la domanda posta. Terza parte Avvertenze per costruire prove oggettive Avvertenze Motivazioni Il linguaggio (termini e struttura delle proposizioni) non sia inutilmente complicato ma sia adeguato ai destinatari (V) La misurazione degli obiettivi sarebbe accompagnata o filtrata dalla misurazione delle abilità linguistiche riguardanti tali complicazioni Gli stimoli siano brevi ed essenziali, nella misura del possibile. (V) Si perde meno tempo, si provoca minore stanchezza. Non fare tranelli (V) Si misurerebbe l’abilità di sfuggire ai tranelli. Non chiedere cose banali o sciocche (V). Si misurerebbero conoscenze inutili. Non fare domande alle quali si possa rispondere solo in base al buon senso o alla cultura generale (V). Si misurerebbe il buon senso e la cultura generale. Le risposte sbagliate non siano ingenue né raffinate, ma adeguate alla preparazione dei destinatari (V) (A). Si misurerebbero acquisizioni estranee agli obiettivi perseguiti. Taluni soggetti potrebbero trovarsi in difficoltà. Citare un autore, se si fanno riferimenti a quanto egli abbia detto o scritto (A). Non si saprebbe altrimenti riconoscere come vere o false le asserzioni riportate. La collocazione delle risposte esatte non deve essere preordinata (ad esempio VFVFVFVFVF, oppure VVFFVVFFVVFF) (AS). Qualcuno potrebbe scoprirla Non utilizzare mai ‘pezzi’presi tali e quali da libri usati per lo studio (AS). Qualcuno li potrebbe avere memorizzati o ritrovarvi più facilmente la risposta esatta. Ciascuna domanda sia indipendente dalle altre (AS) Chi scoprisse i collegamenti potrebbe essere facilitato. Benvenuto, Giacomantonio p. 135 (vedi file!) Riadattamento della tabella riportata in Gattullo, Giovannini, Misurare e valutare l'apprendimento nella scuola media, B. Mondadori, Milano 1989 Terza parte Oggettiva Tradizionale Autentica Eliminazione o ridimensionamento dell’incidenza del giudizio di chi rileva Test Richiesta di risposta complessa. Colloquio orale, tema Realizzazione, individuale e di gruppo, di prodotti reali, attinenti alla dimensione scientifico/professionale della disciplina. Laboratori. Punti di forza Possibilità, in tempi ridotti, di testare la conoscenza di un numero esteso di nozioni da parte di un numero elevato di soggetti Possibilità di approfondire la conoscenza e la padronanza di un determinato argomento Possibilità di verificare se il soggetto è in grado di utilizzare risorse cognitive e metacognitive per affrontare situazioni complesse attinenti all’insegnamento Scacchi Difficoltà di rilevare conoscenze approfondite e capacità complesse (validità di contenuto). Illusione di oggettività. Scarsa affidabilità: Confusione: tra espressione numerica ed esattezza, tra incidenza di distorsioni misurazione e valutazione. Scarso ricorso all’item valutative analysis. Mancato rispetto delle regole di costruzione dei test. Peculiarità Difficoltà di approntamento dei contesti in cui realizzare i prodotti. Difficoltà nella valutazione delle dimensioni metacognitive e della capacità di lavorare in gruppo Terza parte Gradi di autenticità di un “compito” Inautentico Realistico Autentico Spiegare un set di dati Disegnare una casa utilizzando formule matematiche e figure Disegnare e costruire un modello di casa che risponda a standard e alle richieste di clienti Scrivere un “paper” su tematiche di diritto Scrivere un saggio persuasivo sul perché cambiare una legge Scrivere una proposta da presentare a specifici legislatori per cambiare una legge corrente Leggere un testo scelto dal docente Leggere alla classe un testo scelto autonomamente Produrre una registrazione audio su una storia da fornire alla biblioteca Traduzione da Wiggins, Educative Assessment, Jossey and Bass, 1998 ORIENTAMENTO DEGLI STUDENTI TENDENZA A… PADRONANZA PRESTAZIONE / EVITAMENTO della PRESTAZIONE orientati alla dimostrazione delle proprie abilità, alla valutazione positiva di altri o all’evitamento di valutazione negative (motivazione estrinseca) PERSEGUIRE OBIETTIVI centrati sul compito, che svolgono motivati a capire ciò che fanno e a farlo bene ( intrinseca) UN COMPORTAMENTO INTRINSECAMENTE MOTIVATO intrapreso e/o ESTRINSECAMENTE MOTIVATO sostenuto dal senso di soddisfazione che si prova quando Intrapreso per ottenere un qualche premio o per evitare ci impegniamo in un’attività che ci piace e in cui ci una conseguenza negativa sentiamo competenti CONSIDERARE LA RIUSCITANEL COMPITO In rapporto a se stessi Riuscire significa migliorare le proprie conoscenze e abilità in un settore e sviluppare le proprie competenze In rapporto agli altri Riuscire significa ottenere bei voti, la superiorità sui pari, il riconoscimento da parte degli altri della propria abilità CONSIDERARE L’ABILITÀ O L’INTELLIGENZA (IN RELAZIONE AD AMBITI SPECIFICI) Incrementale e acquisibile: può essere appresa e sviluppata Entitaria o fissa: l’individuo non crede di poter superare i propri limiti, che vengono riaffermati in caso di insuccesso ORIENTAMENTO DEGLI STUDENTI TENDENZA A… PADRONANZA AVERE ORIENTAMENTI DI PRESTAZIONE / EVITAMENTO della PRESTAZIONE Approccio Approccio/Evitamento AVERE EMOZIONI DI ATTIVAZIONE POSITIVA ATTIVAZIONE POSITIVA o NEGATIVA (prestazione) DEATTIVAZIONE NEGATIVA (evitamento) ATTIVARE MECCANISMI DI REGOLAZIONE (pianificazione, monitoraggio, controllo, reazione) Adattivi (es. richiesta d’aiuto come strumento per accrescere la propria autonomia) Adattivi, maladattivi (richiesta d’aiuto evitata in quanto ammissione di incapacità, auto-ostacoli per scusare il fallimento per evitare le implicazioni negative della prestazione, procrastinazione) AVERE UN SENSO DI AUTOEFFICACIA SCOLASTICA Forte Forte o debole ATTRIBUIRE GLI INSUCCESSI a un LOCUS INTERNO, a CAUSE MOBILI e CONTROLLABILI (orgoglio, perseveranza) a un LOCUS ESTERNO, a CAUSE FISSE e NON CONTROLLABILI (vergogna, sconforto) Carole Ames, 4 passaggi chiave 1 Obiettivi di riuscita degli studenti 2 Ambiente di classe e sua incidenza sull’adozione di obiettivi di riuscita Un cambiamento efficace punta al cambiamento dell’ambiente scolastico prima ancora che sul cambiamento dello studente, si incentra sul ruolo degli insegnanti e della leadership dicotomia tra obiettivi di padronanza, qui task, centrati sul compito in sé e obiettivi di prestazione, qui ability, centrati sul giudizio degli altri Gli studenti dalla classe percepiscono un’enfasi su padronanza o prestazione, questa percezione incide su motivazione e apprendimento Gli studenti percepiscono la classe come ambiente che definisce la finalità dell’apprendimento e tale percezione influenza l’adozione di obiettivi, quindi la motivazione e l’apprendimento. Carole Ames, 4 passaggi chiave Un cambiamento efficace punta al cambiamento dell’ambiente scolastico prima ancora che sul cambiamento dello studente, si incentra sul ruolo degli insegnanti e della leadership 3 Identificazione di dimensioni chiave della classe che spingono verso gli obiettivi di riuscita Il focus sulla prestazione è correlato con scarsa possibilità per gli studenti di dire la propria sulle attività, scoraggiamento del lavoro cooperativo e delle interazioni raggruppamenti basati sui livelli di prestazione enfasi su competizione e confronti tra le prestazioni e valutazioni basate sulla posizione relativa rispetto agli altri Al contrario, si incentiva l’adozione di obiettivi di padronanza attraverso coinvolgimento degli studenti nella scelta delle attività incentivazione alla cooperazione raggruppamenti basati su interessi e bisogni valutazioni basate sui miglioramenti individuali e sull’effettivo raggiungimento di livelli di competenza 4 Strutturazione di strategie concrete per agevolare l’adozione di obiettivi di riuscita Il programma TARGET parte dal presupposto che la classe non è un’isola, che è necessario coinvolgere la leadership educativa: la pressione che la scuola esercita attraverso la Cultura di scuola incide sulla struttura degli obiettivi di classe. Evidenza empirica: la percezione degli obiettivi di scuola, che si accresce di grado in grado ed è più incidente su neri e poveri, è correlata con i livelli di apprendimento ATTIVITÀ Importanza che gli studenti avvertano la significatività e la rilevanza personale delle attività Che tali attività contengano elementi di sfida e che diano agli studenti un senso di controllo sui processi e sui prodotti Che siano inoltre varie e non ripetitive (tra l’altro, meno possibilità di confronti deleteri sui prodotti) Che facciano riferimento anche a obiettivi specifici e a breve termine (per attivare l’autoregolazione per la gestione personale dell’attività) Che possano essere affrontate anche in (piccoli) gruppi L’orientamento alla prestazione è favorito se vengono enfatizzati esclusivamente l’assenza di errori e il frequente confronto con le prestazioni altrui, con conseguenze negative come l’evitamento, un senso di efficacia deficitario, il mancato uso di strategie di autoregolazione. Anche i premi corrono il rischio di incentivare l’adozione di obiettivi di prestazione VALUTAZIONE AUTORITÀ Concentrarsi sui progressi di qualcuno stabiliti in termini di padronanza (non di norma!) invece può attivare meccanismi di autoregolazione, incentivati anche dalla percezione di un ambiente collaborativo. Utilizzo proattivo degli errori. Importanza di una valutazione che informa e suggerisce azioni ma non impone conseguenze (infatti, anche le conseguenze della valutazione incidono sull’orientamento: più elevate sono, più spingono verso la prestazione). Il coinvolgimento degli studenti nella presa di decisioni supporta l’autonomia individuale e di gruppo, purché sia basato sugli interessi degli studenti e non sull’idea di impegnarsi di meno. Dare una scelta su priorità, metodi, contenuti e tempi dell’apprendimento significa responsabilizzare (a patto che vengano forniti i supporti per selezionare il materiale e applicare le migliori strategie). Lee J. Cronbach <<La rendicontabilità (accountability) implica il guardarsi indietro per attribuire meriti o colpe, la valutazione viene piuttosto utilizzata per capire gli eventi e i processi al fine di indirizzare le attività future>>