TFA 2015
tecniche di valutazione &
pedagogia sperimentale
[email protected]
L'unanimità di opinione può essere adatta per una chiesa, per le
vittime atterrite o bramose di qualche mito (antico o moderno) e per i
seguaci deboli e pronti di qualche tiranno. Per una conoscenza
obiettiva è necessaria la varietà di opinione. E un metodo che
incoraggi la varietà è anche l'unico metodo che sia compatibile con
una visione umanitaria
PK Feyerabend, "Contro il metodo"
Cinque concetti fondamentali
1. Valutazione
2. Misurazione (e oggettività)
3. Validità (e validazione)
4. Affidabilità
5. Rapporto tra valutazione e motivazione all’apprendimento
Criteri di valutazione (3 cfu tecniche di
valutazione)
1. Lavoro laboratoriale
2. Test
Validazione di uno strumento di misurazione
scelto dal gruppo (es. test Invalsi, Pisa, prove
d’ingresso al tfa, prove usate in classe ecc…).
Domande a
risposta multipla
sugli argomenti in
programma
Qualche considerazione introduttiva
Nel corso degli ultimi anni l’inveterata tendenza ad avere idee confuse su
misurazione e valutazione in campo educativo ha abbracciato più ambiti del
sistema d’istruzione. Questo perché, da un ventennio circa, a essere
sottoposti a valutazioni (o misurazioni?) non sono più soltanto studenti e
studentesse, ma anche docenti, dirigenti e istituti dalla scuola dell’Infanzia
all’Università.
Credo ci siano due tendenze opposte ma egualmente deleterie a tal
proposito. La prima è quella che confonde i due termini, considerandoli
sinonimi o annullando la misurazione nella valutazione. La seconda è quella
che tende a separarli nettamente, nell’illusione che sia possibile misurare
senza valutare o che sia auspicabile valutare senza misurare.
Cercheremo dunque di fare chiarezza sui due processi, sulle loro differenze e
sui loro rapporti. Per procedere, è bene iniziare dalla loro funzione nel
processo educativo.
Un esempio della confusione a proposito di
valutazione e misurazione in educazione
G. Tremonti, Il passato e il buon senso, “Corriere della Sera”, 22 agosto 2008
I numeri sono una cosa. I giudizi sono una cosa diversa. I numeri sono una cosa
precisa, i giudizi sono spesso confusi. Ci sarà del resto una ragione perché tutti i
fenomeni significativi sono misurati con i numeri. Un terremoto è misurato con i
numeri della scala Mercalli o Richter. Il moto marino è misurato in base alla scala
numerica della «forza», la pendenza di una parete di montagna in base ai «gradi», la
temperatura del corpo umano ancora in base ai «gradi». La mente umana è semplice
e risponde a stimoli semplici. I numeri sono insieme precisi e semplici. Il messaggio
che trasmettono è un messaggio diretto. Se gli stessi fenomeni – terremoto, moto
marino, pendenza, temperatura corporea – fossero espressi non con i numeri ma
attraverso frasi complesse con finalità descrittive, il messaggio resterebbe impreciso.
NB. Tremonti allora era Ministro dell’Economia e delle Finanze e, in quanto tale, difese
sulle pagine del Corriere il passaggio dai giudizi ai voti nella scuola primaria.
Cominciamo dalla valutazione
Iniziamo dalla valutazione perché, come vedremo, essa precede
dapprima la misurazione per poi succederle (cfr. Visalberghi).
Alla valutazione è riconosciuta una funzione fondamentale: essa è
finalizzata al miglioramento del processo educativo. In pratica, si
valuta per migliorare.
La cosa è vera persino nel caso di valutazioni sommative e terminali
(cfr. Vertecchi), dato che esse dovrebbero svolgere un ruolo
fondamentale nella successiva programmazione dell’attività
didattica.
Nel processo di valutazione c’è una…
«osservazione del risultato ottenuto in paragone e in contrasto
con quello atteso, in modo che il paragone getti luce sulla
effettiva adeguatezza delle cose adoperate come mezzi»
J. Dewey, Teoria della valutazione, 1939
Nel processo di valutazione c’è una…
«osservazione del risultato ottenuto in paragone e in contrasto
con quello atteso, in modo che il paragone getti luce sulla
effettiva adeguatezza delle cose adoperate come mezzi»
J. Dewey, Teoria della valutazione, 1939
diagnostica
rendicontativa
Funzioni della valutazione
La valutazione formativa si colloca durante il corso e la sua funzione è quella di dare
forma alla successiva didattica.
La valutazione sommativa si colloca alla fine di un corso e certifica l’avvenuto
apprendimento.
La valutazione diagnostica si colloca all’inizio di un corso e il suo scopo è dare
informazioni sul livello iniziale di chi apprende.
La rendicontazione (o accountability) riguarda principalmente chi insegna e ha lo
scopo di rilevarne l’efficacia.
Ps. Sulla rendicontazione, cfr. l’ultima slide!
Per approfondire, cfr. dal file Benvenuto e Giacomantonio la lettura
Funzioni della valutazione (Benedetto Vertecchi, Manuale della valutazione. Analisi degli apprendimenti)
Prerogative della valutazione educativa
1. È un giudizio di
valore.
2. Esprime la distanza
tra una situazione
osservata e una
auspicata.
3. È uno strumento
utile per colmare
tale distanza.
Ha un dimensione soggettiva (ineliminabile ma controllabile)
Ha una dimensione comparativa e intersoggettiva che prevede la raccolta di
informazioni valide e affidabili
È finalizzata al miglioramento di apprendimento e insegnamento
Due definizioni di valutazione
educativa…
Le due seguenti definizioni di valutazione in educazione rispecchiano le prerogative
precedentemente evidenziate e possono riferirsi tanto ai prodotti quanto ai processi.
Tuttavia la seconda (Becchi, Scalera) pone maggiormente l’accento sulla natura
collegiale e negoziale del processo valutativo.
Da notare che in entrambe le definizioni viene riservato uno spazio intermedio al
processo di misurazione (implicitamente nel primo caso, esplicitamente nel secondo)
e c’è un richiamo alla necessità di un’incidenza della valutazione sul miglioramento
educativo.
1. Jaap Scheerens
Giudizio del valore di oggetti
educativi emesso sulla base di
una raccolta sistematica di
informazioni, al fine di
sostenere i processi decisionali
e l’apprendimento
Autovalutazione e uso delle informazioni nella scuola
orientata ai risultati, 2000
2. Egle Becchi, Vega Scalera
Accertamento intersoggettivo di più
dimensioni formative e organizzative di
un contesto educativo e indicazione
della loro misurabile distanza da
espliciti livelli considerati ottimali da
un gruppo di riferimento, in vista di
un’incidenza concreta sull’esperienza
educativa
Cit. in Bondioli, Verso un modello di valutazione
formativa, 2004
La valutazione educativa in parole povere è
1.
un giudizio di valore
2.
espresso sulla distanza tra come le cose
sono e come dovrebbero essere (per
esempio: quel che uno studente sa e
quel che dovrebbe sapere a questo
punto dell’anno)
3.
finalizzato alla riduzione di tale
distanza.
La valutazione ha una natura soggettiva
perché è chi valuta che sceglie su cosa
incentrare il proprio giudizio. Inoltre è chi
valuta che definisce la situazione auspicata
(le cose come dovrebbero essere).
Tuttavia la soggettività (che, come
vedremo, introduce notevoli distorsioni e
iniquità) può e deve essere controllata
attraverso il confronto intersoggettivo con
gli altri attori del processo valutativo e
l’esplicitazione di finalità e criteri della
valutazione.
La valutazione educativa in parole povere è
1.
un giudizio di valore
2.
espresso sulla distanza tra come le cose
sono e come dovrebbero essere (per
esempio: quel che uno studente sa e
quel che dovrebbe sapere a questo
punto dell’anno)
3.
finalizzato alla riduzione di tale
distanza.
La misurazione, attraverso la raccolta di
informazioni valide e affidabili, svolge una
funzione fondamentale nell’esplicitazione
della distanza tra le cose come sono e le
cose come dovrebbero essere.
Per cui…
1.
si valuta per migliorare.
2.
si misura per valutare meglio.
Fasi della valutazione
Concludiamo questa prima presentazione
presentando l’argomento della prossima: la
misurazione.
Essa è preceduta dalla valutazione, dato che la
scelta dei criteri, delle forme, del momento e in
ultima analisi la scelta stessa di valutare è un
giudizio di valore (cfr. Visalberghi)
Essa è seguita dalla valutazione, dato che la
valutazione è un giudizio su una misura /
accertamento (cfr. Gattullo).
VISALBERGHI
La misurazione nasce dalla
valutazione e in essa confluisce.
GATTULLO
1) Definizione dell’oggetto della
valutazione.
2) Misurazione / accertamento.
3) Valutazione (interpretazione
della misurazione / accertamento)
Qualche considerazione introduttiva
La misurazione ci consente di attribuire a concetti astratti (come la
preparazione di Caio in matematica al termine del primo quadrimestre)
alcune proprietà del sistema numerico
Come abbiamo visto questa riduzione empirica svolge una preziosa funzione
all’interno del più generale processo di valutazione (anche se non va confusa
con esso)
Legare concetti astratti a indicatori empirici è un’operazione complessa e
richiede l’osservazione di determinati passaggi. Spesso tale complessità non
viene colta e i passaggi non vengono tenuti in considerazione. In tal caso
abbiamo misure inaccurate, che compromettono l’intero processo di
valutazione con pesanti ripercussioni sull’apprendimento dei soggetti coinvolti
Prima di affrontare i passaggi da seguire nella misurazione, vorrei ripartire dai
problemi affrontati da Visalberghi in “Misurazione e valutazione”. Rileggiamo
con attenzione il passaggio seguente…
A. Visalberghi, Misurazione e valutazione nel processo educativo, 1955
«Non c’è nessuna ragione di fondo per cui la misura
intesa come operazione di conteggio o confronto non
debba accompagnarsi con la misura intesa come abito di
equilibrio e discrezione.
Si potrebbero fare, è vero, sottili analisi circa l’origine
classica dei due significati ed il loro uso rinascimentale,
ma non crediamo che i risultati sarebbero in contrasto
con la semplice osservazione di buon senso che l’abito
stesso del misurare, implicando l’attitudine a vedere un
più ed un meno dove il giudizio affrettato scorge qualità
assolute è esso stesso un abito di riflessività, di
moderazione e di prudenza».
Tre considerazioni sulle parole di Visalberghi
Queste parole ci mettono in guardia contro un uso
squilibrato della misurazione in educazione.
E lo fanno all’interno di un lavoro che, nel complesso,
difende le ragioni di un uso (misurato) del testing.
Ci ricordano che una buona misura costituisce, al
massimo, una buona approssimazione, ma non esaurisce
quel che intendiamo misurare.
Tre considerazioni sulle parole di Visalberghi
Il richiamo al “vedere un più e un meno” da parte di chi
misura rovescia il luogo comune che assegna a chi propone
un approccio scientifico o quantitativo la tendenza a operare
eccessive semplificazioni della realtà.
Per Visalberghi, al contrario, affrontare scientificamente le
questioni educative equivale a farsi carico delle loro
complessità e la misura è chiamata ad arricchire e a rendere
più ricco il nostro giudizio di valore.
Tre considerazioni sulle parole di Visalberghi
Si tratta di un approccio che rispecchia una visione della
scienza in linea con il tramonto dell’idea che riteneva
possibile considerare i dati indipendentemente dalle
teorie e dai valori.
Da questo punto di vista appare evidente la distanza tra
questa visione matura e quella pseudoscientifica
proposta (oltre mezzo secolo dopo!) da Tremonti (cfr.
Presentazione precedente, slide 4) improntata a un
induttivismo ingenuo.
Purtroppo, come vedremo nel corso di altre unità
didattiche, negli ultimi anni è la visione pseudoscientifica
a guidare le politiche relative alla valutazione educativa.
Il ruolo della misurazione
VISALBERGHI
Nonché sopprimere la valutazione, la
misurazione nasce dalla valutazione e nella
valutazione confluisce. Essa mantiene però
una provvisoria ma nettissima autonomia
che le permette di raggiungere una
precisione ed un'attendibilità altrimenti
impossibili.
GATTULLO
1) Definizione dell’oggetto della
valutazione.
2) Misurazione / accertamento.
3) Valutazione (interpretazione della
misurazione / accertamento)
Il ruolo della misurazione
• Come visto (cfr. Visalberghi, Gattullo) la misurazione assume una
posizione intermedia nel processo di valutazione educativa.
• Essa lo sostiene attraverso la raccolta di informazioni affidabili sulla
distanza che intercorre tra uno stato di cose osservato (per
esempio: le conoscenze di uno studente in un dato momento del
corso) e uno auspicato (per esempio: le conoscenze che a quel
punto del corso dovrebbe possedere)
• Questo significa che prima di misurare dobbiamo avere idee chiare
rispetto a quel che ci interessa conoscere.
Prima il perché
“Troppo spesso ci chiediamo di misurare qualcosa senza affrontare la questione
di che cosa potremmo fare con le misure una volta ottenute.
Noi vogliamo sapere come, senza porci il problema del perché. Io spero di poter
dire, senza irriverenza, cercate prima ciò che serve ai vostri bisogni e tutte le
altre cose vi saranno date di conseguenza”.
A. Kaplan, The Conduct of Inquiry, 1964.
Cit. in P. Lucisano, Misurare perché e come, in P. Lucisano (a cura di), Lettura e
comprensione, 1989
A. Visalberghi, Misurazione e valutazione nel processo educativo, 1955
Noi dobbiamo domandarci non già quali tipi di
prove siano più «calde» ed umane, ma quali tipi
di prove servano meglio ai fini di un giudizio
impegnativo e motivato ricco di conseguenze
pratiche importanti. E che deve perciò essere
giusto ed obiettivo quant’è possibile.
Prima il perché
In poche parole, prima di scegliere o
costruire uno strumento di misura
dobbiamo avere chiaro a quale scopo ci
serve.
In quale tipo di processo di valutazione
impiegheremo le misure rilevate?
Si tratta di valutazione diagnostica,
formativa o sommativa?
In quale momento del percorso stiamo
valutando?
Le misure che usiamo come docenti
Come docenti, spesso diamo i numeri.
Le nostre valutazioni si esprimono come misure che di
solito hanno un’espressione numerica (18… 30
all’università o 6… 10 a scuola), talvolta sono
rappresentate da una lettera (C…A). Altre volte da un
giudizio (sufficiente… ottimo).
Di solito queste forme sono intercambiabili, cosa che
sanno benissimo le migliaia di docenti della scuola
primaria che hanno convertito facilmente i loro giudizi
in voti, annullando così buona parte degli effetti
deleteri che avrebbe avuto la pretesa rivoluzione
gelminiana sostenuta da Tremonti.
Le misure che usiamo come docenti
Questa intercambiabilità dovrebbe
metterci in guardia dal credere che
per il sol fatto di esprimere
numericamente un concetto si stia
operando quantitativamente. O,
viceversa, dal ritenere che per il
sol fatto di esprimere giudizi si
operi con delle qualità.
Così, la questione tra quantitativo
e qualitativo è mal posta. D’ora in
poi parliamo di misurazione
quando quando classifichiamo
individui e/o fenomeni.
Le qualità, se esistono, sono da noi
conoscibili (aggredibili, comprensibili)
soltanto mediante l’utilizzazione di
procedure e categorie di tipo quantitativo.
Gattullo, M. (1989), «Quantitativo e
qualitativo in educazione e nella ricerca
educativa», Scuola e Città, n. 4, 158-162.
Proseguiamo definendo il processo di misurazione
e descrivendo sinteticamente le scale di misura…
P. Lucisano, A. Salerni, Metodologia della ricerca in
educazione e formazione, 2003
La misurazione ha l’obiettivo di consentire una stima sulla base
di un sistema di riferimento condiviso delle informazioni sulle
quali si intende operare o che debbono essere considerate ai
fini di formulare un giudizio.
Definiamo misura diretta quella operazione che si effettua
confrontando la grandezza da misurare con un’altra grandezza
ad essa omogenea, presa come campione.
Carmines e Zeller (1979) ritengono più appropriato definire la
misurazione come un processo nel quale vengono collegati
concetti astratti ad indicatori empirici, cioè un processo che
comporta un esplicito e organizzato piano per classificare e/o
per quantificare.
Carmines, Edward G., and Richard A. Zeller (1979). Reliability and
Validity Assessment.
P. Lucisano, A. Salerni, Metodologia della ricerca in
educazione e formazione, 2003
Le scale di misura
Nella misurazione, attribuiamo dei valori numerici a oggetti o ad
eventi secondo regole che permettono di rappresentare caratteri
degli oggetti o eventi in questione con proprietà del sistema
numerico.
In teoria, alle variabili di tipo qualitativo possiamo assegnare solo
nomi e non numeri, tuttavia nella pratica è comune etichettare
variabili qualitative con numeri.
E' necessario ricordare però che in questi casi i numeri non hanno le
proprietà del sistema numerico.
Una distinzione comunemente adottata è quella che divide le scale
di misura in quattro categorie.
NOMINALI
ORDINALI
DI RAPPORTI
A INTERVALLI
Le scale nominali
Il tipo di misura più elementare è quello basato su scale
nominali. Gli elementi che sono oggetto della misurazione
possono essere solo raggruppati in categorie, distinguibili ma
non ordinabili gerarchicamente.
Un esempio di scala nominale è quella basata sulla nazionalità
o sul credo religioso (nessuna persona sana di mente
pretenderebbe di ordinare gerarchicamente gli individui sulla
base della nazionalità o del credo religioso)
Le scale ordinali
In una scala ordinale gli elementi sono raggruppabili in categorie tra cui è possibile
stabilire una relazione di ordinamento gerarchico
Così, a differenza delle scale nominali, quelle ordinali consentono di ordinare
gerarchicamente gli individui in relazione al fatto che possiedano in certa misura una
caratteristica
C
B
A
Tuttavia la scala non definisce quanto un elemento dista dall'altro. Sappiamo che A è
maggiore di B ma non sappiamo quantificare la distanza tra A e B né quella tra B e C.
La relazione viene indicata con l’espressione “maggiore di” e con la notazione ‘>’ .
Un esempio di scala ordinale è quella basata sui titoli di studio: sappiamo che una Laurea
è gerarchicamente sovraordinata rispetto a un diploma di scuola secondaria di secondo
grado. Ma non siamo in grado di stabilire la differenza tra i due titoli, né se la distanza tra
essi è maggiore o minore rispetto a quella esistente tra il diploma e una licenza di scuola
secondaria di primo grado.
Le scale a intervalli
Quando una scala ha tutte le caratteristiche di una
scala ordinale ed è inoltre possibile stabilire la distanza
tra ciascuna coppia di elementi si parla di scala a
intervalli.
Questo richiede che venga definita una unità di
misura come riferimento comune con cui esprimere
gli intervalli e che questa misura sia replicabile, cioè
ripetibile ottenendo lo stesso risultato. L’unità di
misura e lo zero di tale scala sono arbitrari.
Un esempio di scala a intervalli è la temperatura
misurata coi gradi centigradi
Con queste scale è possibile calcolare media e
deviazione standard.
Le scale di rapporti
Le scale di rapporti oltre alle caratteristiche delle scale ad
intervalli hanno un punto zero assoluto, cioè fisso, non
arbitrario.
Un modo di accertare se stiamo utilizzando una scala di
rapporti è dunque provare a pensare se possiamo usare lo
zero. Di norma queste scale non hanno numeri negativi.
Operazioni ammissibili: tutte!
Un esempio classico di scala di rapporti è l'età di una
persona o il suo peso: non si può essere più giovane di zero
o pesare meno di zero.
Descrizioni analitiche dell’obiettivo:
permettono un affidabile e utile
confronto tra la situazione attesa e
quella osservata
Indicatori
Descrittori
1) Elementi che segnalano il
posizionamento rispetto a un
obiettivo (es. tipo e numero di
risposte fornite)
2) Sintesi numeriche che segnalano il
posizionamento rispetto a un
obiettivo (es. % di abbandoni)
Seconda parte
Valutazione a norma o a criterio?
Si limita a confrontare le
prestazioni del soggetto con un
gruppo di riferimento
Es. SNV-Invalsi,
Test d’accesso alle Università
Norma
Criterio
Fornisce indicazioni sul
raggiungimento di determinati
livelli di conoscenza, capacità o
competenza
Es. Test di L2 basati su quadri di
riferimento (A1…C2)
Poi parleremo delle ricerche sull’incidenza degli stili valutativi sull’acquisizione di obiettivi di padronanza o di prestazione
(intrinseci vs estrinseci) da parte di chi apprende
Terza parte
Docimologia, validità, affidabilità e d equità
C’era proprio bisogno di una nuova disciplina all’interno delle scienze dell’educazione? C’era proprio bisogno
della docimologia?
Come vedremo, di sicuro c’è che la docimologia nasce intorno a un problema rilevante: la differenza di giudizi
fornita da docenti a prestazioni identiche o quasi fornite da allieve e allievi.
È a questo problema, che è insieme un problema di validità, affidabilità, equità ed efficacia della valutazione,
dell’apprendimento e dell’insegnamento, che la docimologia, nel corso del secolo scorso, ha proposto come
soluzioni approcci e strumenti innovativi.
Qualche considerazione introduttiva (2)
Nel corso dei decenni, la valutazione di chi apprende ha cessato di essere l’interesse pressoché unico della
docimologia.
Ed ecco che, dagli anni ottanta del XX secolo, assumono rilevanza anche questioni relative alla validità,
all’affidabilità e all’equità di valutazioni di scuole e docenti.
Docimo-(dokimàzo) = esaminare
logia(logos) = discorso / riflessione scientifica
Evoluzione della docimologia in tre definizioni…
1.
Studio destinato alla critica e al
miglioramento delle votazioni scolastiche
(Piéron, 1929)
2.
Scienza che ha per oggetto lo studio
sistematico degli esami, in particolare dei
sistemi di votazione e del comportamento
degli esaminatori e degli esaminati (De
Landsheere, 1971)
3.
Scienza che ha per oggetto lo studio dei
sistemi di valutazione in educazione (De
Ketele, 1982)
I voti e i giudizi sono la punta di un iceberg
che per sintetizzare chiameremo
valutazione e verifica scolastica e il tema
dell’equità dell’istruzione è lo sfondo
problematico nel quale tale iceberg si
colloca
G. Benvenuto, Mettere i voti a scuola, 2003
Analisi dello scarto dei voti tra valutatori (Laugier e Weinberg, in Piéron 1963)
Scarti (scala da 1 a 20)
Massimo
Vero voto
N. minimo
Valutatori
Prova
Medio
Più
frequente
Composizione di francese
3,3
6e7
13
78
Versione dal latino
3,0
5
12
19
Inglese
2,2
4
9
28
Matematica
2,0
4
9
13
Filosofia
3,4
5e7
12
127
Fisica
1,9
4
8
16
L’affidabilità nelle valutazioni nella scuola di massa: gli studi di Piéron
Ciascun valutatore era sensibile ad alcune caratteristiche delle prove, mentre ne trascurava
altre
I punteggi attribuiti dai vari correttori davano luogo a distribuzioni diverse (ognuno
interpretava a suo modo una scala di voti)
Per ottenere un voto vero (“media d’un numero alquanto elevato di classificazioni
indipendenti”) il numero dei correttori sarebbe dovuto esser altissimo (13 per la
matematica, 127 per la dissertazione filosofica!)
Principali distorsioni valutative in ambito educativo
«L’arte di esaminare è, come
tutte le arti, una sintesi di
tecnica e di atti originali
d’intuizione»
A. Visalberghi, Misurazione e
valutazione nel processo
educativo, 1955
Principali distorsioni valutative in ambito educativo
Elementi poco pertinenti risultano determinanti nel
Alone
giudizio
Contagio Influenza del giudizio altrui sulla valutazione
Contraccolpo
Modificazione della didattica in funzione degli esami
finali
Distribuzione forzata Forzatura delle differenze individuali
Pigmalione Adeguamento alle aspettative
Stereotipia Forte incidenza di giudizi precedenti (fissità valutativa)
Successione/Contrasto
Sovra o sottostima sulla base di un confronto con un
altro esaminando
Terza parte
Affidabilità
Ecco dunque un primo tema affrontato
storicamente dalla docimologia.
Uno strumento di misura è affidabile se,
sottoposto allo stesso stimolo, riproduce la
stessa risposta.
Salgo su una bilancia e la misura che mi
restituisce è pari a 77,5 kg. Scendo. Risalgo
dopo pochi secondi. La bilancia mi
restituisce la misura di 82,5 kg. Scendo.
Risalgo dopo pochi secondi. La bilancia mi
restituisce la misura di 80,5 kg. E così via.
Che conclusioni posso trarre? Che la
bilancia non è affidabile.
Parimenti, se la stessa prestazione
di uno studente ottiene un 5 da un
docente e un 7 da un altro, non
posso che considerare inaffidabile
la misura. Non di rado è lo stesso
docente ad assegnare misure
diverse a prestazioni identiche
fornite da due allievi.
A voi succede?
Affidabilità ed equità
L’affidabilità è una questione legata indissolubilmente
con l’equità scolastica. È un legame che ha tratti
paradossali, come ricordato nella “Lettera a una
professoressa”: non c’è nulla che sia ingiusto quanto
far parti uguali fra disuguali.
Ma il punto è ricordare che stiamo misurando. In
questa fase è necessario “far parti uguali”, sarà poi nel
successivo giudizio di valore che arricchiremo le nostre
misure con un ragionamento sulle differenze di
partenza o di contesto.
La confusione tra i due momenti è foriera di misure
inaffidabili e valutazioni inique!
Un modo per affrontare il problema consiste
nell’utilizzo di strumenti “oggettivi” di verifica,
che consentono di annullare o limitare iniquità o
distorsioni nella fase di rilevazione.
Nelle prove standardizzate chi “corregge” compie
un’operazione nella quale
o non mette in campo la propria soggettività
(dato che le risposte esatte sono del tutto
prestabilite, come nelle prove a scelta multipla)
o limita la propria soggettività (come nelle
prove semistrutturate, in cui ci sono numerosi
esempi e criteri per l’assegnazione dei
punteggi)
Tuttavia…
anche facendo ricorso a prove oggettive, la
soggettività, eliminata o fortemente limitata
nella fase finale del processo di misurazione (la
“correzione”) si ripresenta all’inizio.
Infatti sono stati dei… soggetti a scegliere quelle
prove e non altre, o a costruire quelle prove
facendo determinate scelte di metodo e
contenuto.
L’irriducibilità dell’elemento soggettivo (che
non va eliminato ma controllato) ci ricorda però,
ancora una volta, che… la misurazione nasce
dalla valutazione (e in essa confluisce)
la validità di una misura
La validità è la capacità di una misura di misurare
proprio quel che intende misurare
Ciò che è possibile validare non è mai uno strumento
in sé, ma uno strumento in relazione allo scopo per il
quale viene costruito
Ciò che a noi interessa che abbia validità non è tanto
lo strumento quanto una particolare interpretazione
dei dati ricavati dal suo utilizzo
è possibile che uno strumento sia valido per misurare
un fenomeno diverso da quello che vogliamo
misurare
la validità di contenuto
Il contenuto della prova è appropriato
agli intenti di misura della prova?
es. per la misurazione del concetto “comprensione della lettura”, si deve
1
Definire in maniera operativa il concetto
(“tradurlo in comportamenti osservabili”)
... le domande che possono aiutarci in queste fasi:
a) la nostra definizione include tutti gli aspetti importanti del concetto?
b) la nostra definizione esclude qualcuno tra gli aspetti importanti del
concetto?
2
Scegliere i testi in modo che siano adatti allo scopo
3
Scegliere gli indicatori per rappresentare il concetto
c) la scelta degli indici ha escluso aspetti importanti della nostra
definizione?
4
SARÀ NECESSARIO CHE CIASCUNA
ABILITÀ VENGA RILEVATA DA MOLTI ITEM
OECD PISA. La verifica della validità di contenuto
(1. Definire operativamente il concetto astratto)
Literacy in lettura
Utilizzare informazioni dal testo
Concentrarsi
su parti del
testo
Concentrarsi sulle
relazioni fra le
informazioni
Focalizzarsi
sull’insieme
del testo
Individuare
informazioni
Attingere a conoscenze extratestuali
Concentrarsi sul
contenuto
Concentrarsi
sulla forma
Focalizzarsi
sulle relazioni
nel testo
Comprendere
il significato
generale del
testo
Sviluppare
un’interpretazione
Riflettere sul
contenuto e
valutarlo
Riflettere
sulla forma e
valutarla
Seconda parte
OECD PISA. La verifica della validità di contenuto
(1. Definire operativamente il concetto astratto)
Literacy in lettura
Utilizzare informazioni dal testo
Concentrarsi
su parti del
testo
Concentrarsi sulle
relazioni fra le
informazioni
Focalizzarsi
sull’insieme
del testo
Individuare
informazioni
Attingere a conoscenze extratestuali
Concentrarsi sul
contenuto
Concentrarsi
sulla forma
Focalizzarsi
sulle relazioni
nel testo
Interpretare il testo
Riflettere e valutare
Seconda parte
OECD PISA. La verifica della validità di contenuto
(2. Controllare se gli elementi della definizione sono ben rappresentati nella prova)
Individuare
informazioni
Interpretare il testo
Riflettere e valutare
Controllare, per ogni elemento
1) se ci sono item (quesiti) che all’interno della prova vanno a
rilevare soltanto quello specifico elemento.
2) se il numero di item per ciascun elemento è da ritenersi
sufficiente.
Confronto tra INVALSI e PISA
Processi (classificazione Snv 2012)
Classe
Prove 2013
II primaria
V primaria
I secondaria I gr.
III secondaria I gr.
II secondaria II gr.
Totale
Item
va
%
va
%
va
%
va
%
va
%
va
%
Individuare
informazioni
4
Ricostruire il
significato
16
Interpretare
e valutare
1
Totale
19,0
7
76,2
23
4,8
2
100,0
32
21,9
3
71,9
29
6,3
4
100,0
36
8,3
3
80,6
26
11,1
4
100,0
33
9,1
13
78,8
33
12,1
7
100,0
53
24,5
30
62,3
127
13,2
18
100,0
175
17,1
72,6
10,3
100,0
Edizione
Processi
Individuare informazioni
Interpretare il testo
Riflettere e valutare
Pisa
va
40
68
27
2000
%
29,6
50,4
20,0
Pisa
va
31
67
33
2009
%
23,7
51,1
25,2
21
Numero insufficiente
di quesiti e iniqua
rappresentazione
Iniqua
rappresentazione
LIVELLO 2 Literacy in lettura (benchmark Lisbona)
INDIVIDUARE INFORMAZIONI
INTERPRETARE IL TESTO
RIFLETTERE E VALUTARE
Localizzare una o più informazioni,
ciascuna delle
quali potrebbe dover soddisfare
molteplici criteri.
Orientarsi fra informazioni fra loro
contrapposte
Individuare l’idea chiave del testo,
comprendere relazioni, creare o
applicare semplici categorie oppure
interpretare il significato di una
parte limitata del testo nei casi in cui
le informazioni non siano evidenti e
siano necessarie semplici deduzioni
Stabilire legami o paragoni fra il
testo e nozioni di
origine extratestuale oppure
spiegare un aspetto
del testo attingendo alla propria
esperienza o alle
proprie opinioni personali.
Testi continui: Ricostruire legami linguistici o tematici all’interno di un paragrafo, allo scopo di localizzare o
interpretare informazioni, oppure sintetizzare
informazioni presenti trasversalmente nel testo, o in parti del testo, allo scopo di dedurre l’intenzione dell’autore.
Testi non continui: Dimostrare di afferrare la struttura sottesa ad una rappresentazione grafica – ad esempio un
semplice diagramma ad albero o una tabella – oppure integrare insieme due informazioni provenienti da un
grafico o da una tabella
Seconda parte
«Lago Ciad»
Seconda parte
«Lago Ciad»
Seconda parte
«Lago Ciad»
Seconda parte
«Lago Ciad»
Seconda parte
«Lago Ciad»
Seconda parte
Seconda parte
Seconda parte
«Graffiti»
Seconda parte
Seconda parte
Indicazione per la valutazione
CODICE 1. Spiega il proprio punto di vista riferendosi al
contenuto di una o di entrambe le lettere. Può fare
riferimento alla posizione generale dell'autrice (a favore
o contrario) o ai dettagli della sua argomentazione.
L’interpretazione dell’argomentazione dell’autrice deve
essere plausibile. La spiegazione può essere una
parafrasi del testo ma non può essere per la maggior
parte copiata senza cambiamenti o aggiunte.
Seconda parte
Esempi di risposte da CODICE 1
• Sono d’accordo con Olga. I graffiti sono illegali e per questo sono atti vandalici.
• Olga, perché sono contro i graffiti. [Risposta minima.]
• Sofia. Penso che sia ipocrita multare gli autori dei graffiti e poi guadagnare milioni
copiandone le creazioni.
• Sono in parte d’accordo con entrambe. Dovrebbe essere vietato dipingere i muri dei
luoghi pubblici, ma bisognerebbe dare a queste persone la possibilità di farlo altrove.
• Sofia, perché si preoccupa dell’arte.
• Sono d’accordo con entrambe. I graffiti sono una cosa negativa, ma lo è anche la
pubblicità, e non vorrei quindi essere ipocrita.
• Con Olga, perché neanche a me piacciono i graffiti ma capisco anche il punto di vista di
Sofia e il fatto che lei non voglia condannare le persone perché fanno le cose in cui
credono.
• Sofia. È vero che disegni e colori copiati dai graffiti compaiono nei negozi e sono
accettati da persone che considerano i graffiti orribili. [La spiegazione è una
combinazione di frasi dal testo, ma la quantità di manipolazione indica che il testo è
stato compreso bene.]
la validità del criterio
verifica della validità di un test
confrontando i suoi risultati
con altre misure
della stessa abilità
rilevate in modo indipendente
si tratta dunque di utilizzare
un’altra misura come CRITERIO per
validare la prima
un modo molto semplice per validare
secondo criterio è quello
di prendere i punteggi di un test
e verificare se sono correlati
con punteggi che l’insegnante
ha attribuito
in modo autonomo ai suoi studenti
la validità di costrutto
si riferisce alla bontà di un test giudicata sulla base di quanto i
punteggi ricavati dalla prova hanno senso in relazione alle nostre
teorie
Come la validità di contenuto, anche la validità di costrutto può
essere verificata solo in relazione a un modello teorico
Le operazioni necessarie per verificare la validità del costrutto
prevedono la costruzione di una teoria (definizione di concetti e
dei loro rapporti), la scelta di indicatori per ciascun concetto, la
misurazione dei concetti, il calcolo delle correlazioni tra gli indici
dei concetti misurati e il confronto tra queste correlazioni
empiriche e quelle ipotizzate teoricamente tra i concetti
la validità di aspetto
si riferisce alla bontà di un test
valutata in base
al suo ASPETTO
da parte di persone che
non hanno esperienza di testing
L’aspetto condiziona l’accettazione,
l’uso e la circolazione di un test.
In una prova che propone
domande irrilevanti o inutili
agli occhi della popolazione
cui è destinata,
L’aspetto finisce con il condizionare
la validità delle misure,
generando resistenze o
superficialità nelle risposte
L’item analysis
CON L’ITEM ANALYSIS VERIFICHIAMO IL FUNZIONAMENTO DI CIASCUN QUESITO
PER OGNI ITEM VENGONO CALCOLATI GLI INDICI DI FACILITÀ E
DISCRIMINATIVITÀ
L’indice di facilità
Verifica quanto l’item sia risultato facile.
È dato dal rapporto tra il numero di risposte esatte e il
numero degli studenti.
L’indice varia tra:
1 (tutti hanno risposto correttamente)
e 0 (nessuna risposta esatta).
Generalmente vengono rivisti o scartati gli item
con un indice di facilità superiore a 0,75 o inferiore a 0,25
L’indice di discriminatività
La discriminatività di un item è la sua capacità di distinguere gli studenti più competenti
da quelli meno competenti (rispetto all’oggetto di misurazione)
CALCOLO DELL’INDICE
La prima cosa da fare è quella di dividere i soggetti,
sulla base del numero di risposte esatte, in 3 fasce
per individuare due fasce estreme di rendimento (i
più bravi e i meno bravi), composte dallo stesso
numero di soggetti.
Il calcolo della discriminatività
La discriminatività di un item è data da:
la differenza tra il numero di risposte esatte fornite dai soggetti più bravi e il numero di
risposte esatte fornite dai soggetti meno bravi,
diviso per il numero di soggetti che compone ciascun estremo.
L’indice varia tra:
+1 (massima discriminatività positiva) all’ item rispondono bene
solo i soggetti che sono andati complessivamente bene
-1 (massima discriminatività negativa) all’ item rispondono bene
solo i soggetti che sono andati male alla prova
Generalmente, si ritengono accettabili gli item con indici di
discriminatività superiore 0,30
Avvertenze per costruire prove oggettive
La domanda deve focalizzare un solo problema o concetto, esprimendolo con precisione per evitare incertezze
e confusioni nella scelta della risposta.
Tutti i distrattori devono essere plausibili rispetto al problema considerato. Ogni distrattore deve, per contenuto
e natura, risultare in qualche modo collegato alla domanda.
I distrattori e la risposta esatta devono essere formulati in modo omogeneo, per struttura sintattica e per
lunghezza.
Allo stesso modo è bene evitare l’uso di termini come quasi sempre, spesso, qualche volta, che inducono a
credere nell’esattezza delle alternative. Unica eccezione il caso in cui queste espressioni siano usate in una
scala graduata:sempre, quasi sempre, talvolta, quasi mai, mai.
Le domande dovrebbero evitare di contenere negazioni semplici o doppie. Se è proprio indispensabile, è
consigliabile evidenziare la negazione in neretto, con sottolineatura o scrivendola in maiuscolo.
Le risposte contenenti cifre o quantità disporle in ordine crescente o decrescente.
Le alternative di risposta: nessuna di queste, sia a che b, tutte le precedenti sono da evitare
Le alternative di risposta devono accordarsi grammaticalmente con la domanda posta.
Terza parte
Avvertenze per costruire prove oggettive
Avvertenze
Motivazioni
Il linguaggio (termini e struttura delle proposizioni) non sia inutilmente
complicato ma sia adeguato ai destinatari (V)
La misurazione degli obiettivi sarebbe accompagnata o filtrata dalla
misurazione delle abilità linguistiche riguardanti tali complicazioni
Gli stimoli siano brevi ed essenziali, nella misura del possibile. (V)
Si perde meno tempo, si provoca minore stanchezza.
Non fare tranelli (V)
Si misurerebbe l’abilità di sfuggire ai tranelli.
Non chiedere cose banali o sciocche (V).
Si misurerebbero conoscenze inutili.
Non fare domande alle quali si possa rispondere solo in base al buon
senso o alla cultura generale (V).
Si misurerebbe il buon senso e la cultura generale.
Le risposte sbagliate non siano ingenue né raffinate, ma adeguate alla
preparazione dei destinatari (V) (A).
Si misurerebbero acquisizioni estranee agli obiettivi perseguiti. Taluni
soggetti potrebbero trovarsi in difficoltà.
Citare un autore, se si fanno riferimenti a quanto egli abbia detto o scritto
(A).
Non si saprebbe altrimenti riconoscere come vere o false le asserzioni
riportate.
La collocazione delle risposte esatte non deve essere preordinata (ad
esempio VFVFVFVFVF, oppure VVFFVVFFVVFF) (AS).
Qualcuno potrebbe scoprirla
Non utilizzare mai ‘pezzi’presi tali e quali da libri usati per lo studio (AS).
Qualcuno li potrebbe avere memorizzati o ritrovarvi più facilmente la
risposta esatta.
Ciascuna domanda sia indipendente dalle altre (AS)
Chi scoprisse i collegamenti potrebbe essere facilitato.
Benvenuto, Giacomantonio p. 135 (vedi file!) Riadattamento della tabella riportata in
Gattullo, Giovannini, Misurare e valutare l'apprendimento nella scuola media, B. Mondadori, Milano 1989
Terza parte
Oggettiva
Tradizionale
Autentica
Eliminazione o ridimensionamento dell’incidenza del
giudizio di chi rileva
Test
Richiesta di risposta
complessa.
Colloquio orale, tema
Realizzazione, individuale e di gruppo, di
prodotti reali, attinenti alla dimensione
scientifico/professionale della disciplina.
Laboratori.
Punti di
forza
Possibilità, in tempi ridotti,
di testare la conoscenza di un numero esteso di nozioni
da parte di un numero elevato di soggetti
Possibilità di
approfondire la
conoscenza e la
padronanza di un
determinato argomento
Possibilità di verificare se il soggetto è in grado
di utilizzare risorse cognitive e metacognitive
per affrontare situazioni complesse attinenti
all’insegnamento
Scacchi
Difficoltà di rilevare conoscenze approfondite e capacità
complesse (validità di contenuto).
Illusione di oggettività.
Scarsa affidabilità:
Confusione: tra espressione numerica ed esattezza, tra incidenza di distorsioni
misurazione e valutazione. Scarso ricorso all’item
valutative
analysis. Mancato rispetto delle regole di costruzione dei
test.
Peculiarità
Difficoltà di approntamento dei contesti in cui
realizzare i prodotti. Difficoltà nella
valutazione delle dimensioni metacognitive e
della capacità di lavorare in gruppo
Terza parte
Gradi di autenticità di un “compito”
Inautentico
Realistico
Autentico
Spiegare un set di dati
Disegnare una casa utilizzando
formule matematiche e figure
Disegnare e costruire un modello di
casa che risponda a standard e alle
richieste di clienti
Scrivere un “paper” su
tematiche di diritto
Scrivere un saggio persuasivo sul
perché cambiare una legge
Scrivere una proposta da presentare
a specifici legislatori per cambiare
una legge corrente
Leggere un testo scelto
dal docente
Leggere alla classe un testo scelto
autonomamente
Produrre una registrazione audio su
una storia da fornire alla biblioteca
Traduzione da Wiggins, Educative Assessment, Jossey and Bass, 1998
ORIENTAMENTO DEGLI STUDENTI
TENDENZA A…
PADRONANZA
PRESTAZIONE /
EVITAMENTO della PRESTAZIONE
orientati alla dimostrazione delle proprie abilità, alla
valutazione positiva di altri o all’evitamento di valutazione
negative
(motivazione estrinseca)
PERSEGUIRE OBIETTIVI
centrati sul compito, che svolgono motivati a capire ciò
che fanno e a farlo bene
( intrinseca)
UN COMPORTAMENTO
INTRINSECAMENTE MOTIVATO intrapreso e/o
ESTRINSECAMENTE MOTIVATO
sostenuto dal senso di soddisfazione che si prova quando
Intrapreso per ottenere un qualche premio o per evitare
ci impegniamo in un’attività che ci piace e in cui ci
una conseguenza negativa
sentiamo competenti
CONSIDERARE LA RIUSCITANEL
COMPITO
In rapporto a se stessi
Riuscire significa migliorare le proprie conoscenze e
abilità in un settore e sviluppare le proprie competenze
In rapporto agli altri
Riuscire significa ottenere bei voti, la superiorità sui pari, il
riconoscimento da parte degli altri della propria abilità
CONSIDERARE L’ABILITÀ O
L’INTELLIGENZA (IN RELAZIONE AD
AMBITI SPECIFICI)
Incrementale e acquisibile: può essere appresa e
sviluppata
Entitaria o fissa: l’individuo non crede di poter superare i
propri limiti, che vengono riaffermati in caso di insuccesso
ORIENTAMENTO DEGLI STUDENTI
TENDENZA A…
PADRONANZA
AVERE ORIENTAMENTI DI
PRESTAZIONE /
EVITAMENTO della PRESTAZIONE
Approccio
Approccio/Evitamento
AVERE EMOZIONI DI
ATTIVAZIONE POSITIVA
ATTIVAZIONE POSITIVA o NEGATIVA
(prestazione)
DEATTIVAZIONE NEGATIVA (evitamento)
ATTIVARE MECCANISMI DI
REGOLAZIONE
(pianificazione, monitoraggio, controllo,
reazione)
Adattivi
(es. richiesta d’aiuto come strumento per accrescere la
propria autonomia)
Adattivi, maladattivi (richiesta d’aiuto evitata in quanto
ammissione di incapacità, auto-ostacoli per scusare il
fallimento per evitare le implicazioni negative della
prestazione, procrastinazione)
AVERE UN SENSO DI AUTOEFFICACIA
SCOLASTICA
Forte
Forte o debole
ATTRIBUIRE GLI INSUCCESSI
a un LOCUS INTERNO, a CAUSE MOBILI e
CONTROLLABILI (orgoglio, perseveranza)
a un LOCUS ESTERNO, a CAUSE FISSE e NON
CONTROLLABILI (vergogna, sconforto)
Carole Ames, 4 passaggi chiave
1
Obiettivi di riuscita degli studenti
2
Ambiente di classe e sua incidenza
sull’adozione di obiettivi di riuscita
Un cambiamento efficace punta al cambiamento dell’ambiente scolastico prima ancora che sul
cambiamento dello studente, si incentra sul ruolo degli insegnanti e della leadership
dicotomia tra obiettivi di padronanza, qui task, centrati sul compito in sé e obiettivi di prestazione, qui
ability, centrati sul giudizio degli altri
Gli studenti dalla classe percepiscono un’enfasi su padronanza o prestazione, questa percezione incide su
motivazione e apprendimento
Gli studenti percepiscono la classe come ambiente che definisce la finalità dell’apprendimento e tale
percezione influenza l’adozione di obiettivi, quindi la motivazione e l’apprendimento.
Carole Ames, 4 passaggi chiave
Un cambiamento efficace punta al cambiamento dell’ambiente scolastico prima ancora che sul
cambiamento dello studente, si incentra sul ruolo degli insegnanti e della leadership
3
Identificazione di dimensioni chiave della
classe che spingono verso gli obiettivi di
riuscita
Il focus sulla prestazione è correlato con
scarsa possibilità per gli studenti di dire la propria sulle attività,
scoraggiamento del lavoro cooperativo e delle interazioni
raggruppamenti basati sui livelli di prestazione
enfasi su competizione e confronti tra le prestazioni e valutazioni basate sulla posizione relativa rispetto agli
altri
Al contrario, si incentiva l’adozione di obiettivi di padronanza attraverso
coinvolgimento degli studenti nella scelta delle attività
incentivazione alla cooperazione
raggruppamenti basati su interessi e bisogni
valutazioni basate sui miglioramenti individuali e sull’effettivo raggiungimento di livelli di competenza
4
Strutturazione di strategie concrete per
agevolare l’adozione di obiettivi di riuscita
Il programma TARGET parte dal presupposto che la classe non è un’isola, che è necessario coinvolgere la
leadership educativa: la pressione che la scuola esercita attraverso la Cultura di scuola incide sulla struttura
degli obiettivi di classe. Evidenza empirica: la percezione degli obiettivi di scuola, che si accresce di grado in
grado ed è più incidente su neri e poveri, è correlata con i livelli di apprendimento
ATTIVITÀ
Importanza che gli studenti avvertano la significatività e la rilevanza personale delle attività
Che tali attività contengano elementi di sfida e che diano agli studenti un senso di controllo sui processi e sui prodotti
Che siano inoltre varie e non ripetitive (tra l’altro, meno possibilità di confronti deleteri sui prodotti)
Che facciano riferimento anche a obiettivi specifici e a breve termine (per attivare l’autoregolazione per la gestione personale
dell’attività)
Che possano essere affrontate anche in (piccoli) gruppi
L’orientamento alla prestazione è favorito se vengono enfatizzati esclusivamente l’assenza di errori e il frequente
confronto con le prestazioni altrui, con conseguenze negative come l’evitamento, un senso di efficacia deficitario, il
mancato uso di strategie di autoregolazione. Anche i premi corrono il rischio di incentivare l’adozione di obiettivi di
prestazione
VALUTAZIONE
AUTORITÀ
Concentrarsi sui progressi di qualcuno stabiliti in termini di padronanza (non di norma!) invece può attivare
meccanismi di autoregolazione, incentivati anche dalla percezione di un ambiente collaborativo. Utilizzo proattivo degli
errori.
Importanza di una valutazione che informa e suggerisce azioni ma non impone conseguenze (infatti, anche le
conseguenze della valutazione incidono sull’orientamento: più elevate sono, più spingono verso la prestazione).
Il coinvolgimento degli studenti nella presa di decisioni supporta l’autonomia individuale e di gruppo, purché sia basato sugli interessi
degli studenti e non sull’idea di impegnarsi di meno. Dare una scelta su priorità, metodi, contenuti e tempi dell’apprendimento significa
responsabilizzare (a patto che vengano forniti i supporti per selezionare il materiale e applicare le migliori strategie).
Lee J. Cronbach
<<La rendicontabilità (accountability) implica il guardarsi
indietro per attribuire meriti o colpe, la valutazione viene
piuttosto utilizzata per capire gli eventi e i processi al fine
di indirizzare le attività future>>
Scarica

ppt - Cristiano Corsini