La valutazione delle competenze linguistiche: concetti modelli metodi Centro per la valutazione e la Certificazione Linguistica (CVCL) Giuliana Grego Bolli [email protected] Spoleto, 27 novembre 2013 Questa presentazione in 4 punti • Valutazione (linguistica) in prospettiva disciplinare e contesto italiano • Terminologia di base • Qualità nella valutazione linguistica • Preparazione degli insegnanti: se e quanto gli insegnanti di italiano lingua non materna devono essere competenti e preparati in questo specifico settore • (Metodi) La Valutazione (non solo linguistica) e il contesto italiano • Mancanza di una “cultura” della valutazione all’interno del sistema educativo italiano (Valutazione come disciplina e non come parte indefinita e indistinta della competenza ed esperienza dell’insegnante) • Mancanza diffusa di preparazione specifica, sistematica e professionalizzante degli insegnanti in questo settore • Discipline pedagogiche (Pedagogia sperimentale) • INVALSI (valutazione esterna) Perché? (1) • Ragioni culturali/filosofiche: opposizione fra empirismo (anglossassone) e neoidealismo (italiano). Il concetto della conoscenza empirica (alla base della ricerca scientifica) non è comune al neoidealismo italiano, che nega sostanzialmente alla scienza valore conoscitivo. • Ragioni storico-sociali e linguistiche: l’italiano è stato per secoli lingua letteraria colta e non lingua d’uso diffusa fra la popolazione per cui la la ricerca linguistica in Italia ha una grande tradizione storico filologica, piuttosto che applicata. Perché? (2) • Nel mondo anglosassone all’interno della Linguistica Applicata si è sviluppato un approccio disciplinare alla Valutazione linguistica (Language Testing) (sotto-disciplina) • Linguistica applicata, secondo Chris Brumfit (1997): “the theoretical and empirical investigation of real world problems in which language is the central issue” • Mancanza di una disciplina di riferimento (valutazione linguistica). Qualche riferimento utile per un primo approccio al Language Testing: • ILTA (International Language Testing Association): www.ilta.org • EALTA (European Language Testing Association): www.ealta. eu.org • ALTE (Association of Language Testers in Europe): www.alte.org • CVCL (Centro per la Valutazione e le Certificazioni linguistiche – Università per Stranieri di Perugia): www.cvcl.it • • • • Language Testing Language Assessment Quarterly Studies in Language Testing Series Companion to Language Assessment Il processo valutativo è di tipo interpretativo/argomentativo • Partiamo dalla performance (dato) di uno studente in una prova • Questa performance genera un risultato (punteggio, giudizio, grado, ecc) • L’interpretazione del risultato e l’uso che ne viene poi fatto (giustificato su basi teoriche e supportato da evidenze empiriche) va al di là del dato (limitato esempio di performance) e si estende a situazioni di uso della lingua nella vita reale • Si procede quindi per inferenze e deduzioni Un po’ di terminolgia…. verifica, valutazione, test/prova Teminologia: verifica e valutazione • Indicano momenti diversi di un processo complessivo: processo valutativo • Sono spesso usati in modo interscambiabile • Non c’è valutazione senza verifica, anche se ci può essere verifica senza valutazione Terminologia: Verifica • L’accertamento sistematico (che segue principi norme/standard - sia teorici che di buona prassi condivisi sia dalla comunità scientifica che professionale) ed organizzato delle conoscenze/competenze d’uso/abilità (il cosa) presenti in chi si sottopone alla verifica, vale a dire nei soggetti da valutare (gli studenti/apprendenti) • Parlare di accertamento sistematico di abilità e competenze significa parlare di metodi (il come) • I metodi/le tecniche/ i formati, di verifica non sono ‘neutrali’ • Non esistono metodi “buoni” o “cattivi” in assoluto Terminologia: Valutazione • Raccolta sistematica di informazioni (in parte - si pensi al contesto scolastico - fornite dalla verifica) per poter esprimere un giudizio o assegnare un punteggio • In entrambi i casi vengono prese delle decisioni • Valutazione è il momento in cui si prendono delle decisioni – potere della valutazione –impatto della valutazione • La valutazione è il più potente strumento di comunicazione didattica • La valutazione diventa strumento importante in termini di mobilità internazionale e di promozione del pluringuismo Terminologia: Test o prova standardizzata o esame (singolo momento) • Nel dizionario della OUP troviamo questa definizione: • “Un breve esame di conoscenze o abilità, che consiste nel rispondere a determinate domande o nel portare avanti determinate attività” Secondo un’accezione più tecnica il termine test/prova/esame • È espressione di un metodo per raccogliere informazioni (legato alla verifica) • utilizza procedure standard per la sua costruzione • ha come obiettivo accertare conoscenze o abilità • è sempre relativo a ‘qualcosa’ che a seconda delle circostanze può essere: la storia, la geografia… la competenza linguistica • questo ‘qualcosa’ deve essere definito e descritto (quanto meno “essere nella mente” di chi costruisce il test) • Costruire test/prove ci aiuta a riflettere su cosa vogliamo verificare e indirettamente sul nostro stesso insegnamento Chi è coinvolto nel processo valutativo? Una lista dei possibili utenti (stakeholders) Utenti Insegnanti Studenti Famiglie Istituzioni scolastiche/universitarie Scuole private di lingua Istituzioni governative nazionali ed internazionali Datori di lavoro/Agenzie per l’impiego nazionali ed internazionali/ ordini professionali Ricercatori/mondo accademico Società (es. contesto di immigrazione) Gli utenti (stakeholders) coinvolti ci invitano a riflettere sulla responsabilità sociale ed educativa del processo valutativo e sulla necessità di una preparazione e formazione professionale di chi prepara test/prove, di chi li amministra e di chi li corregge e valuta – garanzia della qualità della valutazione Qualità nella valutazione linguistica L’applicazione di questi concetti al processo di produzione di test linguistici costituisce una garanzia di qualità • • • • • • Validità (validity) Affidabilità (reliability) Autenticità (authenticity) Fattibilità (practicality) Equità (fairness) Utilità/spendibilità (usefulness) • Impatto (impact) • Eticità (ethical test use) Processo di Validazione di un test Validità La Validità riguarda l’interpretazione dei risultati, le inferenze sui risultati (punteggi, gradi, giudizi) e quindi l’uso che viene fatto del test e rappresenta, generalizzando, la vera, più importante qualità di un test Dalla Validità come concetto teorico e quindi astratto della prospettiva tradizionale si è passati (fine anni ‘80) a parlare di Validazione o meglio di processo di validazione intendendo un’analisi del processo di produzione di un test che fornisca evidenze a supporto delle inferenze sui risultati di un test Impatto (Impact) L’effetto/le conseguenze generato/e da un test/prova/esame, sia sull’insegnamento (aspetto educativo-backwash effect), sia sui singoli individui, sia sulla società (aspetto sociale-washback effect). Le conseguenze possono essere sia positive sia negative. Si può parlare di impatto a livello micro (l’individuo) e a livello macro (educazione e società) Sono stati condotti molti studi e ricerche sull’impatto Il concetto di impatto è considerato parte del macroconcetto di validità Eticità I test linguistici non vengono prodotti e soprattutto usati nel vuoto ma all’interno del sistema educativo e della società. Questo li pone a rischio di usi politici e anche di potenziali abusi sulla base del loro potere decisionale e discriminatorio L’unica risposta possibile a questo concreto ed attuale rischio è la professionalità di chi produce, amministra e valuta partendo dalla formazione dei language testers e dal rispetto di codici etici elaborati dalle società scientifiche (ILTA, EALTA) Cosa fa di un test linguistico (valutazione sommativa) un “buon” test linguistico? (test “interni” o “esterni” ma sempre all’interno di un dato sistema educativo) deve tenere presenti programmi e obiettivi di apprendimento/insegnamento deve integrarsi con l’approccio all’insegnamento sia per i contenuti che per i metodi deve avere un contenuto appropriato (caratteristiche dei discenti, livello) deve motivare deve essere tecnicamente ben costruito deve verificare almeno tutte e 4 le abilità di base (valutazione sia formativa sia sommativa) ( ad es. se non verifichiamo la prod. orale, diamo il messaggio che non è ritenuta importante) Considerazioni finali sulla valutazione e sulla preparazione degli insegnanti: necessaria/non necessaria, fino a che punto…. Gli insegnanti devono essere formati/preparati in valutazione? • E’ innegabile che la valutazione faccia parte del processo di insegnamento-apprendimento • Si parla di valutazione come del più importante/efficace strumento di comunicazione didattica • Cowan (1998) da questa definizione di valutazione: “the engine that drives learning” • E’ stato dimostrato che un insegnante dedica da un terzo alla metà del suo tempo di lavoro alla valutazione Vero ma…. • Gran parte degli insegnanti si occupa di valutazione senza aver appreso in modo sistematico i principi di una valutazione consapevole, di qualità e teoricamente fondata • Questo fenomeno è trasversale vale anche nel mondo anglosassone (Stigging 2007) Che cosa può significare per un insegnante avere la necessaria preparazione in valutazione? • Capire come definire chiari obbiettivi di insegnamento/apprendimento • Capire quali metodi di verifica usare al fine di raccogliere informazioni affidabili sull’apprendimento degli studenti • Capire come usarli • Capire come comunicare risultati attendibili/significativi indipendentemente dal modo con cui vengono comunicati: punteggi, gradi, giudizi, ecc • Capire come usare la valutazione per massimizzare motivazione e apprendimento, coinvolgendo gli studenti nel processo valutativo Metodi • Soggettivi • Oggettivi • Diretti • Indiretti Ci fermiamo qui…. Grazie! C’è una relazione tra valutazione linguistica e insegnamento? • “We believe that language testers can serve linguistic theory by examining the way in which their tests work, how their different components interrelate, and what they reveal about candidates’ language proficiency. Insights from such analysis of test results should contribute to the development of a better understanding of what is involved in knowing and using language” (Alderson and Clapham 1992 Applied linguistics and language testing. Applied Linguistics. 13: 164) • E inoltre innegabile che metodi di verifica possono influenzare l’insegnamento in classe, così come nuove teorie sull’apprendimento/ insegnamento influenzano le pratiche valutative Utenti “tecnici” vale a dire chi contribuisce alla produzione somministrazione e valutazione di un test o di un esame Chi produce test/prove (item writers-test producers) Chi amministra/somministra test/prove (test administrators) Chi corregge test/prove scritte e orali e/o chi assegna punteggi o formula giudizi (examiners) E’ possibile distinguere varie tipologie di test linguistici secondo tre possibili categorizzazioni • Uso che viene fatto dei risultati del test: • Costruzione del test • Espressione dei giudizi e attribuzione dei punteggi relativi al test Uso che viene fatto dei risultati: • Test di piazzamento (placement tests): per assegnare gli studenti a classi di livello diverso, • Test di profitto (achievement tests): per stabilire se gli studenti (e il corso) hanno raggiunto gli obiettivi preposti. • Test diagnostici: per individuare i ‘punti di forza e di debolezza’ di ciascun discente per predisporre azioni adeguate di sostegno. • DIALANG: test diagnostici computerizzati (14 lingue, compreso l’italiano) (5 moduli: lettura, scrittura, ascolto, strutture grammaticali e lessico) calibrati sui 6 livelli del QCER • Test di proficiency: per verificare la competenza di un candidato in una data lingua indipendentemente dal percorso formativo (certificazioni linguistiche) Costruzione del test • Test diretti: richiedono allo studente di fornire una rappresentazione diretta dell’abilità che il test intende verificare-valutare (abilità produttive) • Test indiretti: verificano competenze/conoscenze soggiacenti o funzionali alle abilità oggetto di valutazione • Test a ‘punti discreti’: verificano singoli ed isolati elementi linguistici (grammatica e lessico) e li verificano uno alla volta • Test integrati: verificano abilità integrate (es ascoltare e scrivere, ascoltare e parlare, leggere e scrivere ecc). Espressione dei giudizi attribuzione dei punteggi relativi ad un test 1 • Test soggettivi • Test oggettivi • La differenza è relativa unicamente ai metodi utilizzati per attribuire il punteggio Cosa fa di un test linguistico un “buon” test linguistico (test “esterni”/test di proficency/certificazioni)? deve basarsi su una teoria linguistica (cosa intendiamo per conoscere una lingua) e su un conseguente approccio alla valutazione deve basarsi su una definizione di “cosa” verificare (costrutto: competenza, abilità) Tale definizione e descrizione deve essere accessibile all’utenza: specificazioni deve poter fare riferimento ad un sistema di livelli standard (normativi e condivisi) deve avere un contenuto appropriato (caratteristiche della popolazione di discenti, bisogni, definizione del costrutto, livello) deve motivare deve essere relativo alla ‘vita reale’ deve essere proceduralmente/tecnicamente ben costruito secondo standard indicati da codici etici e professionali (buone pratiche) deve fornire materiali per “allenarsi all’esame”-past papers -eserciziari deve verificare almeno tutte e 4 le abilità di base deve avere un impatto positivo sull’insegnamento e sulla società deve essere riconosciuto e spendibile deve garantire la qualità la qualità deve a sua volta essere certificata (sistemi di qualità-bollini, ecc) Che cosa significano queste parole/concetti che indicano le proprietà o qualità di un test? Lavorando da soli o a gruppi, scrivete una definizione di: Validità (Validity) Affidabilità (Reliability) Autenticità (Authenticity) Fattibilità (Practicality) Equità (Fairness) Utilità/Spendibilità (Usefulness) Impatto (Impact) Eticità (Ethical test use) vale a dire…. Tale processo di Validazione riguarda l’intero processo di costruzione di un test: dalla definizione della popolazione, alla definizione dell’oggetto della verifica-costrutto, alla correzione e attribuzione dei punteggi all’impatto del test e riguarda la necessità di fornire evidenze, di dimostrare concretamente la coerenza. conseguenzialità e sistematicità di tutte le fasi in cui si articola il processo Facciamo un esempio…. Per interpretare correttamente dei punteggi in un test di produzione scritta, dovrò definire cosa si intende per capacità di scrittura in un dato contesto e per un dato gruppo di discenti/di candidati e di conseguenza il tipo di compiti (tasks) da includere nel test (relazioni, composizioni brevi, messaggi, lettere, email, ecc), i criteri per correggere e dare il punteggio (organizzazione del test, stile, originalità, il raggiungimento dell’obiettivo comu. ecc), le condizioni all’interno delle quali il candidato dovrà eseguire il compito (limiti di tempo, numero di parole, ecc ) e, a livello cognitivo, si dovrà anche cercare di tener conto dell’impegno cognitivo richiesto e di come variabili individuali di tipo psicologico, emozionale possano influenzare la performance Affidabilità (Reliability) o validità dei punteggi (Scoring validity) La costanza e stabilità dei risultati di un test/prova/esame (o di sue versioni) attraverso somministrazione successive. Concetto tecnico relativo all’assenza di errori di misurazione, sostanzialmente a come è stato applicato il metodo di verifica e alle procedure sia di somministrazione del test sia di correzione ed attribuzione dei punteggi. Principali cause di mancanza di affidabilità: • Caratteristiche delle procedure di verifica (non del metodo in quanto tale) Vale a dire aspetti relativi 1. a come un test è stato ‘scritto’ (ad es. istruzioni poco chiare che lo studente può interpretare in modo non corretto; item formulati in modo ambiguo) 2. alle sue condizioni di somministrazione (ad es. dove e quando viene somministrato un test: tipo di aula, tipo di sorveglianza, se il test viene somministrato di mattina o di pomeriggio). Tutti aspetti che possono incidere in modo significativo sulla performance di uno studente Cause di mancanza di affidabilità (continua) • Problemi che possono insorgere nella fase di attribuzione dei punteggi o espressione dei giudizi. Ad esempio, nella verifica della Produzione scritta: performance equivalenti a cui viene attribuito un punteggio diverso. Ciò può dipendere da: • criteri di valutazione poco chiari e difficilmente applicabili • formazione inadeguata degli esaminatori e/o da errori umani: • errori di distrazione/stanchezza degli esaminatori • incostanza nell’attribuzione dei punteggi fra esaminatori e da parte dello stesso esaminatore Autenticità (predittività) L’autenticità di un test linguistico è relativa alla possibilità di dimostrare che la performance di uno studente (nel test e nell’attività o compito che il test fa fare) corrisponde ad una effettiva capacità di uso della lingua in situazioni di vita reale E’ il grado di corrispondenza fra le caratteristiche del compito o dell’attività che il test fa fare e quelle di un corrispondente compito o attività nella vita reale In base a quanto detto prima il concetto di autenticità non è un concetto a parte ma rientra pienamente nel macro concetto di validità e ne rappresenta uno degli aspetti più significativi Fattibilità (Practicality) La misura in cui un test (così come lo abbiamo definito e descritto) è praticabile, fattibile in termini di risorse e condizioni disponibili. Riguarda aspetti pratici, organizzativi ed ‘economici’ Equità/Correttezza (Fairness) Assenza di bias (comportamenti scorretti, discriminatori e di parte) nei confronti della popolazione di riferimento (età, genere, paese di provenienza) La Valutazione, intendendo l’intero processo valutativo, non deve risultare in alcun modo discriminante relativamente ad aspetti socioculturali che possono risultare rilevanti ai fini del risultato. Ci sono analisi statistiche che ci aiutano ad identificare eventuali bias (DIF) Utilità/Spendibilità (Usefulness) E’ relativa all’utilità (e quindi spendibilità) dei risultati di un test/prova/esame per gli scopi per cui il test è stato costruito (contesto sia sociale che educativo). Dipende dalla correttezza delle inferenze e quindi da un buon equilibrio fra le diverse ‘qualità’ di un test/prova/esame, E’ legata dunque al processo di validazione e alle evidenze che il medesimo è in grado di produrre Validità: “cosa” (oggetto della verifica - costrutto: abilità o singola competenza) Affidabilità: stabilità/costanza e replicabilità dei risultati (metodo/”come”) Fattibilità: considerazioni di carattere pratico ed ‘economico’ (contesto) Autenticità: rispondenza delle attività proposte dal test ad attività nella vita reale Utilità/Spendibilità: Qualità di un test/prova/esame Impatto: ripercussioni della somministrazione di un test e dei suoi risultati a livello micro e macro Equità: rispetto di diversità socio-culturali Eticità: uso corretto dei test garantito dalla professionalità di chi li produce Tutte queste proprietà rientrano oggi nel processo di validazione di un test METODI Test oggettivi: scelta multipla • I test a scelta multipla richiedono di scegliere la risposta fra le tre o quattro proposte • La risposta va selezionata non prodotta Vantaggi Scelta Multipla • Correzione automatica, veloce ed economica in caso di grandi numeri di candidati • Può essere usato per la verifica di varie abilità e competenze (lettura, ascolto, grammatica. lessico) • Non richiede di integrare abilità: lettura con scrittura, o con parlato, ascolto con scrittura o con parlato • Risultati affidabili in quanto non coinvolgono giudizi soggettivi (ma….la costruzione della prova è soggetta a margini di errore laddove non pretestata: è un tipo di test che deve essere sperimentato su studenti simili per caratteristiche a quelli a cui sarà destinato in versione finale, in base ai risultati della sperimentazione si deve decidere se inserirlo nella versione originale, modificarlo o addirittura eliminarlo) Svantaggi Scelta Multipla • Estrema difficoltà di costruzione • richiede risorse e tempi lunghi (sperimentazione) • richiede competenze ed esperienze specifiche (un buon insegnante le ha? E’ necessario che le abbia? Fanno parte di un altro ‘mestiere’?) Costruzione • Scelta multipla a tre opzioni: una corretta, una sbagliata, una distraente; a quattro opzioni: una corretta, una sbagliata e due distraenti • La risposta corretta deve essere una sola • Le opzioni date come distraenti (1 o 2) devono essere sbagliate ma plausibili • Le opzioni devono essere omogenee, per costruzione e lunghezza • Le opzioni non si devono escludere a vicenda • La risposta corretta o le risposte non corrette non devono essere identificabili in base alla sola ‘conoscenza del mondo’ (in particolare nella comprensione della lettura e dell’ascolto) Controllo • Ovviamente tutto dipende dalla capacità ed esperienza di chi costruisce l’item oltre che dalla sperimentazione. Prima di ‘licenziare’ una scelta multipla è comunque necessario ricontrollare che: • Vi sia la risposta corretta • I quesiti siano ben formulati • Non vi siano errori di ortografia, grammatica, punteggiatura • La lingua usata sia concisa e di difficoltà adeguata al livello dei candidati Perplessità • Test che pone comunque una serie di perplessità: – Una risposta non corretta può essere dovuta esclusivamente alla non comprensione della domanda? – La risposta corretta può essere data solo in base all’esclusione delle altre opzioni? – Quanto ha inciso la fortuna o il caso nell’individuare la risposta corretta? Test oggettivi: Completamento (gap-filling) • Consiste nel completare dei testi di media lunghezza (o delle frasi) da cui sono state tolte delle parole • La parola da inserire dovrebbe risultare una sola o quanto meno le possibili opzioni dovrebbero essere limitate (3/4) • La risposta può essere prodotta o selezionata da una lista • Viene spesso usato per la verifica della grammatica, del lessico (dell’ascolto e anche della lettura) • Si basa frequentemente su testi scritti sia autentici sia scritti appositamente • La correzione può essere oggettiva una volta che siano state individuate tutte le possibili risposte • Richiede pertanto una sperimentazione (anche fra colleghi dello stesso scorso) prima di essere somministrato • Una variante può essere quando il testo deve essere completato con delle frasi (che di solito vengono presentate in una lista a parte, in disordine e con dei distraenti) Vantaggi Completamento (gap-filling) • Non essendo la scansione delle parole da eliminare determinata automaticamente (cloze), è possibile scegliere le parole o frasi da eliminare adattando il test al livello di competenza degli studenti • Si possono cambiare gli item da completare senza dover cambiare il testo (fattibilità/economicità) Svantaggi Completamento (gap-filling) (relativamente alla verifica della lettura) • Nonostante venga spesso utilizzato per valutare la comprensione della lettura è stato dimostrato che per eseguire un completamento lo studente non si concentra sulla comprensione ma piuttosto sull’abbinamento della parola da inserire con quella/quelle che immediatamente seguono e precedono • Di conseguenza non può essere l’unico metodo adottato per verificare la comprensione della lettura • E’ un tipo di test molto utilizzato per verificare competenze di tipo grammaticale e/o lessicale Test oggettivi: Cloze Consiste nel completare con le parole mancanti dei testi a buchi. A differenza del completamento la scansione delle parole da eliminare viene determinata automaticamente (da un minimo di 4 ad un massimo di 8) Svantaggie Cloze • Non vi è di conseguenza alcuna possibilità di scegliere le parola da eliminare (come nel completamento) decidendo volta per volta la scansione • Diventa molto difficile controllare la difficoltà del test • In definitiva non è un test esclusivamente linguistico, ma piuttosto è un test utile per verificare le strategie di ricostruzione di testi da parte di parlanti nativi Test oggettivi: Abbinamento (Matching) • Test che richiede di abbinare parole, espressioni, domande e risposte da due liste • E’ importante che ciascun item della prima lista si possa abbinare solo con un item della seconda lista • Per evitare che l’ultimo abbinamento avvenga per esclusione di solito si inseriscono dei distraenti • Può essere utilizzato molto limitatamente per verificare la comprensione di lettura piuttosto per verificare conoscenze linguistiche anche di tipo pragmatico (uso linguistico) sociopragmatico (appropriatezza) Test soggettivi: composizioni, saggi relazioni, lettere, e-mail, brevi articoli, riassunti, conversazioni, interviste (produzione ed interazione scritta e orale) • • • • • Vantaggi: prove dirette (approccio comunicativo-performance) prove ‘facili’ da costruire potenzialmente motivanti (in base anche al tipo di task) culturalmente connotate • Svantaggi: • possibile non affidabilità dei risultati • necessità di predisporre criteri e scale di misurazione per garantire affidabilità ai risultati • Necessità di stabilire quali tipi di scale (olistiche/analitiche) e quali criteri • Necessità di formare e monitorare gli esaminatori Problemi legati all’attribuzione dei punteggi: le scale • Scale olistiche sono più facili da usare ma danno meno informazioni • Scale analitiche sono più complesse da usare ma danno più informazioni (se i criteri vengono effettivamente usati tutti…) • Uno studio condotto da Sakyi (2000) rivela l’utilizzo di scale di tipo olistico comporta il rischio che gli esaminatori si sentano liberi di utilizzare propri sistemi di attribuzione del punteggio ed individua 4 tipi di comportamento: focus sugli errori, focus sul contenuto, focus sulla presentazione delle idee, focus sulla reazione personale al testo • Altri studi si sono occupati dei processi mentali a cui gli esaminatori ricorrono per arrivare ad attribuire il punteggio utilizzando scale analitiche e di quali sono i criteri che influenzano maggiormente l’attribuzione del punteggio Problemi legati all’attribuzione dei punteggi • Legati al comportamento degli esaminatori, sia singolarmente sia in rapporto agli altri • Legati alla scelta dei criteri e alla loro applicazione (spesso gli esaminatori utilizzano solo alcuni dei criteri proposti) • La formazione è assolutamente fondamentale, così come alcuni studi (Weigle 1994) hanno dimostrato che la possibilità di confrontarsi con “modelli” di valutazione può risultare di grande aiuto. • Sempre secondo Weigle, esaminatori esperti tendono ad essere meno severi di esaminatori con minore esperienza • Lo stesso parrebbe valere nel caso di esaminatori madre lingua rispetto a esaminatori non di madre lingua. Questa ultima differenza tende però a diminuire quando gli esaminatori vengono formati (Brown 1995) • Concludendo il fattore più importante, oltre alla formazione, sembra essere l’interazione fra l’esaminatore e i criteri selezionati Problemi legati all’attribuzione dei punteggi • Un importante studio di Lumley (2000) arriva alla conculsione che “rating scales represent … a set of negotiated principles which the raters use as a basis for reliable action rather than a valid description of language performance” Problemi legati all’attribuzione dei punteggi • I punteggi assegnati ad un test di produzione sia scritta che orale sono il risultato di un processo complesso che necessariamente riguarda: il task, l’interazione fra il task e lo studente (sia linguistica che di conoscenze pregresse), l’esaminatore e le procedure per l’attribuzione del punteggio. Relazioni, lettere, email • E’ necessario che le istruzioni/input siano chiari (è da discutere quanto debbano essere dettagliati e lunghi) • Deve essere specificato quanto lungo deve essere il testo • Deve essere specificato il destinatario (registro) • Deve essere specificata la situazione • Devono essere specificati i criteri di valutazione (anche per i discenti) Composizioni, brevi saggi • Vantaggi: • Facilità nel trovare e formulare argomenti e titoli da sottoporre agli studenti • Possibilità di verificare abilità quali quella di sviluppare un argomento in modo logico e coerente • Metodo familiare e rassicurante per molti studenti Composizioni, brevi saggi • Svantaggi: • Eseguire un compito di produzione scritta dipende anche da competenze diverse dalla abilità oggetto di verifica • Più il titolo e l’argomento sono generici maggiore è la possibilità di avere produzioni molto diverse le une dalle altre e questo rende più difficile valutarle in maniera equa e per quanto possibile uniforme • I limiti di tempo che necessariamente vanno imposti possono svantaggiare studenti più lenti nello scrivere • Indicare il numero minimo e massimo di parole è artificiale ma necessario Test soggettivi: Domande aperte, risposte brevi • Tipo di test generalmente usato per la verifica della Comprensione della Lettura (Ascolto). Si distingue dalla risposte brevi per il numero di parole da utilizzare nella risposta (che quindi devono essere specificate) • Test motivante in quanto corrisponde a compiti di vita reale • Abilità integrate: Lettura/Ascolto e Scrittura • Importante focalizzarli sull’abilità oggetto di verifica Test soggettivi: Interviste orali • E’ preferibile che l’intervista venga strutturata e non sia completamente libera. In tal caso infatti lo studente di cui vogliamo verificare l’abilità di produzione orale potrebbe produrre pochissima lingua per cui le informazioni che riusciremmo ad avere sull’abilità orale sarebbero minime • Vanno dunque preparati degli input su cui basare un intervista orale • Devono essere specificati sia tempi sia criteri di valutazione DIF (Differential Item Functioning) Dictionary of Language Testing (SILT 7) DIF is when an item functions differently (is easier or more difficult) for one group of candidates of the same ability than another group of the same ability (groups defined by things like gender, age and country of origin) For DIF detection, you need item response data and data on candidate’s background characteristics (in order to group them by gender, etc) and it needs to be linked (we know which candidate’s responses belong to which data on background characteristics) There are various statistical methods to detect DIF (see the special number of LAQ 4/2 2007http://www.tandfonline.com/toc/hlaq20/4/2) including using Rasch analysis which is what we do Two things about DIF i) how strong it is, ii) the probablity it is due to chance (low - item 13) It must be interpreted qualitatively DIF measure ITEM 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 5 4 3 DIF Measure (diff.) 2 1 F 0 M * -1 -2 -3 -4 -5 DIF contrast ITEM 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 0.6 0.4 0.2 DIF Size (diff.) 0 -0.2 F M -0.4 -0.6 -0.8 -1 -1.2 Test oggettivi: Scelta multipla binaria, Vero/falso Si/No • I test di vero/falso richiedono semplicemente di scegliere fra sì/no o fra vero/falso. • La risposta va selezionata e non prodotta Vantaggi: Vero/falso Si/No • relativa facilità di costruzione • metodo altamente oggettivo e quindi affidabile • Può essere usato per la verifica di varie abilità e competenze (lettura, ascolto, grammatica. lessico) Svantaggi: Vero/falso Si/No • 50% di probabilità che lo studente risponda tirando ad indovinare (a meno che non si penalizzi) • Per trovare un correttivo si è provato a chiedere di dare spiegazione della risposta, compito non facile che coinvolge la scrittura e difficile da valutare ( problemi di affidabilità) Test Oggettivi: Correzioni di errori (Editing) • E ‘un test che consente di verificare conoscenze di tipo grammaticale e lessicale • Consiste nell’individuare errori sia in un testo scritto (segnalandoli semplicemente o correggendoli anche) sia in una scelta multipla • Gli errori possono essere anche errori di ortografia, simulando gli errori che si fanno spesso scrivendo in fretta o perché distratti Test oggettivi: Trasferimento di informazioni (Information Transfer) • Test usato generalmente per la verifica della Lettura e dell’Ascolto • Richiede di trasferire informazioni (numeri, date, brevi frasi da un testo (letto o ascoltato) in una tabella, formulario, diagramma, ecc Vantaggi • Test adatto per verificare la comprensione di una sequenza narrativa o descrittiva, di una classificazione, di un processo costituito da una serie di fasi • Il compito che lo studente è chiamato a compiere è simile (anche per come si presenta) ad attività proprie di situazioni di vita reale. In particolare in contesti di studio e lavoro • Il compito appare dunque come autentico e, in quanto tale, può essere recepito come motivante. Svantaggi • Può essere, d’altra parte, un tipo di compito molto complicato • Capire cosa deve fare può richiedere allo studente molto tempo, per contro le informazioni ‘linguistiche’ che si possono ottenere possono a loro volta essere minime • In aggiunta, può essere un compito ‘facilitante’ per una certa tipologia di studenti e creare notevoli difficoltà di tipo culturale e cognitivo per altri Costruzione del test: test diretti 2 • I test diretti sono relativamente facili da costruire se si parte dalla definizione dell’utenza e dei relativi bisogni linguistici in situazioni di vita ‘reale’ • è di conseguenza relativamente facile definire il costrutto oggetto di indagine e cercare di elicitare una performance rappresentativa • l’impatto educativo può essere positivo (favorisce lo sviluppo di abilità produttive, soprattutto il parlato, spesso trascurato in contesti di insegnamento di una lingua straniera) • possono insorgere problemi di affidabilità e di limitatezza del campione elicitato Costruzione del test: test indiretti 3 I test indiretti, per contro, elicitano conoscenze e competenze specifiche piuttosto che abilità o saper fare, ma come tali, più generalizzabili vale a dire: conoscenze grammaticali e lessicali così come conoscenze di fonetica e fonologia (nel caso del parlato) sono comunque sempre necessarie per parlare e scrivere in qualsiasi situazione comunicativa Il problema è il rapporto fra le competenze elicitate e l’abiltà oggetto di indagine vale a dire: non abbiamo sufficiente evidenza che il fatto di aver ottenuto buoni risultati ad esempio in test di grammatica possa predire un equivalente buon risultato nello scrivere una cronaca, un racconto o una lettera Validity - Validation Validity: «Appropriateness, meaningfulness and usefulness of the specific inferences made from test scores» Standards for educational and psychological testing (APA 1985) (Purpura 2011) Validation: «the process of accumulating evidence to support such inferences» Standards for educational and psychological testing (APA 1985) (Purpura 2011) «Validation is an on-going process» (Bachman & Palmer 1996) Obiettivi e Contenuti • Esaminare/discutere i principi teorici che stanno dietro la costruzione di test linguistici e ne garantiscono la rispondenza allo scopo e la qualità (responsabilità) • Diventare consapevoli/più consapevoli dei molti aspetti da tenere presente quando si parla di valutazione linguistica e quando si lavora in questo ambito • Lavorare su esempi di test/prove linguistiche Valutazione positiva/negativa Pensate a casi in cui siete stati valutati. Siete stati valutati in senso positivo o negativo: per quello che sapevate/sapevate fare? per quello che non sapevate/sapevate fare? Valutazione sommativa Valutazione formativa • Valutazione sommativa: valutazione dell’apprendimento • Valutazione formativa: valutazione per l’apprendimento Valutazione criteriale (Criterion-referenced) o Valutazione normativa (Norm-referenced) Valutazione e interpretazione dei risultati sulla base di un criterio esterno (programmi ministeriali o QCER) Valutazione e interpretezione dei risultati sulla base della performance del gruppo Norma e Criterio • “Norma”: riferimento interno – Il richiamo alla “norma” è un raffronto con la performance di un gruppo/ classe (è un raffronto possibile, in qualche misura, per lo studente) • “Criterio”: riferimento esterno – Il richiamo al “criterio” è un raffronto con parametri esterni — ad esempio, quelli offerti dai livelli del Quadro Comune Europeo di Riferimento (è un raffronto difficile per lo studente) Item Ogni singola parte di un test/prova a cui venga assegnato un punteggio Competenze che un insegnante dovrebbe avere per essere “preparato” in valutazione Secondo i Seven Standards for Teacher Development in Assessment prodotti dall’American Federation of Teachers, dal National Council on Measurement in Education e dalla National Education Association (1990), le competenze sono: • selezionare metodi di verifica appropriati per prendere decisioni in nel settore dell’istruzione • Sviluppare prove relative a tali metodi • Somministrare, valutare ed interpretare i risultati di prove sia esterne sia interne • Sviluppare valide procedure per definire punteggi, giudizi, gradi, voti • Comunicare i risultati a studenti, parenti, altri atakeholders • Riconoscere quando l’uso dei risultati possa essere inappropriato o non etico o illegale • Usare i risultati per prendere decisioni relative a singoli studenti, pianificazione di corsi, sviluppo di curricoli Il modello interpretativo di Toulmin Datum: performance dello studente Claim : l’interpretazione (punteggio, giudizio) Warrant: giustificazioni al passaggio dal datum al claim Backing: evidenze a supporto delle giustificazioni Exception : possibili obiezioni al claim Gli usi dell’argomentazione • Il modello interpreativo di Tulmin può essere applicato a qualsiasi settore e a qualsiasi situazione , in quanto basato su un ragionamento logico • L’argomentazione nasce per giustificare un’asserzione che può essere come qualsiasi asserzione messa in dubbio Caratteristiche di una valutazione linguistica consapevole fondata su basi teoriche: • Deriva da e risponde a scopi ben chiari (generici o per scopi specifici nel caso dell’apprendimento linguistico) (il cosa) • Deriva da e riflette chiari ed appropriati obiettivi d’insegnamento/apprendimento (il perché) • Si basa su metodi di verifica appropriati (il come) • Fornisce un campione appropriato dell’apprendimento degli studenti (il come generare/elicitare tale campione) • Tiene sotto controllo possibili fonti di bias (comportamenti scorretti) (per prevenirli) • Fornisce risultati attendibili La valutazione anche linguistica da diverse prospettive: studenti, insegnanti • Molti studenti non percepiscono la valutazione come un’esperienza educativa, ma piuttosto come qualcosa da superare che crea spesso ansia • Molti inseganti hanno una percezione simile. Soprattutto quando la valutazione è “esterna” vale a dire non sono gli stessi insegnanti a preparare e valutare le prove, molti insegnanti avvertono un gap fra insegnamento e valutazione • Ci sono molti pregiudizi sulla valutazione che è spesso vista come una sorta di arcano o di torre d’avorio, qualcosa di tecnico e/o complesso che forse è meglio demandare da altri… Test oggettivi: definizione ed esempi • • • • • • • • Si definiscono oggettivi i test in cui non si richiede di esprimere un giudizio in quanto la risposta corretta ai singoli item è predeterminata (chiavi) ed ha un predeterminato punteggio (scansione ottica -correzione automatica) (affidabilità..se…) Scelta binaria: vero o falso (scelta multipla a due opzioni) Scelta multipla (tre/ quattro opzioni) (su testi, su frasi) Completamento: inserimento della parola, della frase/espressione mancante, completamento della frase priva della parte finale. Spesso si completa scegliendo da una lista di possibili opzioni Abbinamento (parole o frasi da abbinare da due liste Riordino: di elementi (lettere parole frasi) in sequenza casuale Trasformazione: con le tecniche proprie degli esercizi strutturali Editing: correzioni di errori, eliminazione di vocaboli intrusi Test soggettivi: definizione ed esempi • Si definiscono soggettivi i test in cui si richiede di esprimere un giudizio in quanto la risposta non è predeterminata • è necessario predisporre criteri di valutazione • è necessario disporre di personale competente e preparato • Produzioni scritte libere o guidate • Produzione orali libere o guidate • Domande aperte