I fondamenti statistici per la costruzione di scale psicometriche
Pietro Giorgio Lovaglio1
1
Dipartimento di statistica, Facoltà di Scienze Statistiche, Milano-Bicocca,
P.za dell’Ateneo Nuovo 1, Edificio U7, [email protected]
Premessa
Le metodologie o tecniche statistiche vengono definite come quella serie di strumenti volti allo
all’analisi e allo studio dei fenomeni empirici che si manifestano in natura. Oggetto dell’indagine
è tipicamente lo studio della variabilità di uno (statistica univariata) o più fenomeni (statistica
multivariata) intesa come attitudine intrinseca di un particolare fenomeno ad assumere differenti
intensità (manifestazioni del fenomeno) su una serie di soggetti interessati dall’analisi.
La ricerca in ambito psicometrico non può prescindere da un’attenta conoscenza ed applicazione
degli strumenti statistici come supporto scientifico volto alla comprensione della realtà e alla
presa di decisioni da parte degli operatori coinvolti quotidianamente con processi e fenomeni di
carattere psico-fisici.
1.Gli strumenti statistici di base per un’analisi psicometrica
Indici di posizione. Organizzati in una distribuzione i dati relativi ad una serie di osservazioni o
intensità (xi i=1,..n) occorre sintetizzare attraverso un valore sintetico o indice di posizione la
distribuzione osservata in modo tale che metta in luce un aspetto particolare del fenomeno
considerato a seconda degli scopi del ricercatore (per semplicità analizzeremo l’esempio i
punteggi di un test attitudinale).
Gli indici più utilizzati sono la moda o intensità che ha associata la più alta frequenza (tanto più
espressiva quanto più elevate le frequenza ad essa associate) e la mediana definita come quella
modalità o intensità che occupa la posizione centrale, una volta ordinate le intensità xi dalla più
piccola alla più grande (ovviamente non esiste per quei fenomeni senza criteri oggettivi di
ordinabilità es. sesso, colore capelli, etc).
La mediana può definirsi come quel valore che divide in due gruppi ugualmente numerosi una
distribuzione X: per identificare la mediana si deve conoscere l’intensità o la modalità del
fenomeno associata alla persona che occupa il posto centrale della distribuzione una volta
ordinati i valori della distribuzione.
Se su 100 allievi che si cimentano in una prova che prevede tre possibili risultati (0=non supera
la prova, 1=supera la prova con difficoltà ,2=supera la prova) si osserva che 30 allievi hanno
punteggio 0, 10 allievi punteggio 1 e 60 allievi punteggio 2, in tal caso la moda vale 2 (punteggio
più frequente) e la mediana altrettanto (il punteggio associato ai due soggetti centrali, il 50° e il
51° soggetto, una volta ordinati i valori dal più basso al più alto).
Discorso analogo vale per i quantici; in particolare i quartili dividono la distribuzione del
fenomeno in 4 parti uguali: il 1° quartile è quel valore del fenomeno (punteggio ad un test) tale
che, una volta ordinati i punteggi in ordine crescente, separa il 25% dei soggetti peggiori
(punteggi sotto il primo quartile) dal 75% dei migliori (punteggi sopra il primo quartile), mentre
il 3° quartile è quel valore del fenomeno (punteggio ad un test) tale, che una volta ordinati i
punteggi in ordine crescente, separa il 75% dei peggiori (punteggi sotto il terzo quartile) e il
25% dei migliori (punteggi sopra il terzo quartile).
L’indice di posizione più noto è la media aritmetica, definita dal rapporto tra la somma delle
intensità del fenomeno e il numero di osservazioni.
La media non sempre è l’indicatore più indicato, spesso lo è la mediana, soprattutto laddove vi
siano situazioni di valori anomali (punteggi di soggetti particolarmente sopra o sotto la media);
cioè per rimanere nell’ambito dell’esempio del test attitudinale, se un basso numero di allievi
1
ottenesse performance molto superiori all’andamento generale (o molto inferiori all’andamento
generale), la tendenza media del collettivo di studenti ne risulterebbe elevato (abbassato)
artificiosamente per merito (colpa) di tale minoranza. In tali situazioni la mediana è più stabile
della media.
Al fine di evidenziare un andamento medio nel senso un intervallo di “valori regolari” va
certamente citato il ruolo della differenza interquartile (Differenza tra il 3 Quartile e il 1
Quartile) che fornisce un range del punteggio totale degli allievi che si trovano nella parte
centrale della distribuzione (e per definizione più stabile ed affidabile).
Indici di Variabilità. Le medie -intese in senso lato- possono intendersi come una sintesi del
fenomeno in un numero che esprime un particolare aspetto; lo studio non può tuttavia limitarsi a
questo poiché non si riuscirebbe a valutare il grado di variabilità del fenomeno, ovvero come si
distribuiscono le intensità del fenomeno attorno alla media .
In particolare gli indici di variabilità più diffusi va citata la varianza (σ2) che valuta lo
scostamento dei valori osservati xi dalla media e la deviazione standard definita come la radice
quadrata della varianza (σ).
Valori bassi di questi indici esprimono il fatto che le intensità di X si discostano poco dalla
media (cioè essa rappresenta bene l’ordine di grandezza di X), mentre un valore alto il contrario.
Legame tra due fenomeni: Correlazione. Supposto che due fenomeni x ed y siano quantitativi ci
si può chiedere se il tipo di legame esistente tra essi può essere lineare, cioè se al variare di x y
cresce in modo proporzionale (supponiamo di osservare sulle stesse unità statistiche i punteggi di
due prove attitudinali ad esempio saltare e correre oppure la relazione tra peso e altezza).
Sapere che il trend di evoluzione di un fenomeno varia linearmente rispetto alle variazioni di un
altro fenomeno significa poter affermare ad esempio che al variare dell’altezza il peso cresce
proporzionalmente per ogni aumento di 1 cm di altezza il peso presenta un incremento costante.
La misura di linearità più diffusa tra due fenomeni quantitativi è il coefficiente di correlazione di
Bravais- Pearson, (ρ) definito come il rapporto tra la media dei prodotti (xi-µx)(yj-µy) [dove (xiµx) sono gli scarti di ogni osservazione di xi dalla sua media ed (yj-µy) gli scarti di ogni
osservazione di Y dalla sua media] e il prodotto delle deviazioni standard di X e di Y.
L’indice ρXY assume valori tra -1 e 1;
a) ρ = 0 se le due variabili sono incorrelate (ovvero il diagramma a dispersione mostra un
andamento casuale dei punti di coordinate (xi, yj), tipico di situazioni in cui i punti si dispongono
senza un trend lineare (si nota in Fig.1, a sinistra che al variare dell’età (x) il punteggio al test (y)
si dispone in modo causale attorno alla media di y senza una chiara relazione tra y ed x):
100
90
80
70
60
50
40
30
20
10
0
14
Punteggio al test
Punteggio al test
12
10
8
6
4
2
0
0
10
20
30
40
50
60
70
80
0
10
20
30
Età
40
Età
Fig.1: Grafici a dispersione che evidenziano la correlazione tra età e punteggio al test
2
50
60
70
80
b) ρ= 1 se e solo se vi sia perfetta dipendenza lineare fra x ed y diretta, quando cioè il legame tra
x ed y è perfettamente lineare su una retta crescente (al crescere di x y aumenta in modo
perfettamente proporzionale, come in Fig.1 a destra)
c) ρ = -1 in caso di perfetta dipendenza lineare inversa fra x ed y, quando cioè il legame tra x ed
y è perfettamente lineare su una retta decrescente (al crescere di x, y diminuisce in modo
perfettamente proporzionale)
2. L’utilizzo di test per la costruzione di scale
L’obiettivo dei test attitudinali consiste nell’esigenza di misure oggettive di performance (abilità,
attitudine, etc.) definite come indicatori sintetici che sottendono tutti una medesima dimensione
inerente qualche aspetto dell’“attitudine” globale di ogni utente verso una particolare aspetto
della vita. In particolare si fa riferimento al concetto di abilità motoria e cognitiva, (Tesio et al.,
1996), di qualità della vita, (Apolone et al., 1997), di ritardo mentale (Ware, 1987) etc.
Le considerazioni principali per la scelta della metodologia da affrontare per la stima di tali
indicatori di performance fanno emergere principalmente due ordini di problemi:
•
•
Gli indicatori utili per stimare le performance sono desunti da test-questionari e tipicamente
di natura categoriale (passa/non passa) o ordinale (passa /passa con difficoltà / non passa);
Si presentano tipicamente situazioni di dati mancanti .
In letteratura il problema della stima di variabili non direttamente osservabili (latenti, come ad
esempio abilità, attitudine, capacità motoria, intelligenza etc.) è stato affrontato dal punto di vista
applicativo per valutare abilità, capacità o più in generale attitudini verso diversi aspetti della
realtà, sintetizzabili con il termine "latent traits" (LT) spesso non direttamente osservabili, ma
desumibili da un insieme di items (prove attitudinali, questionari, prove fisiche, mentali, tests,
etc...) che misurano a meno di errori tale latent trait.
Le metodologie utilizzate per la stima di variabili non osservabili o latenti (LV) hanno attinto dai
modelli di analisi fattoriale (MF, Bartolomew, 1987) definito attraverso un modello che suppone
l’esistenza di pochi LT “inosservabili” (x1,..xm) sottostanti all’insieme degli Items (y1..yp);
l’analisi fattoriale consiste nel descrivere un fenomeno complesso descritto da una serie di k
items (y1..yk) in forma più semplice derivando un numero limitato (m<k) di latent trait (x1
x2,..xm) non osservabili, ma ricavati sostanzialmente come una media dell’insieme delle variabili
osservate (y1..yk), ponderando in maniera differente l’importanza di ogni item originale1
(attraverso delle componenti di peso), in modo da conservare la maggior informazione possibile.
L’analisi fattoriale permette di risponde alle seguenti domande:
1. Quanti latent trait inosservabili servono per spiegare tutti gli item2;
2. Quanta parte della variabilità del complesso degli item cattura ogni LT (autovalore);
3. Quanta parte della variabilità di ogni item è catturata dall’insieme dei LT (comunalità);
4. Qual è il peso di ogni variabile sulla costruzione di ogni LT (factor weights);
Esempio
Su un campione di anziani si sono rilevati i risultati relativi allo stato di autosufficienza
attraverso l’osservazione di 4 attività della vita quotidiana (Items) rilevati su una scala da 0 a 15
(0=dipendenza, 15= autonomia): X1 =trasferimenti letto-sedia, X2 = deambulazione, X3 = igiene
personale, X4 = alimentazione.
L’estrazione di pochi LT cercherà di riassumere in qualche modo i 4 Items ma nello stesso tempo
perdere il minor numero di informazioni (variabilità dei 4 Items): dall’analisi fattoriale si sono
1
Rispetto alla semplice somma degli items, come nell’approccio delle scale cumulative, mostrato in seguito.
Spearman (1904) ad esempio presentò un modello a due fattori, secondo il quale le abilità mentali descritte da un
test contenente prove (Item) di intelligenza, potevano essere ridotte ad un fattore di abilità logico-matematica e ad
uno espressivo-linguistico.
2
3
ricavati gli autovalori: ogni LT, dal primo al quarto spiega l’84%, il 15% l’1% e lo 0% della
variabilità dei 4 Items e dunque la scelta dei primi due LT assicura il 99% della varibilità
globale, perdendo solo l’1% di informazione possiblie passando dai 4 Items ai due LT.
I primi due fattori vengono definiti dai coefficienti (factor weights)
LT1 = 0.96 X1 + 0.92 X2 + 0.74 X3 + 0.75 X4
LT2 = -0.06 X1 - 0.15 X2 + 0.40 X3 + 0.41 X4
Il primo LT, poiché viene definito semplicemente come somma degli Items (si noti che i pesi
degli Items sono diversi), può considerarsi un indicatore di autonomia globale, mentre
osservando i segni dei coefficienti il secondo mostra il contrasto tra X1, X2 verso X3 X4: ciò
significa che tale fattore può interpretarsi come un indicatore di autonomia legato all’equilibrio e
all’uso delle mani (poiché i contrasti esistono tra le attività di locomozione tout court verso le
attività di igiene personale e alimentazione).
I punteggi ricavati dalle due relazioni precedenti costituiscono due utili indicatori di performance
motoria e motoria-manuale per ogni anziano, ricavata dalle 4 variabili iniziali (riduzione).
Le comunalità per le 4 variabili (0.93, 0.88,0.71,0.74) mostrano che i due fattori prescelti
spiegano una quota elavata della variabilità di ognuna delle X
3. L’uso di scale cumulative
I test sono misurazioni obbiettive e standardizzate di un campione di comportamento supposto
rappresentativo della totalità del comportamento stesso.
Un test può essere presentato come una batteria di k prove (y1, y2,…. yk), un elenco di item
(elementi, prove, domande, esercizi), raccolti in un questionario, intervista, scheda.
In letteratura le prime forme di stima di LT ha coinciso con la semplice somma degli item in una
batteria di test: T = Σi xi (scala cumulativa); tale scelta sebbene semplicistica conserva tuttora un
notevole seguito destato dalla semplicità e dalla semplice applicabilità in ogni disciplina; tuttavia
è importante valutare la bontà dello strumento proposto, cioè poter rispondere alla domanda se la
misura cumulativa così costruita presenta le caratteristiche adeguate allo scopo.
3.1 Caratteristiche per la costruzione di una scala
Per essere valido come strumento di misura, il test, la batteria, il questionario o, comunque in
senso lato, le prove specificate nel test devono presentare alcune caratteristiche:
1. Concetto unidimensionale
Il ricercatore deve scegliere opportuni insiemi di items tali che il LT che si vuole stimare
sottenda un'unica dimensione latente (unidimensionale); qualora invece sottenda più di una
dimensione latente finisce per fornire risultati contraddittori in quanto non risulta chiaro se e in
che misura ogni item e gli items nel loro complesso si riferiscano ad un particolare LT oggetto di
studio (abilità motoria) o ad un altro LT affine, ma diverso (capacità di equilibrio).
Standardizzazione
La somministrazione del test deve avvenire con procedure uniformi, ossia con le stesse modalità
(materiali, limiti di tempo, frasi da utilizzare, assegnazione del punteggio) per tutti i soggetti
testati.
Validità (validity)
Il test deve realmente misurare ciò che si è prefissato di misurare, deve cioè essere valido.
In particolare la "validità di contenuto" riguardante le variabili da misurare, a chi è destinato il
test; il modello teorico cui esso si rifà, le caratteristiche degli item. Tali indicazioni vengono
4
manifestate nei pareri e nei giudizi degli esperti nei gruppi di discussione e nelle riunioni atte per
trovare accordi unanimi sul tipo di prove da somministrare (né troppo facili, né troppo difficili
etc), sul modo di codificare oggettivamente le performance di un allievo sulla prova (es.
specificare due sole categorie: l’allievo supera l’esercizio o non lo supera oppure predisporre più
gradi di abilità), stabilendone il punteggio e i gradi di abilità. La "validità di costrutto" invece è
intesa sia come capacità del test (insieme di Items) di cogliere relazioni tra coppie di Items sia
come capacita’ del test di discriminare tra diversi LT (es. l’abilità motoria dall’equilibrio); tale
verifica si risolve attraverso la valutazione dell’unidimensionalità del LT attraverso il modello di
analisi fattoriale precedentemente descritto.
Affidabilità (reliability)
È l’accuratezza e la coerenza del test, e si basa sulla necessità che questo fornisca misurazioni
precise, stabili e oggettive. L 'analisi di affidabilità può essere usata per costruire le scale certe di
misura, per migliorare le scale esistenti e per valutare l'affidabilità delle scale già in uso.
Tale analisi si rende necessaria poiché come già mostrato dal modello fattoriale alla base di un
fattore latente (es. "abilità motoria") sottostante ad un numero di item vi è una componente di
errore da valutare; in tale ipotesi si suppone che vi sia una parte del fattore latente che le prove
del test "non carpiscono".
Di conseguenza, la risposta del soggetto ad un item (yi) particolare riflette due componenti: in
primo luogo, il concetto “vero” (x, abilità motoria), in secondo luogo, una certa funzione
estranea o di errore (ei), cioè la componente che tale item non coglie.
Una misura è affidabile se riflette principalmente il punteggio vero, cioè se la variabilità degli
errori è nulla; in questo contesto la definizione di affidabilità è data dal rapporto tra la variabilità
del concetto vero (x) e la variabilità dell’insieme degli Items.
Poiché x non si conosce si può valutare la proporzione di vera varianza catturata dagli item,
attraverso il coefficiente di affidabilità (α di Cronbach)
α =
kρ
1 + ρ ( k − 1)
(1)
dove ρ è la media delle correlazioni esistenti tra ogni coppia dei p Items e k il numero di items.
Se la correlazione media è nulla significa che tutte le coppie di correlazioni sono nulle, dunque il
numeratore si annulla, lasciando un indice di completa inaffidabilità delle prove (α=0); altrimenti
quanto più α è vicino ad 1 tanto più le prove sono affidabili; se la correlazione media è uno
significa che tutti gli Item sono massimamente correlati lasciando nella (1) un valore unitario
coerente con il fatto che tutti gli item non presentano componenti di errore e misurano dunque
tutti il fattore vero (scala massimamente affidabile).
Empiricamente si ritengono accettabili scale con α>0,70.
Se gli item sono di natura binaria (es. supera / non supera l’esercizio) il coefficiente α
equivalente è il seguente (Lord e Novick, 1968) a:
Kr = (k/k-1) [1- (Σj pj qj / σ2) ]
(2)
dove pj è la percentuale di individui che passano l’esercizio nell’item j, qj la percentuale degli
individui che non passano l’item j, k il numero di item e σ2 denota la varianza della somma degli
itemi T.
Oltre al coefficiente di affidabilità globale generalmente si osserva anche l’α se eliminiamo una
variabile alla volta, potendosi così osservare se l’eventuale eliminazione di un item assicura una
maggiore consistenza nel complesso degli item.
5
Un’altra misura di affidabilità globale è il coefficiente di Correlazione punto biseriale (PB, Lord
e Novick, 1968), definita come la correlazione tra i punteggi ottenuti dai soggetti su un item e il
punteggio totale dei soggetti su tutti gli Item (esisterà dunque una PB per ogni Item); Item con
valori elevati di tale coefficiente riflette il fatto tale item misuri lo stesso LT degli altri Items; se i
PB sono tutti sufficientemente elevati essi effettivamente la stessa cosa, cioè sottendono tutti la
stessa dimensione latente.
Se un PB è basso (tipicamente <0,75) probabilmente tale Item va eliminato dal test; un altro
modo di selezionare Item consiste nel valutare il coefficiente α della (1) eliminando un Item alla
volta; in questo modo per ogni Item si ottiene un coefficiente α (definito α se eliminato) che
indica come varia il grado di affidabilità del test rispetto all’α globale della (1) quando si elimina
un particolare Item (vedi esempio di Tab.1).
Altri tipi di affidabilità del sistema riguardano le seguenti situazioni:
Affidabilità e riproducibilità nel tempo (test retest)
Se lo stesso individuo è sottoposto più volte al medesimo test, o ad una sua forma equivalente, si
deve ottenere lo stesso punteggio sia in situazioni diverse, a distanza di tempo; si chiede la
stabilità dei risultati a successive somministrazioni (test retest).
Se la scala è affidabile, ci aspettiamo che nelle due occasioni (t1, t2) i punteggi totali nelle due
occasioni abbiano un’alta correlazione positiva (ρxy = 1).
Scale via via meno affidabili forniscono correlazioni tra le due occasioni via via più basse.
Affidabilità e riproducibilità tra intervistatori (k di Cohen )
Nel caso in cui lo stesso soggetto venga valutato da più rilevatori (giudici) o da strumenti diversi
(diverse batterie di test che mirano alla stima dello stesso LT) va valutato l'accordo tra tali
valutatori o strumenti attraverso il coefficiente di accordo Cohen K (Lord e Novick, 1968) basato
sulla proporzione di casi osservati nella quale gli strumenti sono in accordo ovvero classificano
lo stesso soggetto nella stessa categoria (passa/non passa); un valore pari a 1 indica accordo
perfetto, pari a 0 indica che l'accordo può essere considerato casuale.
Affidabilità del sottocampione (split-half reliability)
Ci si può chiedere che cosa succeda alla reliability se il campione di soggetti che affrontano il
test viene diviso casualmente in due gruppi separati (sottocampioni). A tal fine si calcola il
punteggio totale del test dei soggetti nei due sottocampioni x (primo sottocampione) ed y
(secondo sottocampione) e si valuta la correlazione tra le risposte nei due gruppi ρxy ; più
precisamente si calcola il coefficiente split half dalla formula: 2ρxy / (1 + ρxy); se il test è
affidabile, ci aspettiamo che i punteggi totali nelle due sottocampioni abbiano una correlazione
positiva ed elevata, scale via via meno affidabili forniscono correlazioni via via più basse
4. Passi per la costruzione di scale
In generale i passi per la costruzione di una scala affidabile sono di seguito presentati:
Step 1: Generare items: processo creativo, brainstorming, esperti, in gruppi di discussione di
esperti (operatori) del settore per definire la validità di contenuto (quali e quanti Items, quali e
quante categorie di risposta per ciascun Item);
Step 2: scegliere items of difficoltà calibrata: dopo aver inserito gli item il questionario va
somministrato ad un campione di typical respondents per identificare gli Item che non
discriminano (effetto pavimento; tutti passano l’Item, nessuno passa l’Item); per scegliere item
calibrati valuto la difficoltà degli item e la capacità discriminatoria.
Difficoltà. L'item non deve essere né troppo facile né troppo difficile, tale aspetto è misurato con
pj il rapporto tra i soggetti che superano la prova j e il totale di soggetti che effettuano la prova j:
empiricamente si ritengono accettabili valori tra 0,25 e 0,75.
6
Capacità discriminatoria. L'item j deve il più possibile distinguere tra i soggetti "più bravi" e
quelli "meno bravi"; l’ indice maggiormente utilizzato è dato dalla differenza tra pj1 (percentuale
di risposte corrette considerando il 25% dei soggetti con punteggio totale più elevato) e pj2
(percentuale di risposte corrette considerando il 25% dei soggetti con punteggio totale meno
elevato; empiricamente si ritengono accettabili per tale indice valori superiori a 0,30.
Step 3: Scegliere gli item con alta affidabilità: Alfa di Cronbach globale, coefficiente Alfa,
eliminando un item alla volta, correlazione PB (eventualmente test-retest, K, split half)
Step 4: Tornare allo step 1 dopo aver eliminato gli item che non rendono affidabile la scala.
5. Un esempio
L’esempio mostrato nella Tabella 1 presenta l’analisi di affidabilità di 10 items con punteggio da
0 a 10 ciascuno; il punteggio medio dei 10 Items è 7.35 e dalla (1) l’affidabilità globale (α=0,79)
è elevata: le ultime tre colonne mostrano la correlazione tra ogni item e la somma degli Item
(Correlazione PB), la media e il coefficiente alpha se l’item in questione viene eliminato
(esempio se elimino l’Item 5 α diventa 0.82 rispetto a 0.79 che è l’affidabilità globale e la media
dei 10 Item diventa 8.01 rispetto a quella totale di 7.35) .Chiaramente tutte le colonne mostrano
che gli items 5 and 6 vanno eliminati poiché non sono consistenti con il resto della scala, perché
senza tali Item le misure di affidabilità (ultima colonna) migliorano rispetto all’affidabilità
globale (α= 0,79), inoltre la correlazione PB è bassissima rispetto agli atri Items e il punteggio
medio aumenta drasticamente eliminando ciascuno dei due Items.
ITEM
Item1
item2
item3
item4
item5
item6
item7
item8
item9
item10
PB
0.65
0.66
0.54
0.47
0.05
0.11
0.58
0.60
0.50
0.57
Media
se eliminato
7.20
7.33
7.40
7.52
8.01
7.91
7.35
7.30
7.42
7.33
α
se eliminato
0.75
0.75
0.76
0.77
0.82
0.81
0.76
0.75
0.77
0.76
Tab.1: Analisi di affidabilità: le colonne identificano il numero di Item, la correlazione Punto Biseriale e la media
dei punteggi dei 10 Item e il coefficiente α se eliminato (eliminando di volta in volta l’Item corrispondente)
Riferimenti Bibliografici
Apolone G., Mosconi P., Ware J.E. (1997), Questionario sullo stato di salute SF-36. Manuale
d’uso e guida all’interpretazione dei risultati, Guerini e Ass., Milano.
Bartholomew, D.J. (1987), Latent variable models and factor analysis, New York: Oxford
University Press.
Lord, F. M. e Novick, M. R. (1968). Statistical theories of mental test scores. Reading, MA:
Addison-Wesley.
7
Lovaglio P.G., (2001) La stima di outcome latenti, Atti del Convegno Intermedio della Società
Italiana di Statistica, Processi e Metodi Statistici di Valutazione, Cisu, 5-7 Maggio,.pp. 393396 Roma.
Warr, P. (1987) Work, unemployment and mental health (Oxford University Press, Oxford,).
Wright B. D., Mok M., (2000) Rasch models overwiew, Journal of applied measurement, 1(1),
pp.83-106
Abstract.
Il presente lavoro, riguardante la costruzione e la validazione di scale in ambito psicometrico,
fornisce gli strumenti statistici più utilizzati a tal fine, descrivendone l’impianto metodologico e
razionale per il loro utilizzo per chi non ha familiarità con le metodologie di ricerca quantitativa.
In particolare dopo aver introdotti gli strumenti statistici di base si definirà il concetto di scala
valida o affidabile attraverso gli indicatori più utilizzati per la verifica della validità di contenuto
e la validità di costrutto.
8