Qualche appunto di statistica
Marco Chiostri
Croce Rossa Italiana
Echo 22
E’ facile mentire con la Statistica.
E’ difficile dire la verità senza la
Statistica.
(Andrejs Dunkels)
Un pochino di storia…
Il termine statistica (da status) fu introdotto nel
XVIII secolo per designare quella branca della
scienza politica che si occupava della descrizione delle cose dello Stato. La parte di tale descrizione consistente nella costruzione e nell'analisi delle tavole numeriche (originariamente
sui dati economici e demografici) andò via via estendendosi anche ad altri campi di indagine e
la necessità di far fronte a problemi nuovi e più
complessi portò ad ampliare i procedimenti fino
ad ottenere l'insieme dei metodi di analisi che
costituiscono la statistica moderna.
CRI - Comitato Prov. FI
Un pochino di storia…
John Graunt
1620-1674
King Charles II
1630-1685
CRI - Comitato Prov. FI
Una piccola premessa…
Per conoscere la statistica nei suoi aspetti più complessi
è richiesta una discreta padronanza della matematica. Ma
prima ancora di gettarsi a capofitto su elaborazioni numeriche è importante stabilire a priori l'insieme (in termini di
tipo e numerosità) dei valori scelti per rappresentare un
certo fenomeno, cioè il campione. Ad esempio, per fotografare il consenso degli Italiani verso uno schieramento
politico, ci si deve interrogare sul numero di persone da
intervistare (100, 1000, 10000...) e su come scegliere i
soggetti (casuale da elenco telefonico, intervista per la
strada, ...) oltre che sulle domande da fare (a risposta libera, a scala di valori, ...) prima di eseguire l'analisi dei
dati raccolti, poiché la prima parte può influenzare anche
notevolmente, falsandolo, il risultato finale. Ciò per sottolineare che nella statistica non c’è solo tanta matematica.
CRI - Comitato Prov. FI
Risposte sincere a domande imbarazzanti
Indagine USA su soldati nel Vietnam (dati fittizi)
 Il soldato estrae una delle tre carte dopo che sono
state mescolate, la guarda di nascosto e dà la risposta (sì – no)
 900 soldati  360 sì
 Circa 300 volte per carta, quindi circa 60 soldati su
300 (20%) fanno uso di droghe.
CRI - Comitato Prov. FI
Statistica e mass media:
quando si comunica con i numeri
Bruno BRACALENTE
Dipartimento di Scienze Statistiche
Università degli Studi di Perugia
© CIRDIS 2004
La riproduzione e l'uso dei materiali sono permessi solo per scopi didattici e
non commerciali citando la fonte, gli autori ed i collaboratori.
Dopo queste premesse…
A partire da casi reali (tratti da […] quotidiani):
 come i mass media trasmettono
l’informazione statistica
CRI - Comitato Prov. FI
Alla ricerca del “numero eclatante”?

Qualche volta il ‘dato curioso’ prende il sopravvento,
soprattutto nei titoli.
Un esempio:
“Infarto, con il campionato i rischi crescono del 60%”
(Corriere della Sera del 21/09/2003)
studio svizzero sui morti per infarto durante i
campionati mondiali (di calcio, ndr) del 2002
presentato al congresso europeo di cardiologia

Il resto passa in secondo piano, compreso il dato più
rilevante: la diminuzione dei morti per infarto.
CRI - Comitato Prov. FI
Alla ricerca del “numero eclatante”?

Altro esempio: dati statistici “piegati” in una
direzione che si pensa faccia più colpo sul
lettore.
“Gli automobilisti corretti? Solo l’8%”.
(Corriere della Sera del 25/08/2003)

Dal titolo siamo portati a pensare che quasi
tutti gli automobilisti sono scorretti.
CRI - Comitato Prov. FI
Alla ricerca del “numero eclatante”?

Invece, i dati sono i seguenti:
(Inchiesta Altroconsumo)
guidatori corretti
guidatori non completamente corretti
guidatori scorretti
TOTALE


%
8
86
6
100
Un titolo altrettanto parziale, ma un po’ più vero di
quello scelto:
“Gli automobilisti scorretti? Solo il 6%”.
E avrebbe trasmesso un’informazione opposta…
CRI - Comitato Prov. FI
Con cosa abbiamo a che fare?

Conteggi:
Campionato di calcio ’91-’92: vittorie esterne 67 su 305 partite
Campionato di calcio ’01-’02: vittorie esterne 79 su 306 partite
La differenza è statisticamente rilevante?

Grandezze e loro medie:
La P.A. dei 50 pz. trattati con il farmaco A è significativamente
diversa da quella dei 60 pazienti trattati col farmaco B?

Relazioni tra grandezze:
Come varia il pH del sangue in rapporto alla PaCO2 plasmatica? È possibile individuare un andamento riassumibile in una formula
che mi permetta di calcolare il pH data la PaCO2?
CRI - Comitato Prov. FI
Con cosa abbiamo a che fare?

Variabili quantitative
Dati espressi in valori continui (altezza, pressione…)

Variabili qualitative o categoriali
Si tratta di conteggi (quanti maschi e quante femmine, ecc); nel caso particolare in cui sia possibile graduare i dati (rischio alto, medio e basso per es.) prendono più
propriamente il nome di ordinali.
CRI - Comitato Prov. FI
Confronti fra numerosità

Probabilmente è il caso più semplice

Tabella 2 x 2 (inglese: fourfold table)
Persone con
malattie
Persone senza
malattie
Totale
Zona ad alto
inquinamento
32
48
80
Zona a basso
inquinamento
13
57
70
Totale
45
105
150
CRI - Comitato Prov. FI
Cosa cerco di vedere?
Quale sia vera delle due ipotesi possibili, cioè:
vivere in una zona ad alto o a basso grado di inquinamento
non influisce sulla probabilità di contrarre un disturbo respiratorio
(ipotesi nulla, H0): in questo caso la frequenza relativa di persone con malattie polmonari nei 2 gruppi a confronto sarebbe
uguale e le differenze riscontrate sarebbero da interpretare come variazioni casuali

esiste invece un tasso diverso di incidenza nelle due zone
(ipotesi alternativa)

CRI - Comitato Prov. FI
Quale test statistico applico?
Il test chi quadrato
χ2 = [(32 * 57 – 48 * 13)2 * 150]
Persone con
malattie
Pers. senza
malattie
Totale
Zona ad alto
inquinamento
32 a
48 b
80 n1
Zona a basso
inquinamento
13 c
57 d
70 n2
45 n3
105 n4
150 N
Totale
(80 * 70 * 45 * 105)
χ2 = (1.824 – 624)2 * 150
26.460.000
χ2 = 1.440.000 * 150
26.460.000
χ2 = 8,163
probabilità p = 0,0074
CRI - Comitato Prov. FI
Cos’è la probabilità p ?
Questo numero esprime la probabilità che sia vera l’ipotesi
nulla, cioè che le differenze osservate siano dovute al caso. 0,0074 corrisponde a 0,74%: vuol dire allora che la differenza di frequenza riportata nella tabella ha solo lo 0,74%
di probabilità di essere dovuta al caso, e quindi, all’inverso,
c’è oltre il 99% di probabilità che vivere in una zona ad alto
tasso di inquinamento conduca ad una maggiore incidenza
di patologie respiratorie.
Comunemente, in statistica si ritiene significativo un test
con p < 0,05; molto significativo quando p < 0,01.
CRI - Comitato Prov. FI
E per i dati quantitativi ?
Per questo tipo di dati si pone il problema di sintesi
che possano essere elaborate matematicamente,
in modo da poterli obiettivamente analizzare cosicché tutti i ricercatori, con gli stessi dati, possano,
anzi debbano giungere alle medesime conclusioni.
CRI - Comitato Prov. FI
Come faccio a descrivere i dati quantitativi ?
Una serie di dati numerici è compiutamente
descritta da tre proprietà principali:
1.
Tendenza centrale o posizione
2.
Dispersione o variabilità
3.
Forma
CRI - Comitato Prov. FI
1) – Misure di tendenza centrale
Servono per individuare il valore intorno al quale i dati
sono raggruppati; la tendenza centrale è la misura più
appropriata per sintetizzare l’insieme delle osservazioni,
se una distribuzione di dati dovesse essere descritta
con un solo valore; è la prima indicazione della dimensione del fenomeno.
Sono essenzialmente tre:

Media

Moda

Mediana
CRI - Comitato Prov. FI
1) – Misure di tendenza centrale
MEDIA
Media aritmetica (somma del valore di tutte le osservazioni, diviso il numero di unità; è la media per antonomasia)
Media geometrica (si usa per superfici, volumi, tassi di accrescimento o sopravvivenza) 
Media armonica (quando si lavora sugli inversi) 
Media quadratica (è la radice quadrata della media
aritmetica dei quadrati e si usa quando si analizza- 
no misure di superficie)
CRI - Comitato Prov. FI
1) – Misure di tendenza centrale
MODA
È il valore più rappresentato all’interno del campione.
MEDIANA
È il valore che divide esattamente in due metà il campione: mettendo trentuno scolari in ordine di altezza, la mediana sarà quella del 16° bambino; su trenta, la mediana è
la media aritmetica dell’altezza del 15° e del 16°.
CRI - Comitato Prov. FI
1) – Misure di tendenza centrale
Per esempio, prendiamo una serie di sei dati:
10,1 10,8 13,1 13,9 14,2 14,5
in cui la media è 12,85 e la mediana 13,5.
La rappresentazione grafica evidenzia come la media sia
il baricentro della distribuzione e la mediana sia collocata
tra i valori più addensati.
CRI - Comitato Prov. FI
1) – Misure di tendenza centrale
Riassumendo
CRI - Comitato Prov. FI
2) – Indici di dispersione
La media è però un dato troppo riassuntivo perché non
dice nulla su come i dati sono distribuiti all’interno di un
campione. Ho bisogno allora di un qualcosa che mi suggerisca quanto un valore varia dagli altri, cioè, come si dice, di un indice di dispersione.
A questo scopo, possiamo considerare:

Valori estremi

Scarti dalla media

Varianza

Deviazione standard

Errore standard della media
CRI - Comitato Prov. FI
2) – Indici di dispersione

Valori estremi
Il valore più basso, quello più alto e l’intervallo fra essi. È chiaramente troppo
sensibile ai valori marginali del campione, tanto da essere spesso fuorviante.

Scarti dalla media
Sono la misura più appropriata della variabilità di un insieme di dati. Ma
poiché la loro somma è sempre nulla per definizione, in quanto la media è il
baricentro della distribuzione, è necessaria una trasformazione: di solito si
eleva al quadrato.

Varianza
È il quadrato della somma delle differenze di ciascuna osservazione dalla loro
media, diviso il numero delle osservazioni meno 1 (cioè diviso i gradi di
libertà); in sintesi
CRI - Comitato Prov. FI
2) – Indici di dispersione

Deviazione standard (D.S.; Standard Deviation, S.D.)
La più usata, non è altro che la radice quadrata della varianza.
La formula che la calcola dà la distanza media dei dati dalla loro
media. Se la sommo o la sottraggo alla media (media ± S.D.) ottengo
un intervallo nel quale vengono a trovarsi circa i 2/3 delle
osservazioni. Se invece sommo algebricamente alla media non una,
ma due deviazioni standard (media ± 2S.D.) allora in questa forbice si
troverà circa il 95% della popolazione. Per esempio la serie numerica
9 6 7 9 8 8 ha una media di 7,833 ed una S.D. di 1,169. E’ chiaro che
più alta sarà la S.D., più dispersi e quindi più differenti l’uno dall’altro
saranno i valori del campione.
CRI - Comitato Prov. FI
2) – Indici di dispersione
Errore
standard della media
E’ la S.D. diviso la radice quadrata del numero delle osservazioni
meno uno (gradi di libertà). Nell’intervallo media ± E.S. posso
aspettarmi di ritrovare, di nuovo, circa i 2/3 della popolazione da cui il
campione è estratto, e circa il 95% nell’intervallo media ± 2 E.S.
CRI - Comitato Prov. FI
2) – Indici di dispersione
Percentili
Si tratta del livello di misura al di sotto del quale cade una determinata
percentuale della distribuzione.
CRI - Comitato Prov. FI
2) – Indici di dispersione
Riassumendo i più comunemente usati
CRI - Comitato Prov. FI
3) – Forma
Quasi sempre in biologia i valori sono raggruppati intorno al
valore medio, mentre molto pochi valori si trovano agli estremi: si
trovano molte più persone di altezza intorno al metro e 75 che
non ai due metri o al metro e mezzo. Andamenti di questo genere
possono essere rappresentati con un diagramma a barre dove in
ascisse poniamo il valore ed in ordinate il numero delle osservazioni, come in questo grafico che è, fra l’altro, perfettamente simmetrico.
N= 58
Media = 6,0
S.D. = 2,11
CRI - Comitato Prov. FI
3) – Forma
CRI - Comitato Prov. FI
Per navigare un po’ sul web…
… e risolvere (!) un pallosissimo turno di servizio…
http://www.istat.it Sito dell’Istituto Nazionale di Statistica
http://www.dsa.unipr.it/soliani/soliani.html Testo approfondito in formato
.pdf (circa 2000 pagine!)
http://www2.unipr.it/~bottarel/epi/ Sito di epidemiologia veterinaria, con
una chiarissima introduzione, link piacevoli e dei piccoli test di
autovalutazione
http://www.accmed.net/stat/libro/indice.htm
manualetto, da un reparto di nefrologia
Piccolo
ma
completo
http://www.univ.trieste.it/~biologia/software/software.htm#statistica
Raccolta di programmi per eseguire test statistici on-line (ed anche
scaricabili)
CRI - Comitato Prov. FI
Ricordate le partite fuori casa?
Per concludere questo nostro primo incontro, torniamo all’esempio iniziale delle partite vinte fuori casa in due campionati di calcio:
67 su 305 nel 91-92 e 79 su 306 10 anni dopo. A parte la considerazione che quattordici anni fa i motivi commerciali non erano così
forti da esigere la ripetizione di una partita sospesa (si è giocato una partita di meno), la differenza fra 67 e 79 porta ad un χ2 di 0,77
con p = 0,38: l’innovazione di premiare con 3 punti la squadra vittoriosa non ha influito sulle vittorie in trasferta. D’altra parte non
sono significativamente diverse né le partite vinte in casa (129
rispetto a 140), né i pareggi (109 e 87) e neppure i gol segnati
(686 e 803). Però i pareggi sono diminuiti, le vittorie aumentate e i
gol fatti anche: a tutto vantaggio dello spettacolo e con buona pace
della significatività…
CRI - Comitato Prov. FI
Grazie per l’attenzione
Ma non finisce qui!
Marco Chiostri
Croce Rossa Italiana
Echo 22
Riassumiamo
Finora ci siamo occupati di
Numerosità
di un campione e metodi per confrontare numeri
assoluti e percentuali ( χ2 ); ad esempio: pazienti respiratori
che abitano in città rispetto a quelli che abitano in zone rurali
Indici
di tendenza centrale (media, mediana e moda), indici
di dispersione (deviazione standard, errore standard, intervalli
di confidenza) e distribuzione dei valori (curva gaussiana o
normale)
CRI - Comitato Prov. FI
Riprendiamo
La curva a campana di Gauss
This is the mean

f ( x) 


 f ( x;  ,  )  
1
2
1
2
e
 x2 / 2
e
 ( x   )2 / 2 2
K.F. Gauss (1777-1855) e la curva a
campana nella banconota da 10 DM
del 1991.
CRI - Comitato Prov. FI
Perché questa insistenza?
Perché quando i dati da analizzare sono distribuiti
secondo questo andamento, allora la statistica “dà il
meglio di sé”: si possono infatti applicare i test più
potenti e più conosciuti, cioè il test T di Student
(usato per confrontare due serie di dati) e l’ analisi
della varianza (ANOVA), che non è altro che un Ttest in cui le serie di dati da confrontare sono più di
due.
CRI - Comitato Prov. FI
Quando si possono applicare questi test?
Quando i dati sono parametrici, cioè ha senso parlare
di medie e deviazioni standard e la loro rappresentazione grafica non si discosta molto dalla forma “a
campana” della figura (che, come abbiamo visto,
prende il nome di gaussiana od anche normale, ed
esistono delle formule che permettono di valutare la
normalità della distribuzione).
Da questo consegue che il test 2, visto la volta
scorsa, è un test non parametrico.
CRI - Comitato Prov. FI
Il test t di Student
Abbiamo detto che presuppone una distribuzione normale dei dati,
ma bisogna subito aggiungere che si tratta di un test robusto, cioè si
possono accettarne i risultati anche quando l’assunzione di
normalità non sia soddisfatta in modo rigoroso. Si utilizza in quattro
casi: per il confronto tra
1.
La media di un campione e la media dell’universo o una generica
media attesa
2.
Un singolo dato e la media di un campione per verificare se
possano appartenere alla stessa popolazione
3.
La media delle differenze di due campioni dipendenti con una
differenza attesa
4.
Le medie di due campioni indipendenti.
Quest’ultima è la situazione più frequente.
CRI - Comitato Prov. FI
Come si esegue un test t con MS Excel?
Una volta aperto il nostro foglio elettronico, dal menù selezioniamo
inserisci  formula  T-test. Fin qui è semplice: le complicazioni
iniziano adesso, e forse è meglio andare direttamente su Excel per
parlarne.
CRI - Comitato Prov. FI
Significatività del test t
In questo esempio p = 0,408: c’è il 41% di probabilità che la
differenza di portata cardiaca prima e dopo 6 mesi dall’impianto di
un pace-maker biventricolare sia dovuta al caso, molto superiore
quindi al 5% richiesto per la significatività. Si può concludere che la
resincronizzazione dei ventricoli in pazienti affetti da scompenso
cardiaco non influisce sulla portata cardiaca.
La significatività aumenta quando il test è appaiato, quando aumenta il numero delle osservazioni, quando le S.D. dei campioni sono
piccole e non si sovrappongono, come in questo grafico:
CRI - Comitato Prov. FI
E quando ho più di 2 serie di dati?
Per esempio, voglio confrontare l’effetto di due trattamenti
antiipertensivi, rispetto alle condizioni di base, l’uno rispetto all’altro
e la loro associazione rispetto al singolo trattamento. In questo caso
ho una serie di valori di base, una dopo il trattamento col farmaco A,
un’altra dopo il solo, poniamo allenamento fisico B, ed una quarta
serie dopo la combinazione farmaco + allenamento, C. I confronti
da fare sono numerosi:
1) Base vs. A
4) A vs. B
2) Base vs. B
5) A vs. C
3) Base vs. C
6) B vs. C
CRI - Comitato Prov. FI
E quando ho più di 2 serie di dati?
In questo caso, o faccio una serie di test T, o applico l’analisi
della varianza (ANOVA). Questa non è altro che una sequenza di
test T, ed un primo risultato che mi dà è di vedere se ci sono
differenze statisticamente significative (p < 0,05) fra i confronti
(nel nostro esempio 6) globalmente considerati. Per vedere però
fra quali di questi confronti a coppie di dati esistono differenze
devo chiedere al software statistico di eseguire anche quelli che
si chiamano post-tests o tests post-hoc, che non fanno altro appunto che testare ogni singola serie contro un’altra (spesso
anche in modo ridondante, perché oltre che fare il controllo A vs.
B lo fanno anche B vs. A).
CRI - Comitato Prov. FI
Siamo giunti all’ultimo argomento…
Con il test t di Student e con l'ANOVA si sono confrontate
le differenze tra le medie di due o più campioni. Ma la
verifica dell’ipotesi è sempre stata limitata alla medesima
ed unica variabile rilevata.
Consideriamo ora il caso in cui vogliamo indagare se
esiste una relazione tra due grandezze.
Ma aspettate a sospirare di sollievo, perché
l’argomento che ci aspetta è piuttosto lungo!
CRI - Comitato Prov. FI
Che relazioni esistono fra 2 (o più) variabili?
Per esempio, quando per ogni individuo si misurano contemporaneamente il peso e l'altezza, è possibile verificare se queste due variabili si
diversificano simultaneamente, valutando direzione ed intensità della loro relazione. E’ possibile chiedersi:
1.
quale relazione matematica (con segno ed intensità) esista tra peso ed
altezza nel campione analizzato;
2.
se la tendenza calcolata sia significativa, presente anche nella popolazione, oppure debba essere ritenuta solo apparente, effetto probabile di variazioni casuali del campione.

3.
L’analisi congiunta di due variabili rende inoltre possibile
predire il valore di una variabile quando l’altra è nota (ad esempio, come
determinare in un gruppo d’individui il peso di ognuno sulla base della
sua altezza).
CRI - Comitato Prov. FI
Con cosa cerco queste relazioni?
Con l’analisi della regressione e con l’analisi della correlazione.
Si ricorre all'analisi della regressione quando dai dati campionari si
vuole ricavare un modello statistico che predica i valori di una variabile
detta dipendente, individuata come effetto, a partire dai valori dell'altra
variabile, detta indipendente, individuata come causa.
Si ricorre all'analisi della correlazione quando si vuole misurare
l'intensità dell'associazione tra due variabili quantitative che variano
congiuntamente, senza che tra esse esista una relazione diretta di
causa-effetto, come può avvenire quando entrambe sono legate ad una
terza variabile.
CRI - Comitato Prov. FI
La matematica strettamente necessaria…
La funzione matematica che può esprimere in modo oggettivo la
relazione di causa-effetto tra due variabili è chiamata equazione di
regressione o funzione di regressione della variabile Y sulla
variabile X.
La forma più generale di una equazione di regressione è
Y = a + bX + cX2 + dX3 +eX4 +...
dove il secondo membro è un polinomio intero di X.
Ma il biologo e l’ambientalista non possono limitarsi alla ricerca
della funzione matematica che meglio descrive i dati raccolti con un
solo campione: devono soprattutto fornirne una interpretazione
logica del fenomeno, con argomenti tratti dalla propria disciplina.
CRI - Comitato Prov. FI
Cosa ci consola?
Il fatto che quasi sempre l'interpretazione dell’equazione di
regressione è tanto più attendibile e generale quanto più la
curva è semplice, come quelle di primo o di secondo grado.
Regressioni di ordine superiore sono quasi sempre legate alle
variazioni casuali; sono effetti delle situazioni specifiche del
campione raccolto e solo molto raramente esprimono relazioni
reali e permanenti, non accidentali, tra le due variabili. Di
conseguenza, tutti coloro che ricorrono alla statistica applicata
nell’ambito della loro disciplina utilizzano quasi esclusivamente
regressioni lineari (di primo ordine) o le regressioni curvilinee
(di secondo ordine).
CRI - Comitato Prov. FI
Alcuni esempi
CRI - Comitato Prov. FI
Regressione lineare
La regressione può essere positiva (al crescere della variabile X
cresce anche la Y) oppure negativa (la X aumenta, la Y diminuisce).
La relazione matematica più semplice è la regressione lineare
semplice, rappresentata dalla retta
Y = a + bX
CRI - Comitato Prov. FI
Esempio
Per sette giovani donne, indicate con un numero progressivo, è stato misurato il peso in Kg e l'altezza in cm.
Calcolare la retta di regressione che evidenzi la relazione
tra peso ed altezza.
CRI - Comitato Prov. FI
Esempio
Con una formula troppo complicata per riportarla ma che il software
statistico risolve in un attimo, si ricava il coefficiente angolare (b) che
risulta 0,796 e l’intercetta (a) che è uguale a –73,354: quindi l’equazione
della nostra retta di regressione viene
Y = -73,354 + 0,796 · X
con la quale è possibile stimare i punti sulla retta, corrispondenti a quelli
sperimentalmente rilevati.
Nella sua interpretazione biologica, il valore calcolato di b indica che in media gli individui che
formano il campione aumentano di 0,796 Kg. al crescere di 1
cm. in altezza.
CRI - Comitato Prov. FI
Esempio
La retta di regressione è spesso usata a scopi predittivi, per
stimare una variabile conoscendo il valore dell’altra. Ma è necessario procedere con cautela: in questa operazione spesso
viene dimenticato che sotto l’aspetto statistico, qualsiasi previsione o stima di Y è valida solamente entro il campo di variazione sperimentale della variabile indipendente X.
Questo campo di variazione comprende solo i valori osservati
della X, usati per la stima della regressione. Per valori minori o
maggiori, non è dimostrato che la relazione trovata tra le due
variabili persista e sia dello stesso tipo. Nel nostro esempio,
infatti, una bambina neonata alta, o per meglio dire, lunga 50
cm avrebbe un peso di –33,554 Kg, cioè negativo!
CRI - Comitato Prov. FI
Esempio
Tuttavia, per lo statistico il semplice calcolo della retta
non è sufficiente. Esso infatti potrebbe indicare
- una relazione reale tra le due variabili, se la dispersione
dei punti intorno alla retta è ridotta,
- una relazione casuale o non significativa, quando la
dispersione dei punti intorno alla retta è più pronunciata.
CRI - Comitato Prov. FI
Esempio
CRI - Comitato Prov. FI
Esempio
Occorre valutare la significatività della retta, cioè se il coefficiente
angolare b si discosta da zero in modo significativo.
Il test applicato è detto anche test di linearità. Infatti, rifiutare
l'ipotesi nulla non significa affermare che tra X e Y non esista
alcuna relazione, ma solamente che non esiste una relazione di
tipo lineare tra le due variabili. Potrebbe esistere una relazione di
tipo differente, come quella curvilinea, di secondo grado o di
grado superiore.
Per il nostro esempio di peso e altezza, i calcoli portano ad una
probabilità p < 0,01, il che significa che nella popolazione dalla
quale è stato estratto il campione, esiste in effetti una relazione
lineare tra le variazioni in altezza e quelle in peso.
CRI - Comitato Prov. FI
Come si valuta la bontà di una regressione?
Il software statistico (anche Excel) fornisce anche un
numero, detto coefficiente di regressione, indicato con r o
R e compreso tra -1 e +1, che esprime la bontà dell’accordo (in termine “tecnico”, fitting), fra le due variabili,
indipendente (o stimatore), e dipendente (o stimata):
migliore è l’accordo (cioè sul grafico i punti saranno tanto
più vicini alla retta “media” che li riassume), tanto più R
sarà vicino all’unità (1 è quando tutti i punti giacciono
esattamente sulla retta di regressione). R, ma anche (di
nuovo!) p sono i due valori su cui focalizzarci per giudicare dell’accordo dei nostri dati.
CRI - Comitato Prov. FI
Come si valuta la bontà di una regressione?
Ma “quanto” devono essere questi valori?
Per il p non ci sono dubbi: come al solito, deve essere sempre
< 0,05 per essere significativo. Più complesso è quantificare
l’R, perché varia a seconda delle circostanze e dei fenomeni
studiati: vale comunque la regola del “più vicino a 1 è, meglio
è”. È da notare che, mentre è piuttosto difficile avere valori di
R così alti (diciamo oltre 0,8 in valore assoluto) si ottengono p
significative abbastanza facilmente.
CRI - Comitato Prov. FI
R2 o coefficiente di determinazione
Spesso nei lavori scientifici viene usato, invece di R, il suo
quadrato (R2 o r2), che viene detto coefficiente di determinazione.
È compreso tra 0 ed 1 (se R = 0,8 R2 = 0,64 ma è 0,64 anche se
R = -0,8) ed ha il significato “tangibile” di esprimere quanta
variabilità del campione viene spiegata dal modello sperimentale
(cioè dall’equazione di regressione). Per tornare al nostro esempio di peso rispetto all’altezza, abbiamo R = 0,895 ed R2 = 0,801
(con p = 0,007). Questo significa che l’equazione di regressione
peso = -73,354 + 0,796 · altezza
spiega circa l’80% della variabilità del campione (il restante 20%
è dovuto ad altri fattori).
CRI - Comitato Prov. FI
Ma, alla fine, a cosa serve?
Oltre che a farci sbadigliare per più di due ore, conoscere la statistica
(molto meglio di queste poche note introduttive che sono stato in grado
di passare) serve:
Per
riassumere in poche serie di numeri un dato
Per
vedere con quale affidabilità possiamo estendere alla popolazione
generale un fenomeno che siamo costretti a studiare solo su pochi
individui
Per
capire che prima di fare un esperimento esso va disegnato
Per
capire che non basta far fare al computer un test, ma bisogna
fargli fare quello appropriato ai dati in studio
Per
leggere con occhio critico il paragrafo “metodi” delle pubblicazioni,
e per scriverlo con cognizione di causa.
CRI - Comitato Prov. FI
Alcuni siti per consultazione
http://bama.ua.edu/~jleeper/627/choosestat.html
quale test statistico applicare (in inglese)
Per
scegliere
http://www.dif.unige.it/epi/hp/pal/0-EMS-Stat.pdf Un documento
.pdf sugli indici di tendenza centrale
http://www.sky.mi.it/sir2matematicaweb/sir2statistica1web/
Introduttivo, veramente per principianti, quasi per bambini
http://www.snabi.it/ecm/distanza/corso%20di%20statistica/Corso.
PDF Libretto (100 pagg.) che mi sembra un semplice compendio
http://www.dsa.unipr.it/soliani/soliani.html
formato .pdf (circa 2000 pagine!)
Testo
approfondito
in
http://www2.unipr.it/~bottarel/epi/ Sito di epidemiologia veterinaria,
con una chiara introduzione, link piacevoli e test di autovalutazione
CRI - Comitato Prov. FI
E adesso…
… Abbiamo finito davvero!
GRAZIE A TUTTI!
CRI - Comitato Prov. FI
Scarica

Statistica e mass media