STATISTICA PER LA RICERCA
SPERIMENTALE E TECNOLOGICA
Corso di Laurea Triennale in Infermieristica
Anno III
TERZA LEZIONE
Di solito le variabili rilevate sui soggetti sono più di
una
Si supponga di rilevare due variabili X e Y
(es. peso e altezza di un neonato, livello di colesterolo e di acido urico,
circonferenza cranica e settimane di gestazione, stadio tumorale e
livello di dolore, ecc)
In molti casi è importante determinare se vi sono
relazioni di dipendenza tra le due variabili e il tipo e
l’intensità di tali relazioni
RELAZIONI TRA VARIABILI
QUANTITATIVE
Siano X e Y due variabili quantitative rilevate su n
soggetti
(x1,y1) sono i valori rilevati sul soggetto 1
(x2,y2) sono i valori rilevati sul soggetto 2
…….
(xn,yn) sono i valori rilevati sul soggetto n
ogni coppia di valori rappresenta un punto nel piano
cartesiano (X,Y)
il protocollo sperimentale (x1,y1), (x2,y2),…, (xn,yn) è
una “nuvola” di punti nel piano
La morfologia della nuvola (scatter, diagramma di
dispersione) fornisce informazioni sul tipo di legame
esistente tra le variabili
associazione lineare positiva
associazione lineare negativa
assenza di associazione
associazione non lineare
(curvilinea)
Come misurare il tipo di associazione lineare tra due
variabili ??
COVARIANZA
Media dei prodotti degli scarti dalla media
1
  ( xi  x )( yi  y )
n i 1
n
s xy
I quadrante
scarti concordanti
(+,+)
IV quadrante
scarti discordanti
(-,+)
media
delle Y
II quadrante
scarti discordanti
(+,-)
III quadrante
scarti concordanti
(-,-)
↑
media delle X
I-III quadrante
II-IV quadrante
scarti concordanti → prodotti positivi
scarti discordanti→ prodotti negativi
dipendenza lineare positiva
prevalgono i punti I-II quadrante
prevalgono i prodotti positivi
covarianza positiva
dipendenza lineare negativa
prevalgono i punti II-IV quadrante
prevalgono i prodotti negativi
covarianza negativa
nessuna dipendenza lineare
nessuna direzione individuabile
i prodotti negativi e positivi si compensano
covarianza approssimativamente nulla
la covarianza dipende criticamente dalle unità di
misura di X e Y
la covarianza individua il tipo di legame lineare
esistente tra le variabili ma non la forza di tale
associazione
COEFFICIENTE DI CORRELAZIONE LINEARE
Rapporto tra la covarianza e il prodotto degli sqm
rxy 
s xy
sx s y
non dipende dalle unità di misura
varia tra -1 e 1
è nullo in caso di assenza di legame lineare
è -1 o 1 in caso di legame lineare perfetto (negativo o positivo)
In uno studio sono state esaminate le radiografie fatte ai reni di bambini
normali, per misurare le distanze della parete interna del rene dalla spina
dorsale, una distanza facilmente visualizzabile nelle radiografie e utile
nella diagnosi di malattia renale. Nella tabella sono riportate le misure
ottenute per la parte superiore del rene destro insieme con l’età del
bambino. Verifica la relazione lineare tra la distanza e l’età.
Età del bambino in anni (X)
Distanza in mm (Y)
2 3 4 5 6 7 8 9 10 11
20 18 23 20 22 23 25 29 27 28
x
y
scarti x
scarti y
scarti2 x
scarti2 y
prodotti
2
20
-4.5
-3.5
20.25
12.25
15.75
3
18
-3.5
-5.5
12.25
30.25
19.25
4
23
-2.5
-0.5
6.25
0.25
1.25
5
20
-1.5
-3.5
2.25
12.25
5.25
6
22
-0.5
-1.5
0.25
2.25
0.75
7
23
0.5
-0.5
0.25
0.25
-0.25
8
25
1.5
1.5
2.25
2.25
2.25
9
29
2.5
5.5
6.25
30.25
13.75
10
27
3.5
3.5
12.25
12.25
12.25
11
28
4.5
4.5
20.25
20.25
20.25
0
0
82.5
122.5
90.5
65 235
media X
65/10 = 6.5 anni
media Y
235/10 = 23.5 mm
varianza X
82.5/10 = 8.25 anni2
sqm X
2.87 anni
varianza Y
122.5/10 = 12.25 mm2
sqm Y
3.5 mm
covarianza XY
90.5/10 = 9.05 anni x mm
coeff. corr.
9.05/(2.87 x 3.5) = 0.90
forte dipendenza lineare positiva
REGRESSIONE LINEARE
Se tra X e Y esiste un forte legame lineare (rxy elevato)
si può tentare di spiegare il valore di Y come funzione
lineare di X secondo la relazione
Y=a+bX
Dato un valore osservato xi il valore previsto di Y come
funzione lineare di X sarà allora
ŷi=a+bxi
il quale sarà diverso dal valore osservato yi
La differenza tra il valore osservato e quello previsto
dalla relazione lineare
ei= ŷi-yi
è detto errore di previsione
La regressione è tanto più precisa quanto minori sono gli
errori che si commettono
I parametri a e b della retta di regressione saranno
determinati in modo da rendere minima la somma dei
quadrati degli errori
← errore di previsione
METODO DEI MINIMI QUADRATI
Quale retta utilizzare tra tutte le possibili
rette che possono passare tra i punti ??
Blu ?? Verde ??? Rossa ?????
Quella che rende minima la somma dei
quadrati degli errori (quella che sbaglia
di meno)
RETTA DI REGRESSIONE
PARAMETRI DELLA RETTA
a  y  bx
intercetta
2
b  s xy / s y
coefficiente angolare
PRECISIONE DELLA REGRESSIONE
Quando la previsione di Y come funzione lineare di X da
luogo a risultati precisi ?
R2
quadrato del coefficiente di correlazione
varia tra 0 e 1 ed esprime la percentuale di variabilità
delle Y spiegata dalla relazione lineare con X
R2 = 0 la regressione non spiega niente
R2 = 1 la regressione spiega tutto
Es: se tra due variabili X e Y c’è un coefficiente di correlazione di 0.80 la
regressione spiegherebbe il 64% della variabilità delle Y, il rimanente 36%
dipende da altre cause
Es. Dato che il coefficiente di correlazione tra le distanze della parete interna
del rene dalla spina dorsale e l’età dei bambini risulta molto alto (0.90), in una
regressione lineare tra le due variabili, l’età spiega l’81% della variabilità di tali
distanze.
I parametri della retta di regressione risultano
b = 9.05/8.25 = 1.097
a = 23.5 – 1.097 x 6.5 =16.37
Y = 16.37 + 1.097 X
a età 0 la distanza è 16.37 mm e cresce di 1.097 mm all’anno
Qual è la distanze prevista per un bambino di 45 mesi (3.75 anni)
y = 16.37 + 1.097 x 3.75 = 20.48 mm
Quando X è il tempo (T) le coppie di punti (t1,y1),
(t2,y2),…, (tn,yn) mostrano l’evoluzione della variabile Y
nel tempo
Una correlazione positiva di Y con T dimostra che Y
tende a crescere linearmente con il tempo
Una correlazione negativa di Y con T dimostra che Y
tende a decrescere linearmente con il tempo
Un’assenza di correlazione di Y con T dimostra
un’assenza di trend lineare di Y
Se la relazione lineare tra Y e T è forte si possono
prevedere i valori futuri di Y tramite la retta di
regressione
Es. Serie temporale delle percentuali di fumatori maschi in Italia
(Fonte: ISTAT, 2003, L’Italia in cifre)
anno
%
1993
45.6
1995
33.9
1997
33.1
1999
32.4
2001
31.2
scarti t scarti y scarti2 t scarti2 y
t
y
prodotti
3
45.6
-4
10.36
16
107.33
-41.44
5
33.9
-2
-1.34
4
1.80
2.68
7
33.1
0
-2.14
0
4.58
0
9
32.4
4
-2.84
4
8.07
-11.36
11
31.2
2
-4.04
16
16.32
-8.08
35
176.2
0
0
40
138.10
-58.20
media T
35/5 = 7 anni
media Y
176.2/5 = 35.24 pp
varianza T
40/5 = 8 anni2
varianza Y
138.10/5 = 27.62 pp2
covarianza TY
-58.20/5 = -11.64 anni x pp
coeff. corr.
-11.64/(2.83 x 5.26) = 0.78
forte dipendenza lineare negativa
sqm T
2.83 anni
sqm Y
5.26 pp
Dato che il coefficiente di correlazione tra gli anni e la % fumatori
maschi risulta alto (0.79), in una regressione lineare tra le due
variabili, il trend temporale spiega il 62% della variabilità di tali
percentuali.
I parametri della retta di regressione risultano
b = -11.64/8 = -1.455
a = 35.24 – (-1.455) x 7 = 45.425
Y = 45.425 - 1.455 T
All’anno 0 (1990) la % fumatori maschi è stimata del 45.4% e
decresce di 1.455 punti percentuali all’anno
Qual’è la % prevista per il 2012 (t=22)
y = 45.425 - 1.455 x 22 = 13.415 % (!!!)
Attenzione a estrapolare troppo !!!
Regressione non lineare
Non tutte le dipendenze sono di tipo lineare, ma molte
si possono riportare a dipendenze lineari
Y non cresce linearmente con X
ma con il ln X
Si può analizzare la dipendenza
lineare di Y con ln X
Scarica

3 - Italiano