Università degli Studi di Pisa
Facoltà di Scienze matematiche fisiche e naturali
Anno Accademico 2011-12
Biostatistica
(SECS-S/02 )
STATISTICA PER LA RICERCA
SPERIMENTALE E
TECNOLOGICA
Incontro 2
13 Ottobre 2011
Medie di potenze di ordine k
• A volte può essere interessante calcolare la media di variabili
trasformate del tipo x2 , x3 , x1/2 o in generale xk,definite come :
Mk 
 x p  .
k
i
i
1
k
• Per frequenze ni=1 la media di potenza di ordine k si definisce
come:
1
k
1
k
M k    xi  .
n

Il ricorso ad una particolare potenza delle variabili dipende in generale
dalla funzione di invarianza individuate dalle somme
x
i
k
oppure
x
i
k
ni
Media quadratica (momento di ordine 2)
• Esempio: Due piastre quadrate hanno lato x1=3
e x2=5 .Si desidera sostituirle con 2 piastre
uguali che mantengono invariata la superficie
totale (32+52=34 ).Il lato delle nuove piastre è
1
2
1
2
M 2    xi  
n

1 2
34
 n xi  2 .
Media Geometrica (k→0)
• È usata in campi come la microbiologia o sierologia ,quando le
osservazioni sono espresse in titoli ,i cui valori sono multipli dello
stesso fattore di diluizione .
• Per n osservazioni la media geometrica è la radice n-esima del
prodotto delle osservazioni :
M0  G  n
x
i
1
log( G )   log( xi )
n
Media Geometrica(Esempio)
• Il numero di mosche presenti in una popolazione di laboratorio è
costituita originariamente da 100 elementi,viene rilevato in 3 periodi
successivi.
• Al primo conteggio le mosche sono 112 ,al secondo 196 ,al terzo
369.
• Qual è il tasso di incremento medio della popolazione ?
• Gli incrementi osservati nei tre periodi sono:
Il tasso di112
incremento medio
è del
196 della popolazione
369
 1.12
 1.75
 1.88
54%
100
112
196
1
1
log( G )   log( xi )  * 0.5664  0.1888
3
3
G  anti log( 0.1888)  1.54
100 *1.54 *1.54 *1.54  369
Media Armonica (k=-1)
• Adatto per valori espressi come rapporti X=Y/Z
• La prima formula vale se Y è costante ,la
seconda ha valenza generale
M 1 
1
1 1
1
  ........... 
x1 x2
xn
n
ni

M 1 
ni
x
i

n
1
x
i
Esempio(Media Armonica)
• Una certa proteina viene studiata mediante elettroforesi;si vuol
conoscere la velocità di migrazione media . La proteina viene fatta
correre sul gel in un campo elettrico per 20mm e viene misurato il
tempo necessario a percorrere questa distanza in 5 prove diverse.
Prova
Tempo
(s)
Velocità
(mm/s)
1
2
3
4
5
40
60
30
50
70
20/40=0.05
20/60=0.33
20/30=0.66
20/50=0.40
20/70=0.29
250
2.186
Esempio(Media Armonica ) (2)
• La media aritmetica della velocità è 2.186/5=0.4372 è diversa dalla
velocità media ; il totale del cammino percorso nelle 5 prove è
(20*5)mm=100mm,mentre questa risulterebbe pari a
109.3mm=0.4372*250.
• Invece usando la media armonica la distanza risulta invariata!
5
M 1 
 0.4
1
1
1
1
1




0.5 0.33 0.66 0.40 0.29
250 * 0.4  100mm
Indici di dispersione
• Limite degli indici di tendenza centrale:l’informazione fornita dalla
misura di tendenza centrale(moda,media,mediana) può risultare più o
meno affidabile a seconda della dispersione dei dati e della forma della
distribuzione :è molto buona se le osservazioni sono poco disperse e
simmetriche generica se la variabilità è ampia .
• Il ‘Campo di variazione’ (range) offre una prima informazione sulla
dispersione campionaria :è la differenza tra i valori estremi delle
osservazioni. Indicando con x(1) il più piccolo e con x(n) il più grande di n
valori osservati il range risulta :
W  x( n )  x(1)
• È poco affidabile perché
dipende fortemente dal
numero di osservazioni e
dai valori estremi
Tabella riassuntiva
indici di tendenza centrale
0.4
0.0
0.1
0.2
dnorm(x, 100, 5)
0.3
0.3
0.2
0.1
0.0
1/sqrt(2 * pi) * exp(-0.5 * (x - 100)^2)
0.4
•In entrambe i casi la media è 100 ,ma mentre nella figura
1 il valor medio è moltoEsempio:
rappresentativo della distribuzione
,nel secondo caso,dove i dati sono maggiormente dispersi
Misura ildel
quoziente
d’intelligenza
due diversi
valor
medio non rispecchia
del tutto in
la distribuzione
deicampioni
dati.
80
90
100
x
110
120
80
90
100
x
110
120
Indici di dispersione
Indici di dispersione(Sum of Squares e Varianza )
• Per operare confronti tra collettivi formati da un diverso
numero di individui si utilizza la varianza :
Indici di dispersione
Standard Error (Errore quadratici Medio) e
Coefficiente di Variazione(CV)
Esempio(Indici di dispersione)
Esempio2 (Concentrazione media di un fitofarmaco)
Esempio2 (Concentrazione media di un fitofarmaco)(2)
Trasformazioni lineari
• Sia nota la media μx e la varianza σ2x di una variabile X .
• Y=a+bX con a e b costanti arbitrarie .
• Definiamo il valore atteso E(X)= μx e V(X)= σ2x .
Y  E (Y )  E (a  bX )  E (a)  E (bX )  a  b X
 2Y  V (Y )  V (a  bX )  V (a)  V (bX )  0  b 2 2 X
• Il valor atteso (media ) è un operatore lineare
• La varianza è un operatore quadratico
Tabella a doppia entrata(Esempio1)
Indipendentemente dal tipo di variabili in studio, quando si ha a che fare con un
numero notevole di individui è possibile costruire delle tabelle di contingenza: si
tratta di tabelle a due entrate nelle quali ogni numero rappresenta la frequenza
congiunta (in genere assoluta) per una particolare coppia di valori delle due
variabili. Ad esempio consideriamo le variabili di fantasia X=Varietà (con i valori
SANREMO e FANO) e Y=Forma delle bacche (con i valori LUNGO, TONDO,
OVALE), nella tabella a seguire il valore 37 indica il numero di individui che
presentano congiuntamente la modalità SANREMO e la modalità LUNGO .I totali
mostrano le frequenze marginali delle due variabili separatamente. Ogni riga della
tabella di cui sopra (esclusi i totali) costituisce una distribuzione condizionata
della variabile Y, dato un certo valore della X (Y|SANREMO e Y|FANO). Viceversa
ogni colonna (X|LUNGO, X|TONDO e X|OVALE).
Lungo
Tondo
Ovale Totale
Sanremo
37
32
61
130
Fano
Totale
45
82
74
106
69
120
178
308
In simboli:Tavola di contingenza generica
Y1
…
Yj
X1
n11
…
n1j
…
…
…
…
Xi
ni1
…
…
…
Xh
nh1
Totale n.1
…
Yk
Totale
n1k
n1.
…
…
…
nij
…
…
ni.
…
…
…
…
…
…
nhj
…
nhk
nh.
n.k
n
n.j
Tavole di contingenza :Dipendenza
Se guardiamo le due distribuzioni condizionate Y|SANREMO e Y|FANO
possiamo notare che esiste una certa differenza. Potremmo chiederci quindi se il
presentarsi di una data modalità del carattere X (SANREMO o FANO) influenza
il presentarsi di una particolare modalità del fenomeno Y. Se ciò non è vero si
parla di indipendenza delle variabili (allora le distribuzioni condizionate sono
uguali) altrimenti si parla di dipendenza o connessione.
In caso di indipendenza, le distribuzioni condizionate di Y dovrebbero
essere uguali tra loro e alla distribuzione marginale di X. In simboli:
nij
ni.n. j
ni.
  nij * 
n. j
n
n
Indice χ2
A questo punto è logico costruire un indice statistico di connessione, detto χ2 che
misuri lo scostamento tra le frequenze osservate e quelle attese nell'ipotesi di
indipendenza perfetta:

2
(n


 n ij )
*
ij
n
*
2
ij
dove nij è frequenza osservata ed nij* frequenza attesa nel caso
indipendenza perfetta. Questo indice assume valore pari a zero nel
caso di indipendenza completa (le frequenze osservate sono uguali a
quelle attese) ed assume un valore positivo tanto più alto quanto
maggiore è la connessione tra i due caratteri.
Calcolo e proprietà dell’indice V di Cramer
• Nel caso in esame :
2
2
(
37

34
.
6
)
(
32

44
.
7
)
2 

 ....  10.22
34.6
44.7
• Per valutare il significato del valore ottenuto, nel campo della statistica
descrittiva si suole dividere l'indice per il suo valore massimo, che è
proporzionale al numero di righe e di colonne della tabella:
max(  2 )  n * min( h  1, k  1)
2
10.22
2
V

 0.1821588
2
max(  )
308
• 0≤V ≤1
• V=0 se i caratteri sono indipendenti
• V=1 se viè dipendenza o interdipendenza perfetta
Esempio:Presenza assenza di virosi in un campione di
piante di frumento di varietà differenti

2
0.27898

 0.1178983
n min( 4  1,2  1)
20
Si
No
C
4
3
N
3
3
S
2
1
V
2
2
Scarica

Biostatistica