Università degli Studi di Pisa Facoltà di Scienze matematiche fisiche e naturali Anno Accademico 2011-12 Biostatistica (SECS-S/02 ) STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA Incontro 2 13 Ottobre 2011 Medie di potenze di ordine k • A volte può essere interessante calcolare la media di variabili trasformate del tipo x2 , x3 , x1/2 o in generale xk,definite come : Mk x p . k i i 1 k • Per frequenze ni=1 la media di potenza di ordine k si definisce come: 1 k 1 k M k xi . n Il ricorso ad una particolare potenza delle variabili dipende in generale dalla funzione di invarianza individuate dalle somme x i k oppure x i k ni Media quadratica (momento di ordine 2) • Esempio: Due piastre quadrate hanno lato x1=3 e x2=5 .Si desidera sostituirle con 2 piastre uguali che mantengono invariata la superficie totale (32+52=34 ).Il lato delle nuove piastre è 1 2 1 2 M 2 xi n 1 2 34 n xi 2 . Media Geometrica (k→0) • È usata in campi come la microbiologia o sierologia ,quando le osservazioni sono espresse in titoli ,i cui valori sono multipli dello stesso fattore di diluizione . • Per n osservazioni la media geometrica è la radice n-esima del prodotto delle osservazioni : M0 G n x i 1 log( G ) log( xi ) n Media Geometrica(Esempio) • Il numero di mosche presenti in una popolazione di laboratorio è costituita originariamente da 100 elementi,viene rilevato in 3 periodi successivi. • Al primo conteggio le mosche sono 112 ,al secondo 196 ,al terzo 369. • Qual è il tasso di incremento medio della popolazione ? • Gli incrementi osservati nei tre periodi sono: Il tasso di112 incremento medio è del 196 della popolazione 369 1.12 1.75 1.88 54% 100 112 196 1 1 log( G ) log( xi ) * 0.5664 0.1888 3 3 G anti log( 0.1888) 1.54 100 *1.54 *1.54 *1.54 369 Media Armonica (k=-1) • Adatto per valori espressi come rapporti X=Y/Z • La prima formula vale se Y è costante ,la seconda ha valenza generale M 1 1 1 1 1 ........... x1 x2 xn n ni M 1 ni x i n 1 x i Esempio(Media Armonica) • Una certa proteina viene studiata mediante elettroforesi;si vuol conoscere la velocità di migrazione media . La proteina viene fatta correre sul gel in un campo elettrico per 20mm e viene misurato il tempo necessario a percorrere questa distanza in 5 prove diverse. Prova Tempo (s) Velocità (mm/s) 1 2 3 4 5 40 60 30 50 70 20/40=0.05 20/60=0.33 20/30=0.66 20/50=0.40 20/70=0.29 250 2.186 Esempio(Media Armonica ) (2) • La media aritmetica della velocità è 2.186/5=0.4372 è diversa dalla velocità media ; il totale del cammino percorso nelle 5 prove è (20*5)mm=100mm,mentre questa risulterebbe pari a 109.3mm=0.4372*250. • Invece usando la media armonica la distanza risulta invariata! 5 M 1 0.4 1 1 1 1 1 0.5 0.33 0.66 0.40 0.29 250 * 0.4 100mm Indici di dispersione • Limite degli indici di tendenza centrale:l’informazione fornita dalla misura di tendenza centrale(moda,media,mediana) può risultare più o meno affidabile a seconda della dispersione dei dati e della forma della distribuzione :è molto buona se le osservazioni sono poco disperse e simmetriche generica se la variabilità è ampia . • Il ‘Campo di variazione’ (range) offre una prima informazione sulla dispersione campionaria :è la differenza tra i valori estremi delle osservazioni. Indicando con x(1) il più piccolo e con x(n) il più grande di n valori osservati il range risulta : W x( n ) x(1) • È poco affidabile perché dipende fortemente dal numero di osservazioni e dai valori estremi Tabella riassuntiva indici di tendenza centrale 0.4 0.0 0.1 0.2 dnorm(x, 100, 5) 0.3 0.3 0.2 0.1 0.0 1/sqrt(2 * pi) * exp(-0.5 * (x - 100)^2) 0.4 •In entrambe i casi la media è 100 ,ma mentre nella figura 1 il valor medio è moltoEsempio: rappresentativo della distribuzione ,nel secondo caso,dove i dati sono maggiormente dispersi Misura ildel quoziente d’intelligenza due diversi valor medio non rispecchia del tutto in la distribuzione deicampioni dati. 80 90 100 x 110 120 80 90 100 x 110 120 Indici di dispersione Indici di dispersione(Sum of Squares e Varianza ) • Per operare confronti tra collettivi formati da un diverso numero di individui si utilizza la varianza : Indici di dispersione Standard Error (Errore quadratici Medio) e Coefficiente di Variazione(CV) Esempio(Indici di dispersione) Esempio2 (Concentrazione media di un fitofarmaco) Esempio2 (Concentrazione media di un fitofarmaco)(2) Trasformazioni lineari • Sia nota la media μx e la varianza σ2x di una variabile X . • Y=a+bX con a e b costanti arbitrarie . • Definiamo il valore atteso E(X)= μx e V(X)= σ2x . Y E (Y ) E (a bX ) E (a) E (bX ) a b X 2Y V (Y ) V (a bX ) V (a) V (bX ) 0 b 2 2 X • Il valor atteso (media ) è un operatore lineare • La varianza è un operatore quadratico Tabella a doppia entrata(Esempio1) Indipendentemente dal tipo di variabili in studio, quando si ha a che fare con un numero notevole di individui è possibile costruire delle tabelle di contingenza: si tratta di tabelle a due entrate nelle quali ogni numero rappresenta la frequenza congiunta (in genere assoluta) per una particolare coppia di valori delle due variabili. Ad esempio consideriamo le variabili di fantasia X=Varietà (con i valori SANREMO e FANO) e Y=Forma delle bacche (con i valori LUNGO, TONDO, OVALE), nella tabella a seguire il valore 37 indica il numero di individui che presentano congiuntamente la modalità SANREMO e la modalità LUNGO .I totali mostrano le frequenze marginali delle due variabili separatamente. Ogni riga della tabella di cui sopra (esclusi i totali) costituisce una distribuzione condizionata della variabile Y, dato un certo valore della X (Y|SANREMO e Y|FANO). Viceversa ogni colonna (X|LUNGO, X|TONDO e X|OVALE). Lungo Tondo Ovale Totale Sanremo 37 32 61 130 Fano Totale 45 82 74 106 69 120 178 308 In simboli:Tavola di contingenza generica Y1 … Yj X1 n11 … n1j … … … … Xi ni1 … … … Xh nh1 Totale n.1 … Yk Totale n1k n1. … … … nij … … ni. … … … … … … nhj … nhk nh. n.k n n.j Tavole di contingenza :Dipendenza Se guardiamo le due distribuzioni condizionate Y|SANREMO e Y|FANO possiamo notare che esiste una certa differenza. Potremmo chiederci quindi se il presentarsi di una data modalità del carattere X (SANREMO o FANO) influenza il presentarsi di una particolare modalità del fenomeno Y. Se ciò non è vero si parla di indipendenza delle variabili (allora le distribuzioni condizionate sono uguali) altrimenti si parla di dipendenza o connessione. In caso di indipendenza, le distribuzioni condizionate di Y dovrebbero essere uguali tra loro e alla distribuzione marginale di X. In simboli: nij ni.n. j ni. nij * n. j n n Indice χ2 A questo punto è logico costruire un indice statistico di connessione, detto χ2 che misuri lo scostamento tra le frequenze osservate e quelle attese nell'ipotesi di indipendenza perfetta: 2 (n n ij ) * ij n * 2 ij dove nij è frequenza osservata ed nij* frequenza attesa nel caso indipendenza perfetta. Questo indice assume valore pari a zero nel caso di indipendenza completa (le frequenze osservate sono uguali a quelle attese) ed assume un valore positivo tanto più alto quanto maggiore è la connessione tra i due caratteri. Calcolo e proprietà dell’indice V di Cramer • Nel caso in esame : 2 2 ( 37 34 . 6 ) ( 32 44 . 7 ) 2 .... 10.22 34.6 44.7 • Per valutare il significato del valore ottenuto, nel campo della statistica descrittiva si suole dividere l'indice per il suo valore massimo, che è proporzionale al numero di righe e di colonne della tabella: max( 2 ) n * min( h 1, k 1) 2 10.22 2 V 0.1821588 2 max( ) 308 • 0≤V ≤1 • V=0 se i caratteri sono indipendenti • V=1 se viè dipendenza o interdipendenza perfetta Esempio:Presenza assenza di virosi in un campione di piante di frumento di varietà differenti 2 0.27898 0.1178983 n min( 4 1,2 1) 20 Si No C 4 3 N 3 3 S 2 1 V 2 2