LA VARIABILITA’ IV lezione di Statistica Medica Sintesi della lezione Il concetto di variabilità Campo di variazione Differenza interquartile La varianza La deviazione standard Scostamenti medi Il concetto di variabilità 3 2,75 2,5 2,25 1,5 1,25 1 0,75 0,5 0,25 0 65 75 85 95 105 115 125 135 Q.I. 10 9 8 7 N. studenti Si definisce come l’attitudine di un fenomeno ad assumere valori diversi N. studenti 2 1,75 6 5 4 3 2 1 0 65 75 85 95 105 Q.I. 115 125 135 Il concetto di variabilità 10 3 9 2,75 2,5 8 2,25 2 6 5 Gruppo 1 Gruppo 2 4 N. studenti N. Studenti 7 1,75 1,5 Gruppo 1 Gruppo 2 1,25 1 3 0,75 2 0,5 1 0,25 0 0 65 75 85 95 105 115 125 135 In assenza di variabilità all’interno dei gruppi è evidente che i Q.I. del primo gruppo sono più elevati rispetto a quelli del secondo gruppo Q.I. 65 75 85 95 105 115 125 135 In presenzaQ.I.di una forte variabilità all’interno dei gruppi non è evidente in quale gruppo sono più elevati i Q.I. INDICI DI VARIABILITA’ 1. Indici di diversità 2. Indici di disuguaglianza rispetto a un valore medio 3. Indici di disuguaglianza a coppie 1. Indici di variabilità assoluta 2. Indici di variabilità relativa Requisiti di un indice di variabilità 1. 2. 3. Indici di diversità Indici di diversità Campo di variazione E’ anche denominato “range” ed è espresso da: R = xN – x1 Può essere elevato anche se la variabilità della distribuzione è prossima a zero Es. 1 10 10 10 10 10 10 10 10 10 10 12 Indici di diversità Differenza interquartile Sia data una distribuzione x1, x2….xn tale indice è espresso da: IR = Q3 – Q1 Può essere nullo anche se non è nulla la variabilità della distribuzione Es. 1 2 10 10 10 10 10 10 10 10 11 12 dove Q1 = Q3 = 10 Indici di diversità Scarto interquartile Sia data una distribuzione x1, x2….xn lo scarto interquartile è espresso dalla semidifferenza tra Q3 e Q1: Q 3 Q1 IRs 2 IR % Si ottiene rapportando IR alla mediana e moltiplicando il rapporto per 100: Q 3 Q1 IR % *100 Me Indici di disuguaglianza rispetto a un valore medio Valore medio 3 2,75 2,5 2,25 N. studenti 2 1,75 1,5 Intuitivamente la variabilità è vista come la distanza media di un’”osservazione tipo” rispetto al valore medio per la popolazione 1,25 1 0,75 0,5 0,25 0 65 75 85 95 105 115 125 Tuttavia: 135 Q.I. Distanza rispetto alla media k x M n i i 1 N i 0 La varianza ( X ) 2 ni N La varianza si calcola come la media degli scarti al quadrato La varianza è utilizzata per standardizzare le misure di variabilità e renderle relative Il valore della varianza è indipendente rispetto al numero delle osservazioni Il numeratore della varianza si chiama devianza xi ni xi*ni x i -M ( x i -M)^2*nI 124 -15,5 480,5 132 -11,5 264,5 210 -7,5 168,75 219 -4,5 60,75 300 -2,5 25 304 -1,5 9 79 1,5 2,25 162 3,5 24,5 249 5,5 90,75 172 8,5 144,5 92 14,5 210,25 282 16,5 816,75 2325 2297,5 62 2 66 2 70 3 73 3 75 4 76 4 79 1 81 2 83 3 86 2 92 1 94 3 Totale 30 MEDIA=77,5 VARIANZA = DEVIANZA / N = 76,58 La deviazione standard 2 ( X ) ni N Si ottiene dalla radice quadrata della varianza della popolazione Si definisce deviazione standard o scarto quadratico medio la media quadratica degli scarti dalla Media della popolazione Formula di calcolo della varianza n 2 2 Mq xi M 2 i 1 n M n 2 i 1 2 xi n 2 xi i 1 2 n n Varianza e dev. st. di un campione Nelle attività normali di ricerca non disponiamo di una popolazione bensì di un campione Obiettivo della statistica inferenziale: stima dei parametri di una popolazione attraverso l’utilizzo di un campione In generale i campioni presentano una variabilità minore rispetto alla popolazione Assenza di valori estremi ( e rari) Nelle popolazioni poco variabili è possibile stimare i parametri della popolazione con un campione ristretto Nelle popolazioni ad elevata variabilità è necessario un campione più grande Varianza e dev. st. di un campione Varianza di un campione Deviazione standard di un campione • La correzione è importante soprattutto per i campioni di piccole dimensioni • Per i campioni molto numerosi la deviazione standard del campione si avvicina a quella della popolazione s 2 (X X ) s 2 n 1 (X X ) n 1 2 Cosa sono i gradi di libertà? Il numero di osservazioni libere nel campione. Con un vincolo, vi saranno n-1 g.l. Con due vincoli, vi saranno n-2 g.l. Ricordando l’esempio del voto medio di 30 studenti, le prime 29 osservazioni potranno assumere qualunque valore ma la 30-esima osservazione sarà vincolata al seguente valore: 30 29 x 77.5 0 x x i i i 1 i 1 29 x30 30 * 77.5 x i i 1 30 30 * 77.5 Indici relativi di variabilità Esempio Media sqm CV gruppo 1 100 20 0.2 gruppo 2 10 15 1.5 Indici di eterogeneità Mutabilità È la possibilità di variare per una variabile qualitativa tra una perfetta omogeneità (quando la variabile si manifesta mediante un solo attributo) e una qualche eterogeneità ( se nella popolazione vi sono almeno due attributi differenti) La eterogeneità misura la variabilità delle frequenze relative senza coinvolgere le modalità della variabile Max Max omogeneità eterogeneità Diploma fi fi Classico 1 0.25 Scientifico 0 0.25 Tecnico professionale 0 0.25 Altri 0 0.25 Totale 1 1 Max omogeneità Max eterogeneità L’indice di eterogeneità vale zero L’indice di eterogeneità raggiunge il massimo L’indice di Gini k G 1 fi2 i 1 Min eterogeneità: G 1 1 0 ... 0 1 1 0 Max eterogeneità: k G 1 i 1 k 1 1 2 1 2 1 k k k Rapportando G al suo massimo, otteniamo un indice che varia tra 0 ed 1: Gnorm G G kG Gmax 1 1 k k 1 Esempio Area funzionale omogenea Ospedale A Ospedale B fiA medica 18 23 0.333333 chirurgica 14 25 0.259259 terapia intensiva 4 20 0.074074 materno-infantile 8 22 0.148148 riabilitazione 10 9 0.185185 54 99 1