Unità 4 La curva gaussiana Variabili standardizzate 1 L’espressione matematica della distribuzione gaussiana è data da 1 f (x) e 2 ( x )2 2 2 x Osservazione. Questa funzione densità completamente definita dai parametri e . probabilità è La curva corrispondente ha una forma a campana del tipo in figura sotto ed è simmetrica rispetto al valore medio. 0,68 0,16 0,16 X 2 Essendo la curva simmetrica rispetto al valore medio, è chiaro che le aree sottese alla curva stessa fra – e e fra e +, valgono entrambi 0,5. In altre parole c’è una probabilità pari al 50% che la variabile casuale X assuma un valore più basso o più alto del valore medio. Il valore medio coincide quindi con la mediana. Il valore medio coincide anche con la moda. Valore medio, moda e mediana coincidono. 0,68 0,16 0,16 X 3 Le ascisse – e + individuano i due punti (punti di flesso) in cui la curva cambia la concavità. L’area sottesa alla curva nell’intervallo [ – , + ] è circa il 68% dell’area sottesa a tutta la curva (vale infatti 0,6827). A ciascuna delle due rimanenti code della curva corrisponde perciò un’area pari a circa 0,16. L’area che sta sotto la curva nell’intervallo [–1,96, +1,96] vale 0,95; c’è cioè una probabilità del 95% che un’osservazione cada all’interno di questo intervallo. Tale probabilità sale al 99% se si considera l’intervallo [–2,58, +2,58]. 0,68 0,16 0,16 X 4 5 In generale la probabilità che un’osservazione cada all’interno di un generico intervallo [ – h, + h ], con h arbitrario, può essere facilmente dedotta da tabelle riportate nei principali manuali di statistica. Il parametro (valore medio) individua la posizione occupata dalla curva nel piano. Infatti, tenendo costante e facendo variare , la curva trasla semplicemente lungo l’asse delle ascisse, come è mostrato in figura sotto. x 6 Il parametro (deviazione standard) dà invece informazioni su come i valori sono più o meno dispersi attorno alla media. Ciò è evidente guardando la figura sotto che riporta tre diverse curve gaussiane aventi lo stesso valore di , ma valori differenti per . All’aumentare di la curva diventa più piatta, poiché i valori sono più dispersi attorno alla media. X 7 LA STANDARDIZZAZIONE La standardizzazione è un procedimento che riconduce una variabile aleatoria distribuita con media μ e deviazione standard σ, ad una variabile aleatoria con distribuzione standard, ossia con media zero e deviazione standard pari a 1. È particolarmente utile nel caso della variabile casuale normale per il calcolo della funzione densità di probabilità e dei percentili con le tavole della gaussiana standard. Infatti i valori della distribuzione normale sono tabulati per media zero e varianza unitaria. 8 Z Curva gaussiana standardizzata Il procedimento prevede di sottrarre alla variabile aleatoria la sua media e dividere il tutto per la deviazione standard, passando così dalla variabile originaria X ad una nuova variabile Z (Z-score o standard score): Z X 9 Area sottesa alla curva di Gauss standardizzata nella coda a destra di Z Area a destra di Z 10 Area sottesa alla curva di Gauss standardizzata a sinistra di Z Area a sinistra di Z 11 Uso della tavola di probabilità gaussiana Due sono gli usi della tavola di probabilità: Definito un intervallo di valori per X, si vuole calcolare la probabilità che un valore x cada al suo interno. Definita una probabilità, si vuole calcolare l’intervallo dei valori X che corrisponde a tale probabilità. 12 Esercizio 1 Si consideri una popolazione con altezza distribuita in maniera gaussiana con media (µ) pari a 172,5 cm e con deviazione standard (σ) pari a 6,25 cm. Qual è la probabilità di incontrare un individuo estratto da tale popolazione di altezza superiore a cm 190? Z = (190 – 172,5) / 6,25 = 2,8 Dalla tavola precedente risulta P = 1 – 0,9974 = 0,0026 Quindi la probabilità di trovare un soggetto più alto di 190 cm è inferiore a 0,3%. 13 Esercizio 2 Qual è la probabilità di incontrare un individuo estratto dalla popolazione dell’esercizio 1 con un’altezza compresa tra cm 165 e175? Z1= (165 – 172,5) / 6,25 = -1,2 Z2= (175 – 172,5) / 6,25 = 0,4 P(Z1) = 0,115 P(Z2) = 0,345 P(165 ≤ X ≤ 175) = = P(-1,2 ≤ Z ≤ 0,4) = = 1- [0,115 + 0,345] = 0,54 14 Esercizio 3 Qual è quel valore di altezza che delimita il 5% superiore della distribuzione? P = 0,05 z = 1,645 z = (x-172,5)/6,25 = 1,645 ↓ x = 172,5 + 6,25∙1,645 = 182,78 Circa il 5% della popolazione in studio ha un’altezza superiore di 182,78 cm. 15