Elaborazione Statistica dei Dati Sperimentali Facoltà di Scienze MM FF e NN, Università Sannio Le distribuzioni di probabilità continue Giovanni Filatrella ([email protected]) G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 1 Distribuzioni continue Supponiamo di far ruotare un ago dando una spinta iniziale tale che farà molti giri prima che l’attrito lo fermerà. Qual è la probabilità che si fermi ad un angolo x? G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 2 Distribuzioni di probabilità per variabili continue Definiamo una variabile casuale x una variabile che può assumere diversi valori, per semplicità in un intervallo: x: xMinx xMax Ognuno di questi valori con probabilità f(x). Una variabile casuale si dice continua perché i valori che può assumere, cioè le x, non sono numerabili, cioè non si possono mettere in corrispondenza biunivoca con un insieme di indici interi, ma solo con un sottoinsieme dei numeri reali. G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 3 Attenzione a non confondere i seguenti 4 concetti: 1. x è il simbolo che denota la variabile casuale 2. x denota anche i valori che la variabile può assumere 3. La f(x) è la densità di probabilità, non la probabilità. 4. La probabilità che la variabile casuale assuma un valore all’interno di un intervallo è data dalla densità di probabilità tramite la formula: P( x A x x B ) xB f ( x)dx xA G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 4 Supponendo di misurare una variabile continua per passi discreti, si può solo definire l’appartenenza di un individuo ad una classe. La distribuzione è approssimata con un istogramma. L’ampiezza delle classi è Dx La probabilità corrispondente ai valori discreti xi è l’area del rettangolo f(x)Dx. Variabili continue: limite del caso discreto f(x) xi Dx G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 5 x Richiamo del significato di integrale f(x) L’integrale è l’area sottesa dalla funzione f(x) xMIN G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali xMAX x 6 Uso dell’integrale nelle distribuzioni continue f(x) L’integrale è la probabilità che la variabile casuale assuma un valore in un intervallo e dipende dalla densità di probabilità f(x) x1 x2 G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 7 x Domande D1: Quanto vale l’area in giallo sotto la curva nella figura precedente? D2: Se si chiedesse la probabilità che una variabile continua assuma un valore specifico quanto vale? D3: Qual è il legame con gli istogrammi D4: Per la variabile casuale della roulette (la trasparenza 2) com’è fatto il grafico della densità di probabilità? G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 8 Esercizio • Come si interpreta il picco nella figura precedente? G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 9 La distribuzione uniforme nel caso continuo 1/(2p) La densità di probabilità è identica per tutto l’intervallo L’altezza si trova dalla condizione che la probabilità totale sia 1 0 G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 2p 10 x Valore aspettato per variabili continue Variabili continue E[ x] xmax xf ( x)dx xMin prob di avere x Somma Variabili discrete imax E[ x] xi pi i 1 G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 11 Varianza per variabili continue Variabili continue 2 Var[ x] 2 ( x ) f ( x)dx xMin Somma Variabili discrete xmax Scarto quadratico probabili tà di x imax 2 Var[ x] ( xi ) 2 pi i 1 G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 12 1. L’integrale è approssimato con un istogramma. 2. L’ampiezza delle classi è Dx (per Dx 0 si ottiene proprio l’integrale). 3. La probabilità corrispondente ai valori discreti xi è l’area del rettangolo f(x)dx. Confronto del caso continuo e discreto f(x) xi Dx G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 13 x Esercizi • *In base a questa corrispondenza trovare le formule per il valore aspettato e la varianza nel caso discreto a partire da quelle del caso continuo. • **Trovare il valore aspettato della variabile casuale con distribuzione uniforme. G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 14 Carl Friedrick Gauss (1777 - 1855) Gentile concessione della Deutsche Bundesbank G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 15 Distribuzione di Gauss-Laplace o “Normale” La distribuzione di Gauss ha due parametri, e , che la descrivono completamente: f ( x) 1 2p 2 e ( x )2 2 2 Caso =0 G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 16 Altri casi di gaussiane con diversi valori aspettati 3 1 1 Caso =1 +3 +5 0 +2 +4 +6 +8 Caso =4 G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 17 Distribuzione normale: interpretazione grafica dei parametri è il valore in corrispondenza del massimo + è un flesso - è un flesso L’area fra e + è 0.68 G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 0.68 2 18 Distribuzione normale: significato dei parametri I parametri che appaiono nella formula della distribuzione gaussiana non a caso coincidono con i simboli di valore aspettato e varianza: + E[ x] x 1 2p 2 + Var[ x] ( x ) 2 2 e ( x )2 2 2 1 2p 2 e dx ( x )2 2 2 G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali dx 19 Quadro riassuntivo delle proprietà della gaussiana f(x): 1. Normalizzazione: f(x) dx = 1 2. Simmetria attorno al valore aspettato: f(x-)=f( -x) 3. Ha un massimo per x= 4. Ha un flesso per x+ e x 5. Il valore aspettato è: E[x]= 6. La varianza è: Var[x]=2 G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 20 Calcolo delle probabilità distribuite gaussianamente Se una variabile ha distribuzione gaussiana è completamente individuata dai parametri e . Supponiamo di avere 2 e 2.5, e che ci si chieda la probabilità che 1 x 5. Come si può procedere? G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 21 Soluzione 5 Risolvendo l’integrale: P(1 x 5) 1 1 2.5 2p 2 e ( x 2) 2 2 2.5 2 Che equivale a trovare l’area: 8 3 2 7 G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 12 22 dx Calcolo della soluzione Purtroppo l’integrale non è calcolabile esplicitamente, cioè non esiste una funzione semplice che permetta di valutarlo. Esistono delle tavole che riportano alcuni valori di quest’integrale per 0 e 1. Da questi valori si possono i corrispondenti valori per e arbitrari. G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 23 P( t z ) z 1 2p e t2 2 Tavola dell’integrale gaussiano dt C. Cametti, A. Di Biasio: “Introduzione all’elaborazione dei dati sperimentali” , Tabella I, p. 327 G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 24 Nomenclatura La z si chiama “variabile standardizzata”. Essa rappresenta il caso particolare di variabile gaussiana di media nulla e deviazione standard unitaria. Per trasformare una qualsiasi variabile gaussiana in quella standardizzata occorre dunque cambiare la variabile in modo che diventi a) a valore aspettato nullo b) a varianza unitaria. G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 25 Il cambiamento di variabile: 1) spostare il valore medio Per trovare questo cambiamento dobbiamo dunque avere: Ex trasformat a 0 x x 0 G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali x 26 Il cambiamento di variabile: 2) cambiare la larghezza Per trovare questo cambiamento dobbiamo dunque avere: Var x trasformat a 1 x x / 1 0 +1 + G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali x 27 Sommario della procedura: 1. Conoscere valore aspettato e deviazione standard della variabile originaria x 2. Conoscere i limiti x1 e x2 entro i quali si vuole trovare la probabilità che la variabile casuale sia compresa. 3. Trasformare questi limiti nei limiti z1 e z2 della variabile standardizzata (z): x z 4. Trovare la probabilità che la variabile standardizzata sia compresa fra questi limiti. G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 28 Esempio di calcolo di probabilità con una variabile gaussiana Supponiamo di avere 2 e 2.5, e che ci si chieda la probabilità che 1 x 5. In formule: 5 P(1 x 5) 1 1 2.5 2p e x 2 2 2 2.5 2 dx G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 29 Applicazione del calcolo ad un caso specifico: 1. Valore aspettato e deviazione standard della variabile originaria x: E[x]=2 Var[x]=2.5 2. I limiti x1 e x2 entro i quali si vuole trovare la probabilità che la variabile casuale sia compresa: x1=1 e x2 =5 3. I limiti z1 e z2 della variabile standardizzata (z): x1 1 2 z1 0.4 2.5 x2 5 2 z2 1.2 2.5 4. La probabilità che la variabile standardizzata sia compresa fra questi limiti: 0.885-0.656+0.5=0.729 30 G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali Tavole della gaussiana standardizzata Tavole come quella allegata non sono tavole per integrali con intervalli arbitrari. In particolare nella tabella si è riportata : P( t z ) z 1 2p e t2 2 dt che è la probabilità da - a z (distribuzione cumulativa di probabilità). Come è stata calcolata la probabilità per un intervallo arbitrario? G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 31 Costruzione per ottenere l’area per differenza La probabilità che z sia compreso fra z1 e z2 si può trovare dalla probabilità che sia minore di z1 e minore di z2: z1 z2 G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali x 32 Un’estensione delle tavola Come si trovano le probabilità corrispondenti a valori negativi della variabile? G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 33 Un caso particolarmente importante Supponiamo di chiederci quale sia la probabilità che la variabile standardizzata sia compresa fra –1 e +1. Consultando la tavola si trova: 1 P(1 t 1) 1 1 2p e t2 2 dt 0.68 G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 34 Proprietà delle gaussiane Si può tradurre il risultato precedente in un fatto generale: “per qualsiasi distribuzione gaussiana la probabilità di trovare un valore della variabile fra ed + è il 68%” Osservazioni: 1) Questa proprietà è tipica solo delle gaussiane, non di altre distribuzioni; 2) E’ un metodo per trovare dal grafico. G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 35 Applicazione di questa proprietà Il risultato precedente si può rappresentare matematicamente come: P( x + ) + 1 2p x 2 e 2 2 dx 0.68 , ed analogamente si può dimostrare che: x 2 P( 2 x + 2 ) e 2 dx 0.9546 2 2p , x 2 + 3 1 2 2 P( 3 x + 3 ) e dx 0.9974 3 2p 36 + 2 1 2 G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali Esempio per 14 e 3 G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 37 Domande • Qual è la probabilità di trovare la variabile casuale fra ed + per una distribuzione uniforme? • Da un grafico di una gaussiana di cui non si conosce la deviazione standard, come la si potrebbe determinare? G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 38