Elaborazione Statistica dei Dati Sperimentali
Facoltà di Scienze MM FF e NN, Università Sannio
Le distribuzioni di
probabilità continue
Giovanni Filatrella ([email protected])
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
1
Distribuzioni continue
Supponiamo di far
ruotare un ago dando
una spinta iniziale tale
che farà molti giri
prima che l’attrito lo
fermerà. Qual è la
probabilità che si
fermi ad un angolo x?
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
2
Distribuzioni di probabilità per
variabili continue
Definiamo una variabile casuale x una variabile che
può assumere diversi valori, per semplicità in un
intervallo:
x: xMinx  xMax
Ognuno di questi valori con probabilità f(x).
Una variabile casuale si dice continua perché i valori
che può assumere, cioè le x, non sono numerabili,
cioè non si possono mettere in corrispondenza
biunivoca con un insieme di indici interi, ma solo
con un sottoinsieme dei numeri reali.
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
3
Attenzione a non confondere i
seguenti 4 concetti:
1. x è il simbolo che denota la variabile casuale
2. x denota anche i valori che la variabile può
assumere
3. La f(x) è la densità di probabilità, non la
probabilità.
4. La probabilità che la variabile casuale assuma un
valore all’interno di un intervallo è data dalla
densità di probabilità tramite la formula:
P( x A  x  x B ) 
xB
 f ( x)dx
xA
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
4
Supponendo di
misurare una
variabile continua
per passi discreti,
si può solo
definire
l’appartenenza di
un individuo ad
una classe. La
distribuzione è
approssimata con
un istogramma.
L’ampiezza delle classi
è Dx
La probabilità
corrispondente ai
valori discreti xi è
l’area del
rettangolo f(x)Dx.
Variabili continue:
limite del caso discreto
f(x)
xi
Dx
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
5
x
Richiamo del significato di
integrale
f(x)
L’integrale è
l’area sottesa
dalla funzione
f(x)
xMIN
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
xMAX
x
6
Uso dell’integrale nelle
distribuzioni continue
f(x)
L’integrale è la
probabilità che
la variabile
casuale assuma
un valore in un
intervallo e
dipende dalla
densità di
probabilità f(x)
x1
x2
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
7
x
Domande
D1: Quanto vale l’area in giallo sotto la curva
nella figura precedente?
D2: Se si chiedesse la probabilità che una
variabile continua assuma un valore
specifico quanto vale?
D3: Qual è il legame con gli istogrammi
D4: Per la variabile casuale della roulette (la
trasparenza 2) com’è fatto il grafico della
densità di probabilità?
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
8
Esercizio
•
Come si interpreta il picco nella figura
precedente?
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
9
La distribuzione uniforme nel
caso continuo
1/(2p)
La densità di
probabilità è
identica per
tutto
l’intervallo
L’altezza si trova
dalla
condizione che
la probabilità
totale sia 1
0
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
2p
10
x
Valore aspettato per variabili
continue
Variabili
continue
  E[ x] 
xmax
 xf ( x)dx
xMin
prob
di avere
x
Somma
Variabili
discrete
imax
  E[ x]   xi pi
i 1
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
11
Varianza per variabili continue
Variabili
continue
 2  Var[ x] 
2
(
x


)
f ( x)dx

xMin
Somma
Variabili
discrete
xmax
Scarto
quadratico
probabili
tà
di x
imax
 2  Var[ x]   ( xi   ) 2 pi
i 1
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
12
1. L’integrale è
approssimato
con un
istogramma.
2. L’ampiezza
delle classi è
Dx (per Dx  0
si ottiene
proprio
l’integrale).
3. La probabilità
corrispondente
ai valori
discreti xi è
l’area del
rettangolo
f(x)dx.
Confronto del caso
continuo e discreto
f(x)
xi
Dx
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
13
x
Esercizi
•
*In base a questa corrispondenza
trovare le formule per il valore aspettato e
la varianza nel caso discreto a partire da
quelle del caso continuo.
•
**Trovare il valore aspettato della
variabile casuale con distribuzione
uniforme.
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
14
Carl Friedrick Gauss
(1777 - 1855)
Gentile concessione della Deutsche Bundesbank
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
15
Distribuzione di Gauss-Laplace
o “Normale”
La distribuzione di
Gauss ha due
parametri,  e , che
la descrivono
completamente:
f ( x) 
1
 2p
2
e
( x )2

2 2
Caso =0
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
16
Altri casi di gaussiane con
diversi valori aspettati
3
1
1
Caso =1
+3
+5
0
+2
+4
+6
+8
Caso =4
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
17
Distribuzione normale:
interpretazione grafica dei
parametri
 è il valore in
corrispondenza
del massimo
 +  è un flesso
 -  è un flesso
L’area fra  e
+ è 0.68
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
0.68

2
18
Distribuzione normale:
significato dei parametri
I parametri che appaiono nella formula della
distribuzione gaussiana non a caso coincidono con
i simboli di valore aspettato e varianza:
+
  E[ x]   x

1
 2p
2
+
  Var[ x]   ( x   )
2

2
e
( x )2

2 2
1
 2p
2
e
dx
( x )2

2 2
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
dx
19
Quadro riassuntivo delle
proprietà della gaussiana f(x):
1. Normalizzazione: f(x) dx = 1
2. Simmetria attorno al valore aspettato:
f(x-)=f( -x)
3. Ha un massimo per x=
4. Ha un flesso per x+ e x
5. Il valore aspettato è: E[x]=
6. La varianza è: Var[x]=2
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
20
Calcolo delle probabilità
distribuite gaussianamente
Se una variabile ha distribuzione gaussiana è
completamente individuata dai parametri 
e .
Supponiamo di avere 2 e 2.5, e che ci si
chieda la probabilità che 1 x  5. Come si
può procedere?
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
21
Soluzione
5
Risolvendo l’integrale: P(1  x  5)  
1
1
2.5  2p
2

e
( x 2) 2
2 2.5 2
Che equivale a trovare l’area:
8
3
2
7
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
12
22
dx
Calcolo della soluzione
Purtroppo l’integrale non è calcolabile
esplicitamente, cioè non esiste una
funzione semplice che permetta di
valutarlo.
Esistono delle tavole che riportano alcuni
valori di quest’integrale per 0 e  1.
Da questi valori si possono i corrispondenti
valori per  e  arbitrari.
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
23
  P(  t  z ) 
z


1
2p
e
t2

2
Tavola
dell’integrale
gaussiano
dt
C. Cametti, A. Di Biasio:
“Introduzione
all’elaborazione dei dati
sperimentali” ,
Tabella I, p. 327
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
24
Nomenclatura
La z si chiama “variabile standardizzata”.
Essa rappresenta il caso particolare di
variabile gaussiana di media nulla e
deviazione standard unitaria.
Per trasformare una qualsiasi variabile
gaussiana in quella standardizzata occorre
dunque cambiare la variabile in modo che
diventi a) a valore aspettato nullo b) a
varianza unitaria.
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
25
Il cambiamento di variabile:
1) spostare il valore medio
Per trovare questo cambiamento dobbiamo
dunque avere:
Ex trasformat a   0  x  x  
0

G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
x
26
Il cambiamento di variabile:
2) cambiare la larghezza
Per trovare questo cambiamento dobbiamo
dunque avere:
Var x trasformat a   1  x  x / 

1
0
+1 +
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
x
27
Sommario della procedura:
1.
Conoscere valore aspettato e deviazione
standard della variabile originaria x
2. Conoscere i limiti x1 e x2 entro i quali si vuole
trovare la probabilità che la variabile casuale
sia compresa.
3. Trasformare questi limiti nei limiti z1 e z2 della
variabile standardizzata (z):
x 
z

4. Trovare la probabilità che la variabile
standardizzata sia compresa fra questi limiti.
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
28
Esempio di calcolo di probabilità
con una variabile gaussiana
Supponiamo di avere 2 e 2.5, e che ci si
chieda la probabilità che 1 x  5.
In formule:
5
P(1  x  5)  
1
1
2.5 2p
e

x  2 2

2 2.5 2
dx
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
29
Applicazione del calcolo ad un
caso specifico:
1.
Valore aspettato e deviazione standard della
variabile originaria x: E[x]=2 Var[x]=2.5
2. I limiti x1 e x2 entro i quali si vuole trovare la
probabilità che la variabile casuale sia
compresa: x1=1 e x2 =5
3. I limiti z1 e z2 della variabile standardizzata (z):
x1   1  2
z1 

 0.4

2.5
x2   5  2
z2 

 1.2

2.5
4. La probabilità che la variabile standardizzata
sia compresa fra questi limiti:
0.885-0.656+0.5=0.729
30
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
Tavole della gaussiana
standardizzata
Tavole come quella allegata non sono tavole per
integrali con intervalli arbitrari. In particolare
nella tabella si è riportata :
  P(  t  z ) 
z


1
2p
e
t2

2
dt
che è la probabilità da - a z (distribuzione
cumulativa di probabilità). Come è stata calcolata
la probabilità per un intervallo arbitrario?
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
31
Costruzione per ottenere l’area
per differenza
La probabilità che z sia compreso fra z1 e
z2 si può trovare dalla probabilità che sia minore di
z1 e minore di z2:
z1 z2
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
x
32
Un’estensione delle tavola
Come si trovano le probabilità
corrispondenti a valori negativi della
variabile?
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
33
Un caso particolarmente
importante
Supponiamo di chiederci quale sia la
probabilità che la variabile standardizzata
sia compresa fra –1 e +1. Consultando la
tavola si trova:
1
P(1  t  1) 

1
1
2p
e
t2

2
dt  0.68
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
34
Proprietà delle gaussiane
Si può tradurre il risultato precedente in un fatto
generale:
“per qualsiasi distribuzione gaussiana la probabilità
di trovare un valore della variabile fra
 ed + è il 68%”
Osservazioni:
1) Questa proprietà è tipica solo delle gaussiane,
non di altre distribuzioni;
2) E’ un metodo per trovare  dal grafico.
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
35
Applicazione di questa
proprietà
Il risultato precedente si può rappresentare
matematicamente come:
P(     x   +  ) 
 +

 

1
2p

x   2

e
2 2
dx  0.68  , 
ed analogamente si può dimostrare che:

x   2


P(   2  x   + 2 )  
e 2 dx  0.9546 

  2  2p
  , 

x   2
 + 3

1

2 2
P(   3  x   + 3 )  
e
dx  0.9974 
 3  2p
 36
 + 2
1
2
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
Esempio per 14 e  3
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
37
Domande
•
Qual è la probabilità di trovare la
variabile casuale fra  ed + per una
distribuzione uniforme?
•
Da un grafico di una gaussiana di cui non si
conosce la deviazione standard, come la si
potrebbe determinare?
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
38