Elaborazione Statistica dei Dati Sperimentali
Facoltà di Scienze MM FF e NN, Università Sannio
Il Teorema del Limite
Centrale
Giovanni Filatrella ([email protected])
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
1
Somma di variabili casuali
La somma di
variabili casuali
uniformemente
distribuite
tende ad essere
fortemente
piccata:
+
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
+
+…
2
Somma di variabili casuali
normali:
La somma di
variabili casuali
normali sembra
non cambiare
forma
funzionale:
+
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
+
+…
3
Teorema del limite centrale
(Gauss)
Date n variabili casuali X1,X2,…,Xn, ognuna con
valore aspettato m1, m2,…,mn, e varianza s21,
s22,…,s2n, se i valori aspettati e le varianze sono
finite, la somma delle variabili casuali
X=Si Xi
tende ad essere Gaussiana per N , qualunque
sia la distribuzione delle Xi, con valore medio:
E[X]=Si E[ Xi]
e varianza
Var[X]=Si Var[ Xi]
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
4
Alcune importanti precisazioni
sul teorema del limite centrale
1. Il teorema è vero nel limite di infinite variabili,
quindi si può applicare anche alle distribuzioni
discrete;
2. Per distribuzioni gaussiane la somma di
variabili gaussiane è esattamente gaussiana,
con valore aspettato la somma dei valori
aspettati e varianza la somma delle varianze;
3. Il teorema non dice (in questa forma) quale sia
la “velocità” della convergenza, cioè per quale
valore finito del numero di variabili si ottiene
l’approssimazione gaussiana entro una
5
tolleranza predeterminata.
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
Limite gaussiano della
distribuzione binomiale
La distribuzione normale può essere concepita
come il limite a cui tende la distribuzione
binomiale per un valore fisso di p e N  .
Bisogna però stare attenti a come trasformare una
variabile discreta in una variabile continua
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
6
Gaussiana e Binomiale
Formula corretta di
trasformazione
Mera sostituzione dei
valori
0.4
0.35
0.4
0.3
0.35
0.3
0.25
0.2
f(x)
f(x)
0.25
0.15
0.2
0.15
0.1
0.1
0.05
0.05
0
-10
-5
0
5
X
10
15
20
0
-10
-5
0
5
X
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
10
15
20
7
Formula per l’approssimazione di
una distribuzione binomiale in una
distribuzione gaussiana:
Si può immaginare che la somma Sn di n variabili
gaussiane sia approssimabile ad una funzione
gaussiana per il teorema del limite centrale,
quindi:
 a e b, - < a < b< +,


S

np
1
n
lim P a 
 b 

n  
np
(
1

p
)
2


G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali

b
a
e
z2 / 2
dx
8
La distribuzione di Gauss si
applica a molti sistemi
Esempio: il numero di
galassie in un determinato
volume dell’universo. Se si
considerano zone
sufficientemente ampie
dell’universo, ogni volume
contiene un numero di
galassie che è distribuito
gaussianamente attorno
ad un valore medio.
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
9
La distribuzione gaussiana e la
genetica
Se si misura l’altezza degli
individui di un determinato
sesso si trova che
l’istogramma è ben
approssimato da una curva
gaussiana:
Distribuzione (in pollici) delle altezze di
9593 donne di età fra i 21 ed i 75 anni
Data come from the Health and Nutrition
Examination Survey I (HANES I). On
U.S. civilian population between 1971 and 1974.
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
10
Il dilemma di Galton
Domanda: Come mai succede?
Francis Galton, medico e scienziato inglese (18221911) che studiò sperimentalmente la questione
della distribuzione delle altezze, si chiedeva:
“se da un lato la distribuzione normale deve essere
causata dalla somma di molte e piccole variabili
indipendenti, dall’altro sappiamo che i fattori
ereditari sembrano essere determinanti
nell’altezza di un individuo, e questi sono solo due,
come può essere che si osserva un andamento
gaussiano?”
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
11
Il dilemma “risolto”
Se assumessimo che l’altezza degli individui sia controllato
in larga misura da un solo gene, l’obiezione di Galton
sarebbe corretta. Infatti se assumessimo che uno
specifico gene controllasse l’altezza degli esseri umani,
poiché ogni genitore contribuisce con un allele, avremmo
solo quattro possibili risultati. La moderna formulazione
è che molti geni contribuiscono alla determinazione di un
carattere quale l’altezza. Questi geni possono causare
effetti la cui ampiezza è diversa. Così se
rappresentiamo ogni gene con una variabile casuale Xi,
che può assumere 4 valori, l’altezza sarà la somma di
tutte queste variabili casuali:
H = X1 + X2 + …+ XN
e H sarà quindi distribuita gaussianamente
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
12
Legame fra
statistica e probabilità
Statistics: Given the
Probability: Given the
information in your
information in the box,
hand, what is the box?
what is in your hand?
da: Statistics, Norma Gilbert, W.B. Saunders Co., 1976
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali
13
Scarica

Probabilità: teorema del limite centrale