IUT Nice – Côte d’Azur
Département STID
Sondages
Corso di campionamento
Parametri d’interesse
6 Janvier 2006
Nomenclatura
Indicheremo con U una popolazione, con N la
sua numerosità, con k la sua etichetta e con
lettere maiuscole i valori di interesse (Yk)
Se Y è un carattere quantitativo sono di interesse
il totale, la media aritmetica e la varianza
Se Y è qualitativo interessano le proporzioni degli
elementi suddivise per ogni modalità
Indicheremo con c un campione, con n la sua
numerosità, con i la sua etichetta, con Yi* la
variabile aleatoria continua associata e con le
lettere maiuscole le realizzazioni campionarie (yi)
Stimatori
La struttura di un generico stimatore lineare è
una funzione delle variabile aleatoria continua
*
ˆ
   a i Yi
*
ic
dove ai rappresenta un coefficiente o un peso
Le proprietà più importanti di uno stimatore
che permettono di valutarne la qualità sono:
 Correttezza: valore atteso di * è uguale a 
 Consistenza: limite n p(n*) converge a 
 Efficienza: l’errore quadratico medio di *,
ossia E(* - )2, tende alla varianza di *
Disposizioni con ripetizione
Consideriamo un campione di ampiezza n=2 di
una popolazione U={1, 2, 3, 4} con quindi N=4
I campioni sono “ordinati”
Gli elementi dell’insieme  sono:
(1,1) (1,2) (1,3) (1,4) (2,1) (2,2) (2,3) (2,4) (3,1)
(3,2) (3,3) (3,4) (4,1) (4,2) (4,3) (4,4)
 è formato da 16 punti campione: Nⁿ = 2n = 16
Notare che (1,1), (2,2), (3,3), (4,4) derivano
dall’aver “pescato” due volte lo stesso elemento
Disposizioni senza ripetizione
Consideriamo un campione di ampiezza n=2 di
una popolazione U={1, 2, 3, 4} con quindi N=4
I campioni sono sempre “ordinati”
Gli elementi dell’insieme  sono:
(1,1) (1,2) (1,3) (1,4) (2,1) (2,2) (2,3) (2,4) (3,1)
(3,2) (3,3) (3,4) (4,1) (4,2) (4,3) (4,4)
 è formato adesso da 12 punti campione, cioè
(N)n = N (N-1) (N-2) ….. (N-n+1) = 4 · 3 = 12
Notare che l’elemento (i, j) è distinto da (j, i)
Combinazioni con ripetizione
Consideriamo un campione di ampiezza n=2 di
una popolazione U={1, 2, 3, 4} con quindi N=4
I campioni non tengono conto dell’ordine
Gli elementi dell’insieme  sono:
(1,1) (1,2) (1,3) (1,4) (2,2) (2,3) (2,4) (3,3) (3,4) (4,4)
 è formato da 10 punti campione:
 N  n  1  4  2  1  5 
5  4  3  2 1
20

  
    

 10
n

  2   2  (2  1)  (3  2  1) 2
Combinazioni senza ripetizione
Consideriamo un campione di ampiezza n=2 di
una popolazione U={1, 2, 3, 4} con quindi N=4
I campioni non tengono conto dell’ordine e non
possono essere ripetuti
Gli elementi dell’insieme  sono:
(1,2) (1,3) (1,4) (2,3) (2,4) (3,4)
 è formato da 6 punti campione:
 N   4  4  3  2 1 12
     

6
 n   2  2 1  2 1 2
Esempio 1
Consideriamo una
popolazione
X={1, 2, 3, 4, 5} in cui
ogni elemento ha
probabilità 0.2
e una popolazione
Y={1, 2, 3, 4, 5} con
elementi aventi
probabilità p(Y) =
(0.4, 0.2, 0.2, 0.1, 0.1)
Valori della popolazione
Media e varianza della popolazione X è:
E(X) = X = k=1…N xk p(xk) = 3
Var(X) = X2 = k=1…N (xk – E(X))2 / N = 2
Media e varianza della popolazione Y è:
E(Y) = Y = k=1…N xk p(yk) = 2.3
Var(Y) = Y2 = k=1…N (yk – E(Y))2 / N = 1.81
Il problema è quello di stimare i parametri  e 
della popolazione usando i dati del campione
Campioni di numerosità 2
Alcuni casi
Caso (2, 1)
p(X) = 0.2 · 0.2 = 0.04
p(Y) = 0.4 · 0.2 = 0.08
media stimata = (2 + 1) / 2 = 1.5
varianza stimata = [(2-1.5)2 + (1-1.5)2] / 2 = 0.25
Caso (4, 3)
p(X) = 0.2 · 0.2 = 0.04
p(Y) = 0.1 · 0.2 = 0.02
media stimata = (4 + 3) / 2 = 3.5
varianza stimata = [(4-3.5)2 + (3-3.5)2] / 2 = 0.25
Distribuzioni parametri
x
1.0
1.5
2.0
2.5
3.0
3.5
4.0
4.5
5.0
p(x) 0.04 0.08 0.12 0.16 0.20 0.16 0.12 0.08 0.04
y
1.0
1.5
2.0
2.5
3.0
3.5
4.0
4.5
5.0
p(y) 0.16 0.16 0.20 0.16 0.16 0.08 0.05 0.02 0.01
var(x)
p(var(x))
0
0.20
0.25
0.32
1
0.24
2.25
0.16
4
0.08
var(y)
0
0.25
1
2.25
4
p(var(y))
0.26
0.30
0.24
0.12
0.08
Conclusioni
Considerando le variabili aleatorie X e Y
E(X ) = 3 = µX
E(Y ) = 2.3 = µY
E(var(X))= i=1,N var(xi) p(var(xi)) = 1
(0 · 0.20 + 0.25 · 0.32 + 1 · 0.24 + 2.25 · 0.16 + 4 · 0.08)
E(var(Y))= i=1,N var(yi) p(var(yi)) = 0.905
(0 · 0.26 + 0.25 · 0.30 + 1 · 0.24 + 2.25 · 0.12 + 4 · 0.08)
La varianza della distribuzione delle medie ha
valore quello della varianza della popolazione
divisa per la numerosità del campione
Valore medio della media
In generale X rappresenta una caratteristica
della popolazione con E(X)=µ sconosciuta e
var(X) = 2 sconosciuta
Se x1, x2, …, xn è un campione estratto da X si
considerano X1, X2, …, Xn variabili aleatorie con
la stessa legge (uguale media e varianza) di X
La media del valore di X risulta
E(X) = E((X1 + X2 + …. + Xn) / n) =
= [E(X1) + E(X2) + …. + E(Xn)] / n =
= ( +  + …. + ) / n =
= n / n = 
Varianza della media
var(X) = var((X1 + X2 + …. + Xn) / n) =
= [var(X1) + var(X2) + …. + var(Xn)] / n2 =
= (2 + 2 + …. + 2) / n2 =
= n2 / n2 =  / n
In conclusione la distribuzione delle medie ha la
medesima media della distribuzione della
popolazione ma dispersione minore (2/n)
Questa quantità è chiamata errore standard della
media (mean standard error, MSE) e viene
indicata con x =  / n
Stima
Uno degli scopi della statistica inferenziale è
quello di ottenere informazioni circa i parametri
di una popolazione (considerati fissi) a partire
da valori determinati in base al campione
I valori del campione possono essere considerati
come i valori assunti da variabili aleatorie che
hanno la stessa legge della popolazione dalla
quale provengono
Si cercano indicazioni il più possibile precise sui
parametri ignoti di una popolazione (media e
varianza) attraverso i valori campionari
(processo di stima)
Stimatore
Siano X1, X2, ...., Xn n variabili aleatorie
indipendenti con la legge uguale a X
siano x1, x2, ...., xn i valori assunti dalle n
variabili aleatorie nella realizzazione dello studio
La stima dei parametri di una popolazione si
effettua attraverso uno stimatore che fornisce un
valore approssimato del parametro
lo stimatore è una funzione T(X1, X2, ...., Xn) del
campione
la stima è il risultato dello studio: t(x1, x2, ...., xn)
Processo di stima
Lo stimatore T è quindi una regola che si utilizza
per determinare il possibile valore del parametro
incognito (media, varianza)
Quando la regola è stata stabilita saranno i
valori del campione a determinare la stima t del
parametro.
Se una caratteristica X (variabile aleatoria) della
popolazione ha legge f(x) significa che ciascun
elemento del campione X1, X2, ...., Xn è a sua
volta una variabile aleatoria di legge f(x) ed è
quindi possibile determinare f(x1), f(x2), ...., f(xn)
Determinare la “norma”
Risulta sempre nota la legge di X ma non sono
noti (incognite) uno o più parametri della sua
distribuzione
Ad esempio:
X ha legge Binomiale [X~B(n,p)]: p è sconosciuto
X ha legge di Poisson [X~P(k)]: k è sconosciuto
X ha legge di Gaussiana [X~N(µ,)]: µ e/o  sono
sconosciuti
Scarica

L02_Parametri