IUT Nice – Côte d’Azur Département STID Sondages Corso di campionamento Parametri d’interesse 6 Janvier 2006 Nomenclatura Indicheremo con U una popolazione, con N la sua numerosità, con k la sua etichetta e con lettere maiuscole i valori di interesse (Yk) Se Y è un carattere quantitativo sono di interesse il totale, la media aritmetica e la varianza Se Y è qualitativo interessano le proporzioni degli elementi suddivise per ogni modalità Indicheremo con c un campione, con n la sua numerosità, con i la sua etichetta, con Yi* la variabile aleatoria continua associata e con le lettere maiuscole le realizzazioni campionarie (yi) Stimatori La struttura di un generico stimatore lineare è una funzione delle variabile aleatoria continua * ˆ a i Yi * ic dove ai rappresenta un coefficiente o un peso Le proprietà più importanti di uno stimatore che permettono di valutarne la qualità sono: Correttezza: valore atteso di * è uguale a Consistenza: limite n p(n*) converge a Efficienza: l’errore quadratico medio di *, ossia E(* - )2, tende alla varianza di * Disposizioni con ripetizione Consideriamo un campione di ampiezza n=2 di una popolazione U={1, 2, 3, 4} con quindi N=4 I campioni sono “ordinati” Gli elementi dell’insieme sono: (1,1) (1,2) (1,3) (1,4) (2,1) (2,2) (2,3) (2,4) (3,1) (3,2) (3,3) (3,4) (4,1) (4,2) (4,3) (4,4) è formato da 16 punti campione: Nⁿ = 2n = 16 Notare che (1,1), (2,2), (3,3), (4,4) derivano dall’aver “pescato” due volte lo stesso elemento Disposizioni senza ripetizione Consideriamo un campione di ampiezza n=2 di una popolazione U={1, 2, 3, 4} con quindi N=4 I campioni sono sempre “ordinati” Gli elementi dell’insieme sono: (1,1) (1,2) (1,3) (1,4) (2,1) (2,2) (2,3) (2,4) (3,1) (3,2) (3,3) (3,4) (4,1) (4,2) (4,3) (4,4) è formato adesso da 12 punti campione, cioè (N)n = N (N-1) (N-2) ….. (N-n+1) = 4 · 3 = 12 Notare che l’elemento (i, j) è distinto da (j, i) Combinazioni con ripetizione Consideriamo un campione di ampiezza n=2 di una popolazione U={1, 2, 3, 4} con quindi N=4 I campioni non tengono conto dell’ordine Gli elementi dell’insieme sono: (1,1) (1,2) (1,3) (1,4) (2,2) (2,3) (2,4) (3,3) (3,4) (4,4) è formato da 10 punti campione: N n 1 4 2 1 5 5 4 3 2 1 20 10 n 2 2 (2 1) (3 2 1) 2 Combinazioni senza ripetizione Consideriamo un campione di ampiezza n=2 di una popolazione U={1, 2, 3, 4} con quindi N=4 I campioni non tengono conto dell’ordine e non possono essere ripetuti Gli elementi dell’insieme sono: (1,2) (1,3) (1,4) (2,3) (2,4) (3,4) è formato da 6 punti campione: N 4 4 3 2 1 12 6 n 2 2 1 2 1 2 Esempio 1 Consideriamo una popolazione X={1, 2, 3, 4, 5} in cui ogni elemento ha probabilità 0.2 e una popolazione Y={1, 2, 3, 4, 5} con elementi aventi probabilità p(Y) = (0.4, 0.2, 0.2, 0.1, 0.1) Valori della popolazione Media e varianza della popolazione X è: E(X) = X = k=1…N xk p(xk) = 3 Var(X) = X2 = k=1…N (xk – E(X))2 / N = 2 Media e varianza della popolazione Y è: E(Y) = Y = k=1…N xk p(yk) = 2.3 Var(Y) = Y2 = k=1…N (yk – E(Y))2 / N = 1.81 Il problema è quello di stimare i parametri e della popolazione usando i dati del campione Campioni di numerosità 2 Alcuni casi Caso (2, 1) p(X) = 0.2 · 0.2 = 0.04 p(Y) = 0.4 · 0.2 = 0.08 media stimata = (2 + 1) / 2 = 1.5 varianza stimata = [(2-1.5)2 + (1-1.5)2] / 2 = 0.25 Caso (4, 3) p(X) = 0.2 · 0.2 = 0.04 p(Y) = 0.1 · 0.2 = 0.02 media stimata = (4 + 3) / 2 = 3.5 varianza stimata = [(4-3.5)2 + (3-3.5)2] / 2 = 0.25 Distribuzioni parametri x 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 p(x) 0.04 0.08 0.12 0.16 0.20 0.16 0.12 0.08 0.04 y 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 p(y) 0.16 0.16 0.20 0.16 0.16 0.08 0.05 0.02 0.01 var(x) p(var(x)) 0 0.20 0.25 0.32 1 0.24 2.25 0.16 4 0.08 var(y) 0 0.25 1 2.25 4 p(var(y)) 0.26 0.30 0.24 0.12 0.08 Conclusioni Considerando le variabili aleatorie X e Y E(X ) = 3 = µX E(Y ) = 2.3 = µY E(var(X))= i=1,N var(xi) p(var(xi)) = 1 (0 · 0.20 + 0.25 · 0.32 + 1 · 0.24 + 2.25 · 0.16 + 4 · 0.08) E(var(Y))= i=1,N var(yi) p(var(yi)) = 0.905 (0 · 0.26 + 0.25 · 0.30 + 1 · 0.24 + 2.25 · 0.12 + 4 · 0.08) La varianza della distribuzione delle medie ha valore quello della varianza della popolazione divisa per la numerosità del campione Valore medio della media In generale X rappresenta una caratteristica della popolazione con E(X)=µ sconosciuta e var(X) = 2 sconosciuta Se x1, x2, …, xn è un campione estratto da X si considerano X1, X2, …, Xn variabili aleatorie con la stessa legge (uguale media e varianza) di X La media del valore di X risulta E(X) = E((X1 + X2 + …. + Xn) / n) = = [E(X1) + E(X2) + …. + E(Xn)] / n = = ( + + …. + ) / n = = n / n = Varianza della media var(X) = var((X1 + X2 + …. + Xn) / n) = = [var(X1) + var(X2) + …. + var(Xn)] / n2 = = (2 + 2 + …. + 2) / n2 = = n2 / n2 = / n In conclusione la distribuzione delle medie ha la medesima media della distribuzione della popolazione ma dispersione minore (2/n) Questa quantità è chiamata errore standard della media (mean standard error, MSE) e viene indicata con x = / n Stima Uno degli scopi della statistica inferenziale è quello di ottenere informazioni circa i parametri di una popolazione (considerati fissi) a partire da valori determinati in base al campione I valori del campione possono essere considerati come i valori assunti da variabili aleatorie che hanno la stessa legge della popolazione dalla quale provengono Si cercano indicazioni il più possibile precise sui parametri ignoti di una popolazione (media e varianza) attraverso i valori campionari (processo di stima) Stimatore Siano X1, X2, ...., Xn n variabili aleatorie indipendenti con la legge uguale a X siano x1, x2, ...., xn i valori assunti dalle n variabili aleatorie nella realizzazione dello studio La stima dei parametri di una popolazione si effettua attraverso uno stimatore che fornisce un valore approssimato del parametro lo stimatore è una funzione T(X1, X2, ...., Xn) del campione la stima è il risultato dello studio: t(x1, x2, ...., xn) Processo di stima Lo stimatore T è quindi una regola che si utilizza per determinare il possibile valore del parametro incognito (media, varianza) Quando la regola è stata stabilita saranno i valori del campione a determinare la stima t del parametro. Se una caratteristica X (variabile aleatoria) della popolazione ha legge f(x) significa che ciascun elemento del campione X1, X2, ...., Xn è a sua volta una variabile aleatoria di legge f(x) ed è quindi possibile determinare f(x1), f(x2), ...., f(xn) Determinare la “norma” Risulta sempre nota la legge di X ma non sono noti (incognite) uno o più parametri della sua distribuzione Ad esempio: X ha legge Binomiale [X~B(n,p)]: p è sconosciuto X ha legge di Poisson [X~P(k)]: k è sconosciuto X ha legge di Gaussiana [X~N(µ,)]: µ e/o sono sconosciuti