Stat 01 - 1 / 48
Lezione 5
Strumenti
statistici:
campioni e
stimatori
Stat 01 - 2 / 48
Nella lezione precedente, parte 1 ...
La definizione
frequentista della
probabilità:
P
nE
E   Nlim
 N
La definizione classica
della probabilità:
P
La definizione
assiomatica della
probabilità
s
E  
n
P E   0
P S   1




P 
i 1
E  A

Ei  


P
i 1
Ei 
Stat 01 - 3 / 48
Nella parte 2 ...
Stat 01 - 4 / 48
Nella parte 2 ...
Pa
guadagno 
Pi
GdBi
 Pa
 10 log 10 
 Pi
X  10
GdBi
10



 1,58
GdBi  2 dBi
X 2
Stat 01 - 5 / 48
Nella parte 3 ...
Le variabili
casuali X
Le funzioni di probabilità della variabile casuale X
La funzione
distribuzione
cumulativa
La funzione
densità
di probabilità
Stat 01 - 6 / 48
Nella parte 3 ...
Le variabili
casuali X
I parametri della distribuzione della variabile casuale X
E X   
X
E X   
  j x j f X x j 

X

 x f X x  dx
var X    X2   j x j   X  f X x j 
2
var X    X2 

 X  var X 

2


x


X


f X x  dx
Stat 01 - 7 / 48
dalla caratteristica comune di una popolazione
al suo modello probabilistico …
una popolazione (distribuita in modo) normale
su1,61m
cui <viene
definita una variabile casuale continua X
h < 1,63m  X = 162

2 può essere modellata mediante una
di probabilità fX ( x ) espressa nella forma:
1,57m < funzione
h < 1,59m  di
X =densità
158
con
1,59m
< h media
< 1,61m  Xe= varianza
160
fX 
2

1
1  x  
x 
exp  
 
2 
 2    
Stat 01 - 8 / 48
dalla caratteristica comune di una popolazione
al suo modello probabilistico …
Stat 01 - 14 / 48
Distribuzione normale
la media  e varianza 2 ( o la sua radice quadrata che viene
indicata come scarto quadratico medio  ) costituiscono i
parametri di forma della distribuzione normale in quanto
l’andamento della densità fX ( x ) viene condizionato dai valori
di tali parametri:
al variare del valore della media  la fX ( x ) trasla indeformata
Stat 01 - 15 / 48
Distribuzione normale
la media  e varianza 2 ( o la sua radice quadrata che viene
indicata come scarto quadratico medio  ) costituiscono i
parametri di forma della distribuzione normale in quanto
l’andamento della densità fX ( x ) viene condizionato dai valori
di tali parametri:
al variare del valore della varianza 2 la fX ( x ) si deforma
Stat 01 - 16 / 48
Dalla distribuzione normale alla
“normale standard”
se X è una variabile casuale con distribuzione normale,
media  e varianza 2 , allora la variabile casuale Z
X 
Z

ha distribuzione normale, con media nulla e varianza unitaria.
La densità della Z è pertanto espressa dalla:
fZ  z  
 z2 
1
exp  
2
 2 
Stat 01 - 17 / 48
Dalla distribuzione normale alla
“normale standard”
se X è una variabile casuale con distribuzione normale,
media  e varianza 2 , allora la variabile casuale Z
X 
Z

ha distribuzione normale, con media nulla e varianza unitaria.
Stat 01 - 18 / 48
Dalla distribuzione normale alla
“normale standard”
• se X è una variabile casuale con media  , varianza 2 ed ha
distribuzione normale
• allora la nuova variabile casuale Z che assume valore
x
z

risulta avere:
x
– media Z = 0,



x
1
Z  
f X x  dx    x f X  x  dx    f X x  dx  

  






 x f x  dx    f x  dx
X


X


Stat 01 - 19 / 48
Dalla distribuzione normale alla
“normale standard”
• se X è una variabile casuale con media  , varianza 2 ed ha
distribuzione normale
• allora la nuova variabile casuale Z che assume valore
risulta avere:
x
z

x
– media Z = 0,

x f X x  dx   
  Z 




f
x
dx

1
 X




 x f x  dx    f x  dx
X

X


0
Stat 01 - 20 / 48
Dalla distribuzione normale alla
“normale standard”
• se X è una variabile casuale con media  , varianza 2 ed ha
distribuzione normale
• allora la nuova variabile casuale Z che assume valore
x
z

risulta avere:
– media Z = 0,
var Z  
varianza var [ Z ] = 1,

 z   
2
z





x

 x

f X x  dx   
 0  f X x  dx 


 
2

x   2
2
f X x  dx 
2


x


f X x  dx


2
Stat 01 - 21 / 48
Dalla distribuzione normale alla
“normale standard”
• se X è una variabile casuale con media  , varianza 2 ed ha
distribuzione normale
• allora la nuova variabile casuale Z che assume valore
x
z

risulta avere:
– media Z = 0,
x
varianza var [ Z ] = 1,

 x    f x  dx  var X   
2
X


 x    f x  dx
2
var Z  
X

2
2



  var Z   1



Stat 01 - 22 / 48
parte 1
Campioni,
campionamento,
stimatori campionari
Stat 01 - 23 / 48
Parte I - sommario
• Prove “a tappeto” ed “a campione”
• Tecniche di campionamento
–
–
–
–
Campionamento “sistematico”
Campionamento “a strati”
Campionamento “con il metodo delle quote”
Campionamento “a grappolo”
• Momenti campionari
• Stimatori
• Caratteristiche degli stimatori
– Correttezza
– Consistenza
– Efficienza
Stat 01 - 24 / 48
Misurazione della caratteristica comune
• Il valore della caratteristica che accomuna gli elementi della
popolazione oggetto può essere determinato con le più diverse
procedure di misurazione: quando le misure non sono tali da
procurare danni agli elementi misurati si può ipotizzare una
prova “a tappeto”.
Stat 01 - 25 / 48
Campione
• Non è sempre possibile
esaminare l’intera popolazione
(per problemi di tempo, per
problemi economici, per problemi
pratici) pertanto uno degli scopi
delle ricerche statistiche è quello
di “inferire”, cioè di fare previsioni
sulla intera popolazione mediante
l’esame di un suo sottoinsieme
che viene chiamato “campione”.
Uno dei pionieri della statistica applicata, William Sealy Gosset
(1876-1937 ) che operava con lo pseudonimo di “Student”,
era responsabile del Laboratorio Prove e Ricerche
presso la birreria Guinness a Dublino, Irlanda.
Stat 01 - 26 / 48
Campionamento
• La scelta del campione è fondamentale per evitare di trarre delle
conclusioni incomplete o, addirittura, errate sulla popolazione.
• Per evitare distorsioni provocate da un campione non
rappresentativo della popolazione, si deve dare ad ogni
elemento della popolazione oggetto la stessa probabilità di
venire estratto a far parte del campione.
• Le principali tecniche con le quali operare il campionamento,
cioè la composizione del campione, sono indicate come:
–
–
–
–
campionamento sistematico;
campionamento stratificato;
campionamento con il metodo delle quote;
campionamento a grappolo.
Stat 01 - 27 / 48
Campionamento sistematico
• Nel campionamento sistematico si sceglie ciascun elemento che
andrà a costituire il campione in base
ad una regola prefissata.
• Ad esempio: si preleva ogni 30-esimo
pezzo prodotto da una macchina o da
una catena di montaggio.
• Il rischio insito in questa procedura
è quello di incorrere in periodicità
nascoste nel prodotto: se si
producesse, sistematicamente, un
pezzo difettoso ogni 29 pezzi “sani”,
un campionamento sistematico del tipo
“uno ogni 30” potrebbe risultare fatale.
• Anche il caso di un pezzo difettoso ogni 14 pezzi sani
porterebbe a fallire il campionamento.
Stat 01 - 28 / 48
Campionamento sistematico
• Nel campionamento sistematico si sceglie ciascun elemento che
andrà a costituire il campione in base
ad una regola prefissata.
• Ad esempio: si preleva ogni 30-esimo
pezzo prodotto da una macchina o da
una catena di montaggio.
Stat 01 - 29 / 48
Campionamento stratificato
• Nel campionamento stratificato si divide preliminarmente la
popolazione in un numero prestabilito si sottopopolazioni o
“strati” dalle quali si estraggono delle unità che andranno a
comporre il campione totale.
• Ad esempio: la
suddivisione in
strati potrebbe
venire effettuata
tenendo conto
dei turni di lavoro
oppure tenendo
conto della linea
produttiva, ecc.
Stat 01 - 30 / 48
Campionamento stratificato
• Nel campionamento stratificato si divide preliminarmente la
popolazione in un numero prestabilito si sottopopolazioni o
“strati” dalle quali si estraggono delle unità che andranno a
comporre il campione totale.
• Ad esempio: la
suddivisione in
strati potrebbe
venire effettuata
tenendo conto
dei turni di lavoro
oppure tenendo
conto della linea
produttiva, ecc.
Stat 01 - 31 / 48
Campionamento con il metodo delle quote
• Si divide la popolazione in gruppi sulla base della caratteristica
(oggetto dello studio) per i quali sono noti i pesi percentuali di
ciascuno nei confronti della popolazione. A questo punto
vengono definite le quote, cioè il numero di elementi da
prelevare da ciascun gruppo e si procede con un’estrazione
casuale delle unità da ciascun gruppo. Il campione sarà
l‘insieme costituito da tutte le unità estratte.
• Ad esempio: nel caso di un’indagine
che riguarda una azienda con
penetrazione sul mercato che cambia
da regione a regione, si chiede alle persone
incaricate di allestire il campione intervistando
in ciascuna regione un numero di individui
legato alla penetrazione della azienda
nella regione stessa.
Stat 01 - 32 / 48
Campionamento con il metodo delle quote
• Si divide la popolazione in gruppi sulla base della caratteristica
(oggetto dello studio) per i quali sono noti i pesi percentuali di
ciascuno nei confronti della popolazione. A questo punto
vengono definite le quote, cioè il numero di elementi da
prelevare da ciascun gruppo e si procede con un’estrazione
casuale delle unità da ciascun gruppo. Il campione sarà
l‘insieme costituito da tutte le unità estratte.
• Ad esempio: nel caso di un’indagine
che riguarda una azienda con
penetrazione sul mercato che cambia
da regione a regione, si chiede alle persone
incaricate di allestire il campione intervistando
in ciascuna regione un numero di individui
legato alla penetrazione della azienda
nella regione stessa.
Stat 01 - 33 / 48
Campionamento a grappolo
• Questa procedura è utile quando si è nella impossibilità di
estrarre il campione dalla intera popolazione. La popolazione
viene allora vista come un insieme di grappoli non ricoprentesi e
sono i grappoli ad essere scelti in modo casuale per poi
costituire il campione mediante le singole unità costituenti i
grappoli prescelti. Si noti che, se i grappoli non sono composti
di un ugual numero di unità, la numerosità del campione è nota
solamente al termine del campionamento.
•
Ad esempio: nel caso di un’indagine
che riguarda lo studio della fruizione
del servizio di trasporto pubblico in
una estesa area urbana si possono
considerare come grappoli le famiglie
residenti, fra le quali si estraggono a
sorte alcuni grappoli: il campione sarà costituito
da tutti i componenti delle famiglie estratte.
Stat 01 - 34 / 48
Campionamento a grappolo
Stat 01 - 35 / 48
Statistiche
definizione 5.1:
• Si definisce “statistica” g ( X1, X2, X3, …, Xn ) una funzione di
variabili casuali che non contiene parametri della popolazione.
Una statistica è a sua volta una variabile casuale.
esempio:
sono statistiche:
1
Xn 
n
n
X
j
e
j 1
 X n  max  X 1 , X 2 , , X n   min  X 1 , X 2 , , X n
mentre non è una statistica
Xn  

perché contiene la media 
della X sulla intera popolazione (che è un parametro incognito).
Stat 01 - 36 / 48
Principali statistiche:
momento campionario
Definizione ?!
• dato un campione { X1, X2, …, Xn } proveniente
da una popolazione avente densità fX (x), si definisce
“momento campionario di ordine p” la statistica :
1
M p 
n
n
X
j 1
p
j
Stat 01 - 37 / 48
Principali statistiche:
momento campionario
… dato un campione
{ X1, X2, …, Xn }
proveniente da una
popolazione avente
densità fX (x), …
M p 
1
n
n
X
j 1
p
j
Stat 01 - 38 / 48
Principali statistiche:
momento campionario
definizione
definizione:5.2:
•• estraendo
da una popolazione
è definita la variabile
dato un campione
{ X1, X2, …, per
Xn cui
} proveniente
casuale
X un campione
di ndensità
elementi
a cuisicorrisponde
da una popolazione
avente
f (x),
definisce
X
l’insieme
variabili casuali
{ X1p”
, Xla
…, Xn } si chiama
“momentodicampionario
di ordine
2, statistica:
“momento campionario di ordine p” la statistica:
1
M p 
n
n
X
j 1
p
j
Stat 01 - 39 / 48
Principali statistiche:
momento campionario
… estraendo da una
popolazione per cui è
definita la variabile
casuale X un
campione di n elementi
a cui corrisponde
l’insieme di v.c.
{ X1, X2, …, Xn } …
1
M p 
n
n

j 1
Xj
p

1 n
1
p
p
p
p
M p   X j 
x2  x3  x2
n j 1
3

Stat 01 - 40 / 48
Principali statistiche:
momento campionario di ordine 1
• Fra i momenti campionari riveste particolare interesse quello di
ordine 1 ( p = 1 ). E’ chiamato “media campionaria” e coincide
con la media della X per il campione: per questo motivo lo
indicheremo con
Xn
per richiamare il suo significato.

Xj 
1

j 1

  M1 
n


p 1

1
M p 
n
n

p
n
X
j 1
j
 Xn
Stat 01 - 41 / 48
Principali statistiche:
momento campionario di ordine 1
Della “media campionaria” si tratterà in dettaglio nelle prossime
lezioni: per ora si segnalano due sue caratteristiche.
Estraendo diversi campioni di n elementi da una popolazione per
cui è definita la variabile casuale X che ha media  e varianza  2
• si ha:
E  Xn  
e, nel caso di popolazione infinita o di campionamento con
ripetizione,
• si ha:
2
var  X n  
n
Stat 01 - 42 / 48
Principali statistiche:
momento campionario rispetto a X n
definizione 5.3:
• estraendo da una popolazione per cui è definita la variabile
casuale X un campione di n elementi a cui corrisponde
l’insieme di variabili casuali { X1, X2, …, Xn } si chiama
“ momento campionario di ordine p rispetto a X n ”
la statistica:
1 n
M p   X j  Xn
n j 1

p
Stat 01 - 43 / 48
Principali statistiche:
momento campionario
di ordine 2 rispetto a X n
• Il momento campionario di ordine 2 rispetto a X
n
riveste interesse particolare in quanto esso coincide
con la varianza del campione:
1
M2 
n
 X
n
j 1
j
 Xn
2
Stat 01 - 44 / 48
Stimatori
definizione 5.4:
• Si definiscono “stimatori” quelle statistiche che vengono usate per
stimare un parametro o una sua funzione.
– I valori ottenuti mediante gli stimatori si dicono “stime” del parametro.
esempio:
estraendo da una popolazione per cui è definita la variabile
casuale X un campione di n elementi a cui corrisponde
l’insieme di v.c. { X1, X2, …, Xn } si può affermare che:
la “media campionaria”:
1
Xn 
n
n
X
j
j 1
è uno stimatore della media  della popolazione:
Stat 01 - 45 / 48
Caratteristiche degli stimatori: correttezza
definizione 5.5:
• Uno stimatore V = v ( X1, X2, …, Xn ) del parametro q si definisce
“corretto” se e solo se il suo valore atteso è uguale al parametro
che deve stimare.
E V   q
– La media campionaria è uno stimatore corretto della media della
popolazione in quanto:
E  Xn  
– Se lo stimatore risulta corretto solamente quando n tende all’infinito si
dice che lo stimatore è “asintoticamente corretto” . Per popolazioni
finite la definizione deve essere intesa nel senso: “quando
sufficientemente grande”.
n risulta
Stat 01 - 46 / 48
Caratteristiche degli stimatori: consistenza
definizione 5.6:
• Uno stimatore V = v ( X1, X2, …, Xn ) del parametro q si definisce
“consistente” se converge in probabilità al parametro che deve
stimare.
lim P
n 
 V -E V 

  1
• Nel caso di uno stimatore corretto o asintoticamente corretto del
parametro q si può affermare che esso è consistente se:
var  V   0 per n  
– La media campionaria è uno stimatore consistente in quanto:
2
var  X n  
 0 per n  
n
Stat 01 - 47 / 48
Caratteristiche degli stimatori: efficienza
definizione 5.7:
• La misura della efficienza tra due stimatori è definita come:
Eff  V1 / V2
 V -E V   

E   V -E V   
E
2
2
2
2
1
1
• Se Eff ( V1 / V2 ) > 1 la stima fornita da V1 è più efficiente.
• Nel caso di stimatori corretti il rapporto Eff ( V1 / V2 ) coincide
con il rapporto delle varianze dei due stimatori pertanto
lo stimatore più efficiente è quello che ha varianza minore.
Stat 01 - 48 / 48
La prossima volta…
Lo stimatore “media campionaria” e la sua distribuzione
Scarica

Campionamento e stimatori campionari