Vittorio Casella
Appunti, parte 1
Fotogrammetria
Topografia e Tecniche Cartografiche
Anno Accademico 2001-2002
Dipartimento di Ingegneria Edile e del Territorio
Università degli Studi di Pavia
Capitolo 1
Il rilevamento e le misure
Esistono fenomeni il cui esito non è prevedibile a priori come il lancio di un
dado o di una moneta, la durata di una lampadina, la misura di precisione
di una grandezza fisica (lunghezza, angolo, temperatura o velocità).
Questi fenomeni presentano una regolarità di fondo, come si può constatare effettuando ripetizioni: anche se non è possibile stabilire con certezza
l’esito del lancio di un dado, è comunque noto che, effettuando molte ripetizioni, la faccia con il numero 1 si presenterà circa 1/6 delle volte. Analogamente in una misura di precisione, per esempio una misura di lunghezza con
riga millimetrata e stima del decimo di millimetro, n ripetizioni forniranno
probabilmente n risultati diversi, ma comunque concentrati in un intervallo
abbastanza ristretto.
I fenomeni che hanno la caratteristica di non essere prevedibili quando si
consideri una sola estrazione (sia essa il lancio di una moneta o l’esecuzione di
una misura), ma che mostrano una regolarità quando si analizzino estrazioni
ripetute, si dicono fenomeni aleatori e sono descritti dalla Probabilità e dalla
Statistica. La prima permette di prevedere il comportamento di un fenomeno
aleatorio noto, come ad esempio calcolare la probabilità che lanciando una
moneta simmetrica (modello noto) si ottenga per tre volte consecutive testa.
La seconda procede nel verso contrario e cerca di conoscere un fenomeno
aleatorio a partire dal suo comportamento; si potrebbe per esempio cercare
di stabilire se una moneta è simmetrica o meno osservando l’esito di molti
lanci.
Le misure di precisione sono un fenomeno aleatorio con cui i rilevatori si
confrontano continuamente; per poter svolgere la propria attività in modo
appropriato, essi devono saper trattare le misure in modo adeguato e, a volte,
piuttosto sofisticato. Questo spiega perchè tutti i testi riguardanti argomenti
di rilevamento abbiano una significativa sezione dedicata al calcolo delle
probabilità e alla statistica.
La nostra trattazione inizia introducendo la terminologia delle misure
e prosegue con alcuni elementi di calcolo delle probabilità e di statistica,
1
Vittorio Casella - Dispense, parte 1
finalizzati al trattamento delle misure.
1.1
Le misure sono fenomeni aleatori
L’interesse della Topografia e della Fotogrammetria per la statistica deriva
dalla necessità di effettuare misure di qualità ed affidabili. Lasciamo ai
metrologi e ai filosofi della scienza il compito, per certi versi appassionante,
di discutere su cosa sia una misura e se esista il valore vero di una misura.
Queste note ricorrono all’idea ingenua di misura e assumono che il valore vero
esista e che riusciremmo a scoprirlo se misurando evitassimo gli innumerevoli
piccoli errori accidentali che fatalmente sporcano il lavoro sperimentale. Un
topografo chiede alla statistica di essere guidato
• per effettuare le migliori misure possibili con una certa strumentazione,
• per conoscere comunque la bontà e la affidabilità delle misure fatte,
• per capire che fare se deve raggiungere una certa precisione,
• per confrontare efficacemente e razionalmente misure prese in momenti diversi e stabilire se la loro differenza sia attribuibile ai soli errori
di misura o abbia altra causa. Se i movimenti di una frana venissero controllati misurando periodicamente la distanza fra due punti, la
varie misure risulterebbero inevitabilmente diverse le une dalle altre
e sarebbe necessario fare ricorso alla statistica per discriminare fra la
fluttuazione casuale e il reale movimento del terreno.
1.2
Precisione e accuratezza
La qualità di una misura si esprime generalmente mediante due termini:
precisione e accuratezza. La prima descrive la concentrazione di misure
ripetute, mentre la seconda esprime la distanza fra le misure ed il valore
vero. Una misura ottimale deve essere ovviamente precisa ed accurata, ma
capita a volte di effettuare misure precise ma non accurate, oppure accurate
ma non precise, oppure anche, nel caso peggiore, non accurate e non precise.
E’ abbastanza calzante una analogia fra le misure e gli spari ripetuti di un
tiratore a un bersaglio, che potrebbero essere:
• vicini gli uni agli altri e concentrati attorno al centro del bersaglio:
misura precisa e accurata (Caso a);
• vicini gli uni agli altri e concentrati attorno ad un punto lontano
dal centro del bersaglio, magari per una srettifica del mirino: misura
precisa ma non accurata (Caso c));
2
Vittorio Casella - Dispense, parte 1
Caso a
Caso b
Caso c
Caso d
• piuttosto dispersi attorno al centro del bersaglio: misura poco precisa
ma accurata (Caso b);
• dispersi attorno a un punto lontano dal centro del bersaglio: misura
poco precisa e poco accurata (Caso d).
La terminologia usata per parlare della qualità della misura non è sempre coerente e per questo può trarre in inganno. Spesso infatti si usa il
termine precisione come indicatore onnicomprensivo della qualità di una
misura, mentre quando si vogliono enucleare i vari aspetti che concorrono
a determinarla, si distingue fra precisione e accuratezza. Sta all’attenzione
del lettore o dell’ascoltatore capire quale sia il reale significato dei termini
usati valutando il contesto nel quale vengono impiegati.
1.3
Precisione assoluta e relativa
Un’altra utile distinzione è fra precisione assoluta (o accuratezza, il discorso
vale per entrambe) e precisione relativa. Sbagliare di un millimetro la misura
della distanza Terra-Luna è un risultato straordinario, mentre sbagliare della
stessa quantità la misura con il calibro del diametro di un piccolo cilindro
metallico costituisce un errore marchiano. La precisione relativa è un numero
puro uguale al rapporto fra l’errore commesso e l’entità delle misure; nel caso
del GPS ad esempio le basi vengono usualmente determinate con errore di
1 mm per Km, dunque la precisione relativa è di 10−6 oppure, come si suole
dire, 1 ppm (una parte per milione).
3
Vittorio Casella - Dispense, parte 1
1.4
Misure dirette e indirette
Le misure vengono distinte in dirette e indirette, a seconda che sia possibile
o meno misurare direttamente ciò che vogliamo conoscere.
• Una misura è diretta quando è possibile misurare direttamente la grandezza X che si desidera conoscere. Se si dispone di un distanziometro
elettronico e si desidera conoscere la distanza fra due punti intervisibili, è possibile misurare direttamente tale distanza. Le proprietà
statistiche di X possono essere messe in luce con tecniche basate sulla
ripetizione delle misure, che verranno descritte in seguito.
• Supponiamo invece che si voglia conoscere la lunghezza di una linea
spezzata, come il confine di una proprietà; una soluzione potrebbe essere misurare direttamente i segmenti che la compongono e poi sommare
la lunghezze parziali. Supponiamo ora, per fare un altro esempio, che
si voglia misurare la superficie di un’area rettangolare: si potrebbero
misurare entrambi i lati e poi moltiplicare le lunghezze. In entrambi
questi casi si vuole conoscere una grandezza X e si sanno misurare
delle grandezze Y legate alla prima da una relazione
X = g(Y )
(1.1)
Il calcolo del valore di X è semplice, ma resta da capire come risalire
alle proprietà statistiche di X, una volta note quelle di Y .
• Supponiamo ora che si voglia caratterizzare il coefficiente di elasticità
di una molla. Una soluzione potrebbe essere sollecitarla con varie forze
note, misurare le elongazioni da esse prodotte e ricavare in questo
modo l’incognita. La lunghezza di una molla varia in funzione della
forza applicata secondo la legge
l = kF + lr
(1.2)
dunque si tratterebbe in questo caso di misurare l e di ricavare k. Si
tratta insomma di un problema in cui il rapporto fra le grandezze da
determinare X e le grandezze misurabili Y è del tipo
Y = g(X)
(1.3)
e la stima di X richiede in qualche modo, che verrà meglio specificato
in seguito, l’inversione della funzione g. Non vi è dubbio che questo
terzo caso sia il più complesso da trattare.
4
Vittorio Casella - Dispense, parte 1
1.5
Importanza della ridondanza
E’ necessario sottolineare che ogni discorso sulla qualità delle misure ha
come condizione necessaria la ridondanza delle informazioni. Se si desidera
conoscere una distanza e la si misura una volta, non si avrà alcun strumento
razionale per capire se la misura effettuata sia buona o cattiva; se invece si
dispone di più ripetizioni, il loro confronto permette di dire molte cose sulla
bontà delle misure.
La ripetizione delle misure permette anzitutto, banalmente, di scovare
eventuali errori grossolani, ma soprattutto offre la possibilità di quantificare
gli errori accidentali, cioè stimare la bontà del lavoro fatto.
1.6
Le cause degli errori
Le fonti di errore nelle misure sono schematicamente tre: lo strumento impiegato, l’ambiente nel quale si opera, l’operatore, cioè colui che mette in
stazione lo strumento, effettua collimazioni e letture, trascrive le misure
effettuate, ecc.
1.7
Errori grossolani, sistematici e accidentali
Gli errori che vengono commessi durante le misure vengono usualmente
suddivisi in tre categorie: errori grossolani, sistematici ed accidentali.
Gli errori grossolani, detti anche blunders o gross errors, sono causati
da fattori esterni alla misura vera e propria, come le sviste del rilevatore,
che potrebbe leggere 4 invece di 6 su un display, o scrivere 9 invece di 3
sul libretto di campagna; per fare un altro esempio, un errore grossolano si
verifica quando il restitutista fotogrammetrico, dovendo riconoscere e collimare su un fotogramma un punto di coordinate note, si confonde e collima
un punto diverso.
Quelli grossolani non sono errori di misura, da trattare ed analizzare con
gli strumenti della statistica, ma dovrebbero piuttosto essere individuati ed
eliminati: tale compito non è sempre agevole, soprattutto quando la mole
dei dati rilevati e grande. Tuttavia le misure ridondanti e un uso attento
degli indicatori statistici offrono la ragionevole possibilità di trovarli: se
ad esempio è stata ripetuta più volte una misura di distanza, sarà facile
accorgersi se una volta è stato scritto male il risultato.
Gli errori sistematici originano dalla mancata o non corretta considerazione di alcuni aspetti dei fenomeni fisici coinvolti nelle misure. Se per
esempio si effettuano misure con un distanziometro elettronico assumendo
che la velocità di propagazione dei segnali sia c, cioè la velocità della luce nel
vuoto, si commette un errore sistematico perchè la velocità di propagazione
5
Vittorio Casella - Dispense, parte 1
nell’atmosfera è diversa. Tale errore sistematico può essere annullato modellizzando la variazione della velocità della luce nell’atmosfera in funzione
di temperatura e umidità.
L’esempio appena descritto permette di comprendere anche come difficilmente gli errori sistematici siano individuabili mediante ripetizione, in
quanto le diverse ripetizioni sarebbero caratterizzate dagli stessi errori sistematici.
Ci sono casi in cui una corretta metodica permette tuttavia di individuare gli errori sistematici e di renderli casuali, come si dice in gergo. Ogni
volta che uno strumento topografico viene messo in stazione e in bolla, esso
sarà caratterizzato da un errore residuo di verticalità che si comporterà come
errore sistematico in tutte le misure fatte durante quella stazione. Se si ripetesse più volte la messa in stazione, e ogni volta si effettuassero le misure,
l’errore residuo di verticalità smetterebbe di essere costante e diventerebbe
accidentale.
Non è pensabile eliminare completamente gli errori sistematici, ma questo non è nemmeno necessario: di volta in volta, fissato il livello qualitativo che le misure devono avere, si stabilirà quali errori sistematici debbano
essere presi in considerazione. Per moltissimi scopi, per esempio, l’errore
residuo di verticalità, purchè le procedure di messa in stazione siano effettuate correttamente, è tale da produrre errori trascurabili rispetto a quelli
tollerati. Vi sono casi in cui tale errore deve invece essere reso casuale mediante molteplici ripetizioni, come prescriveva ad esempio l’IGMI (Istituto
Geografico Militare Italiano) per il rilevamento del vertici del I ordine delle
rete trigonometrica.
Gli errori che non sono nè grossolani nè sistematici sono casuali o accidentali o stocastici. Essi sono responsabili delle piccole fluttuazioni che
la ripetizione di misure di precisione evidenzia. Essi sono dovuti a un complesso di ragioni: piccole imperfezioni degli strumenti, variazioni minime
delle condizioni ambientali, errori di lettura e collimazione commessi dagli
operatori.
6
Capitolo 2
La probabilità
La probabilità è alla base di tutte le tecniche che permettono di gestire e
studiare gli errori contenuti nelle misure e per questo o l’esposizione inizia
proprio dalle diverse definizioni di probabilità che sono state date.
2.1
La definizione di probabilità secondo Laplace
Consideriamo a titolo di esempio il lancio di un dado: l’insieme delle possibili
uscite, detto anche spazio campionario o spazio degli eventi elementari è
Ω = {1, 2, 3, 4, 5, 6}
(2.1)
Non è soddisfacente poter calcolare solo la probabilità degli eventi elementari
che costituiscono Ω perchè è necessario saper calcolare anche, ad esempio, la
probabilità che, da un’estrazione, risulti un numero pari. Una formulazione
probabilistica corretta del problema del dado deve quindi fornire la probabilità di qualunque sottoinsieme di Ω. Tali sottoinsiemi sono detti eventi e
costituiscono l’insieme Σ, detto spazio degli eventi. Esempi di eventi sono,
fra gli altri
∅
Ω
{1, 3, 5}
{1}
{2}
{2, 4, 6}
{3}
{4}
{1, 2, 3}
{5}
{5, 6}
{6}
{1, 4, 6}
La probabilità è una proprietà degli eventi che si misura con un numero
compreso fra 0 ed 1 e che quantifica la facilità con cui si verificano. Un evento avente probabilità 0 è detto evento impossibile mentre un evento avente
probabilità 1 è detto evento certo. E’ intuitivo pensare che la probabilità
dell’evento {1} sia 1/6 e che la probabilità dell’evento {2, 4, 6} sia 1/2; la
traduzione formale di queste considerazioni è la seguente definizione di Laplace: se un fenomeno ha N risultati, mutuamente escludentesi ed
ugualmente possibili, la probabilità di un evento A è il rapporto
7
Vittorio Casella - Dispense, parte 1
fra il numero dei casi favorevoli nA ed il numero dei casi possibili
N
nA
(2.2)
PA =
N
Sia A = {2, 4, 6} l’evento corrispondente all’uscita di un numero pari,
per il quale vale nA = 3; essendo N = 6, nell’ipotesi che il dado sia regolare,
si ha
nA
3
1
= =
PA =
N
6
2
La definizione di Laplace (o delle probabilità a priori) non è soddisfacente sul piano teorico per ragioni che si potrebbero riassumere dicendo che
si tratta di un approccio puramente deduttivo che prescinde dai fenomeni reali. Un po’ semplificando si potrebbero fare le seguenti osservazioni
sull’approccio di Laplace.
• La 2.2 è in un certo senso tautologica: non definisce la probabilità, ma
si limita ad indicare come calcolarla. In conseguenza di questo, l’applicazione di tale definizione richiede, per individuare N casi mutuamente escludentesi ed ugualmente possibili, la valutazione aprioristica
delle proprietà di simmetria del sistema.
• Non è dunque possibile applicare la definizione di Laplace ai sistemi
di cui non sia possibile effettuare aprioristicamente uno studio della
simmetria. La 2.2 si rivela allora inutile per i sondaggi elettorali o per
lo studio del comportamento di un dado truccato.
• Non esistono criteri per valutare se, in un certo caso concreto, le ipotesi
siano corrette. Se assumiamo che una moneta sia simmetrica, possiamo
prevedere l’esito di una serie di lanci, ma non è possibile verificare se
la moneta sia simmetrica o meno.
• La definizione di Laplace è di difficile applicazione quando il numero
degli eventi possibili è infinito.
2.2
La definizione di probabilità secondo Von Mises
La definizione prende spunto da un principio, verificato sperimentalmente,
detto legge empirica del caso. Consideriamo nuovamente un dado e l’evento
A precedentemente definito, e immaginiamo di effettuare un numero N di
lanci, conteggiando in numero nA dei casi favorevoli (cioè l’uscita di uno dei
numeri 2, 4, 6). E’ ragionevole pensare che il rapporto nA /N (cioè la frequenza relativa) tenda, per N grandi, a stabilizzarsi attorno alla probabilità
PA dell’evento A.
8
Vittorio Casella - Dispense, parte 1
Si giunge cosı̀ alla definizione di Von Mises: la probabilità PA di un
evento A è il limite a cui tende la frequenza relativa (numero degli
esiti favorevoli diviso il numero totale delle estrazioni) quando il
numero delle prove tende all’infinito.
nA
(2.3)
N →∞ N
La 2.3, detta anche definizione frequentistica, ha il merito di definire
il concetto di probabilità in modo da evidenziare il legame fra esperienza
e schema teorico; tale definizione può applicarsi anche ai casi nei quali la
definizione di Laplace cade in difetto. Tuttavia non è soddisfacente sul piano
concettuale.
PA = lim
• La definizione di Von Mises richiede che le condizioni di aleatorietà si
mantengano costanti durante la N prove.
• Si postula che il limite esista, senza meglio specificare la rapidità della
convergenza. Questo aspetto è fondamentale perchè la 2.3 può essere
usata in pratica solo assumendo un N finito sufficientemente grande,
commettendo cosı̀ un errore che dovrebbe essere stimato.
Inoltre è possibile (anche se difficile) che una lunga serie di esperimenti
converga al risultato sbagliato, cosı̀ come è possibile che, lanciando
dieci volte una moneta, esca sempre testa.
La definizione frequentistica di probabilità può essere usata immaginando che N sia sufficientemente grande per poter scrivere:
PA ≈
nA
N
(2.4)
che può essere esplicitata rispetto a nA
nA ≈ N P A
il cui significato è che, effettuando N estrazioni, il numero di volte in cui si
verifica un evento A è mediamente uguale al prodotto della probabilità di
A per N. Quest’ultima affermazione è da intendersi cosı̀: ripetendo molte
volte il blocco di N estrazioni si troverebbero valori di nA diversi ma tanto
più concentrati attorno al valore previsto dalla 2.2 quanto più è grande il
valore di N .
2.3
Definizione assiomatica di probabilità
Le definizioni di Laplace e Von Mises non sono pienamente soddisfacenti sul
piano concettuale dunque non possono essere usate per fondare una teoria
9
Vittorio Casella - Dispense, parte 1
della probabilità, anche se sono utili nei casi concreti in quanto si avvicinano
all’idea intuitiva di probabilità.
E’ possibile dare una definizione astratta di probabilità che non è affetta
dai limiti delle precedenti e tuttavia le contiene. Tale definizione è basata
sul linguaggio insiemistico. Questo paragrafo descrive in modo discorsivo le
proprietà di una tale definizione, mentre le sezioni successive formalizzeranno
tali proprietà.
Si prende anzitutto in considerazione l’insieme dei possibili eventi elementari di un esperimento, detto spazio campionario e indicato con Ω. Un
qualunque evento A è un sottoinsieme dello spazio campionario. La famiglia
di tutti gli eventi associati ad un certo esperimento è lo spazio degli eventi
Σ: esso deve essere definito in modo tale da contenere tutti gli eventi di cui
si desidera conoscere la probabilità. Richiamiamo ora le proprietà principali
della definizione assiomatica di probabilità.
• Deve esistere la probabilità di Ω, uguale a 1. Nel caso del dado: si
vuole che la probabilità che esca un numero qualunque sia 1.
• Deve esistere la probabilità dell’insieme vuoto, uguale a 0. Si parla di
evento impossibile.
• Deve esistere una funzione di probabilità che misura la probabilità di
ogni elemento di Σ. Essa deve essere additiva.
P : Σ → [0, 1]
• Se si conosce la probabilità di un evento A, deve esistere la probabilità
che tale evento non si verifichi e la somma delle due probabilità deve
fare 1. Nel caso del dado: se si conosce la probabilità dell’evento
A = {2, 4, 6}, deve esistere la probabilità dell’evento {1, 3, 5}, cioè del
complementare di A rispetto ad Ω, che indicheremo con Ac ; deve valere
inoltre PAc = 1 − PA .
• Se si conosce la probabilità di due eventi A e B, deve esistere la probabilità che si verifichi A o B, evento rappresentato da A ∪ B; se A e
B sono disgiunti, tale probabilità deve coincidere con la somma delle
probabilità di A e B. Si tratta dell’addittività della probabilità.
• Se si conosce la probabilità di due eventi A e B, deve esistere la probabilità che si verifichi A e B cioè A ∩ B ed essa deve tenere conto
dell’addittività della probabilità.
10
Capitolo 3
I fenomeni aleatori
unidimensionali
3.1
Le variabili casuali
I fenomeni aleatori di maggiore interesse ai fini del corso hanno come spazio
campionario l’insieme dei numeri reali R: l’esito di una misura di precisione
è un numero reale qualunque, anche se ciò non significa, ovviamente, che
tutti i numeri abbiano la stessa probabilità.
Si pone dunque il problema di definire una distribuzione di probabilità
su R: lo spazio campionario Ω è in questo caso tutta la retta reale e l’applicazione della definizione astratta di probabilità richiederebbe la definizione
di una funzione di probabilità P che avrebbe come dominio, lo spazio degli
eventi, l’insieme dei sottoinsiemi di R. Ma un generico sottoinsieme di R
può essere davvero molto complesso, dunque la definizione della funzione P
è un compito impegnativo, che può essere fortunatamente reso più semplice,
come mostreremo.
Anzitutto è possibile dimostrare che lo spazio degli eventi significativi è
costituito solo dagli intervalli del tipo ]a, b]: si tratta allora di definire distribuzioni di probabilità sugli intervalli di R e, per la precisione, è sufficiente
farlo per gli intervalli del tipo ] − ∞, a] in quanto la probabilità di intervalli
diversi può essere dedotta facilmente.
Quando un fenomeno aleatorio ha uno spazio campionario rappresentabile sulla retta reale ed è possibile definire la probabilità per ogni insieme
del tipo
I(c) = {x ∈ R, x ≤ c} =] − ∞, c]
(3.1)
si è in presenza di una variabile casuale ad una dimensione. Indicheremo le variabili casuali semplicemente con vc.
Il motivo per cui è stata usata l’espressione spazio campionario rappresentabile sulla retta reale invece che spazio campionario coincidente con la
retta reale è che, come vedremo, anche fenomeni aleatori discreti come il
11
Vittorio Casella - Dispense, parte 1
lancio di una moneta o di un dado possono essere descritti con il linguaggio
delle vc.
Una vc si dice discreta se si riferisce ad un fenomeno aleatorio discreto, avente cioè uno spazio campionario costituito da un numero finito di
elementi; se il fenomeno aleatorio ha come spazio campionario R o un suo
sottoinsieme, la vc associata si dice continua.
Le vc si indicano con una lettera maiuscola e i risultati delle estrazioni
con la stessa lettera minuscola. Per esempio il risultato di un’estrazione
dalla vc X si indica con x.
3.2
La funzione di distribuzione
Sia X una vc continua; ciò significa che è assegnata la probabilità degli
intervalli
P (] − ∞, c])
∀c ∈ R
(3.2)
In tal caso si può definire la funzione di distribuzione FX
FX : R → [0, 1]
.
FX (c) = P (] − ∞, c])
∀c ∈ R
(3.3)
Una funzione cosı̀ definita ha le seguenti proprietà
limc→−∞ FX (c) = 0
limc→+∞ FX (c) = 1
FX (a) ≤ FX (b) ∀a, b ∈ R, a ≤ b
(3.4)
La 3.3 definisce la funzione di distribuzione e fornisce uno strumento
per ricavarla da una distribuzione di probabilità nota. Capita più spesso di
assegnare una FX allo scopo di specificare una distribuzione di probabilità.
Infatti ogni funzione avente la proprietà 3.4 definisce una distribuzione di
probabilità su R nel modo seguente
.
P (] − ∞, c]) = FX (c)
.
P (]a, b]) = FX (b) − FX (a)
(3.5)
(3.6)
Si noti che la 3.6 è una definizione e non una deduzione dalla 3.5; tale
definizione è fatta in modo che la probabilità che resta cosı̀ definita sia
additiva, come richiedono gli assiomi sulla probabilità. La definizione 3.6
mette in rilievo il significato della funzione di distribuzione di una vc X,
come strumento per calcolare la probabilità che una estrazione dal fenomeno
aleatorio associato ad X fornisca un valore minore o uguale a c.
Nello schema appena delineato rientrano anche le vc discrete, aventi
uno spazio campionario costituito da un numero finito di valori: consideriamo a titolo di esempio una moneta e immaginiamo di stabilire la seguente
12
Vittorio Casella - Dispense, parte 1
1
0.5
0
0
1
Figura 3.1: La funzione di distribuzione di una moneta
corrispondenza

p = 1/2 testa
 x=0
x=1
p = 1/2 croce

x 6= 1, 2 p = 0
alla quale si può associare la seguente funzione di distribuzione

x<0
 0
1/2 0 ≤ x < 1
FM (x) =

1
x≥1
(3.7)
(3.8)
Si tratta di una funzione a gradini e quindi non continua.
3.3
La funzione densità di probabilità
Supponiamo che una vc X abbia una FX differenziabile cioè che
∃
d
FX (x) ∀x ∈ R
dx
Si può in tal caso definire la funzione densità di probabilità fX nel modo
seguente
. d
fX (x) =
FX (x)
dx
13
(3.9)
Vittorio Casella - Dispense, parte 1
La 3.9 può essere invertita grazie al teorema fondamentale del calcolo
integrale
Z a
FX (a) =
fX (x)dx
(3.10)
−∞
da cui si ricava
b
Z
P (]a, b]) =
fX (x)dx
(3.11)
a
Una funzione densità di probabilità ha le seguenti caratteristiche:
fX (x) ≥ 0 ∀x ∈ R
Z +∞
fX (x)dx = 1 ⇒
−∞
(3.12)
lim fX (x) = 0
|x|→+∞
(3.13)
Si può dimostrare al contrario che ogni funzione avente le caratteristiche 3.13 definisce una distribuzione di probabilità ed una funzione di
distribuzione nel modo seguente:
Z a
.
FX (a) =
fX (x)dx
(3.14)
.
P ([a, b]) =
−∞
Z b
fX (x)dx
(3.15)
a
La funzione densità di probabilità di una vc X, è lo strumento per calcolare
la probabilità di un intervallo ]a, b] ed esiste solo se la FX è differenziabile. A
questo proposito, in letteratura si trova una notazione che è utile spiegare:
immaginiamo di scegliere un punto c ed un valore ∆c in modo tale che sia
fX (x) ≈ fX (c) ∀x ∈ [c, c + ∆c]
(spesso questo si esprime, in modo non del tutto preciso, affermando che ∆c
è un infinitesimo). La probabilità dell’intervallo [c, c + ∆c] può allora essere
calcolata in modo approssimato
Z
c+∆c
fX (x)dx ≈ ∆cfX (c)
P ([c, ∆c]) =
(3.16)
c
Si legge a volte che la probabilità che X sia nell’intervallo [x, x + dx] è data
dal differenziale della densità di probabilità, cioè fX (x)dx.
3.4
Sintesi sui modi di assegnare una distribuzione
di probabilità
Una distribuzione di probabilità sulla retta reale può essere assegnata in
almeno tre maniere differenti.
14
Vittorio Casella - Dispense, parte 1
• Assegnazione diretta della probabilità di ogni intervallo del tipo 3.1;
si tratta di una via percorribile solo teoricamente, tranne che in casi
particolari.
• Assegnazione per mezzo di una funzione di distribuzione FX . Tale
approccio è equivalente al primo.
• Assegnazione per mezzo di una funzione densità di probabilità. Questo
metodo non è equivalente ai precedenti in quanto la conoscenza della
fX garantisce la conoscenza della FX , ma il contrario è falso. Infatti
se FX non è differenziabile, come nel caso della moneta, fX non esiste.
3.5
Media e varianza di una variabile casuale
Una vc X è completamente caratterizzata e descritta dalla funzione di distribuzione FX o dalla funzione densità di probabilità fX in quanto esse
permettono di ricostruire la distribuzione di probabilità associata ad X.
Tali funzioni descrivono quindi in modo potente ed esaustivo un fenomeno
aleatorio, tuttavia vi è l’esigenza di disporre di indicatori capaci di riassumere alcune proprietà fondamentali delle distribuzioni di probabilità e,
in particolare, è utile individuare la regione nella quale una vc si addensa,
cioè la parte dell’insieme campionario dove è più probabile che si trovi una
estrazione.
Nel caso di vc discrete, con uno spazio campionario costituito da N valori
xi , i = 1, 2, . . . , N , ciascuno caratterizzato da una probabilità pi , si definisce
media il numero
N
X
µ=
xi pi
(3.17)
i=1
Si tratta di sommare ogni valore dello spazio campionario pesato con la sua
probabilità. Per le vc continue, ricordando la definizione di integrale come
limite di una somma, si definisce media della vc X il numero
Z +∞
µ=
dx xfX (x)
(3.18)
−∞
Un altro aspetto fondamentale di una distribuzione di probabilità è la
dispersione, cioè la misura in della distanza media degli elementi dello spazio campionario dalla media; tale misura va intesa in senso probabilistico,
dunque dire che una vc ha bassa dispersione non significa che non esistono
elementi dello spazio campionario lontani dalla media, ma piuttosto che essi
hanno una bassa probabilità di manifestarsi. La misura di dispersione per
eccellenza è la media della variabile (X −µ)2 , pesata secondo la distribuzione
di probabilità di X. Tale grandezza è si chiama varianza e corrisponde, per
15
Vittorio Casella - Dispense, parte 1
le vc discrete al numero
2
σ =
N
X
(xi − µ)2 pi
(3.19)
i=1
e per le vc continue alla quantità
Z +∞
2
σ =
dx (x − µ)2 fX (x)
(3.20)
−∞
√
Spesso si considera anche il parametro σ = σ 2 detto deviazione standard o scarto quadratico medio. La vc (X − µ) è usualmente detta variabile
scarto.
E’ opportuno inserire a questo punto una piccola digressione sul. . . segno
della radice quadrata. Tutti gli studenti freschi degli esami di Analisi ricorde√
ranno di aver sempre visto rappresentare graficamente la funzione f (x) = x
come funzione a valori positivi; d’altra parte non esiste calcolatrice al mondo
che, richiesta di calcolare la radice quadrata di 4, risponderebbe -2. Capita
spesso di leggere frasi del tipo: La deviazione standard di un certo fenomeno
è stata stimata essere ±14.5cm. Questo è scorretto, a giudizio di chi scrive
e tale errore è alimentato dalla mancata distinzione fra due problemi connessi l’uno all’altro, ma distinti: è certamente vero che l’equazione x2 = 4
ha due soluzioni, in particolare +2 e -2, ma la radice quadrata di 4 è, per
definizione, la soluzione positiva dell’equazione appena richiamata, cioè 2.
3.6
Principali variabili casuali
Delle infinite vc che si possono concepire in linea di principio, ve ne sono
alcune di utilità particolare, perchè sono adatte a modellizzare determinati
fenomeni fisici.
3.6.1
La variabile casuale normale o di Gauss
Questa distribuzione di probabilità è caratterizzata dalla densità di probabilità
(x − µ)2
−
1
2σ 2
fN (x; µ, σ) = √
e
(3.21)
σ 2π
definita su tutto R e simmetrica rispetto al punto x = µ. La si trova spesso
indicata anche con la notazione N [µ, σ].
I parametri µ e σ 2 indicano naturalmente media e varianza della distribuzione in quanto, se considerassimo la densità di probabilità
1
fX (x; a, b) = √
b 2π
16
(x − a)2
2b2
e
−
Vittorio Casella - Dispense, parte 1
0.7
0.6
0.5
0.4
N(2, 0.7)
0.3
N(4, 0.7)
0.2
0.1
0
−4
N(2, 1.4)
−2
0
2
4
6
8
Figura 3.2: Densità di probabilità per alcune normali
e calcolassimo media e varianza mediante le 3.18 e 3.20, troveremmo proprio
a e b2 . Se tali parametri coincidono con media e varianza della vc X, è lecito
indicare questo esplicitamente sostituendo loro i simboli µ e σ 2 .
La vc normale è adatta a descrivere le misure di precisione e per questo
si assume che effettuare una misura equivalga ad una estrazione da una
normale: µ è associato al valore vero della misura mentre σ 2 quantifica la
dispersione della vc e quindi la bontà del metodo usato per la misura.
Consideriamo ora il problema di calcolare la probabilità di un certo
intervallo [a, b], per una N [µ, σ] assegnata: si tratta di valutare l’integrale
Z
P ([a, b]) =
a
b
1
dx √
σ 2π
(x − µ)2
2σ 2
e
−
(3.22)
che, mediante la trasformazione di coordinate z = x − µ/σ, si trasforma
nell’integrale
x2
Z b−µ
−
σ
1
(3.23)
P ([a, b]) =
dz √
e 2
a−µ
2π
σ
La funzione integranda è a ben guardare la densità di probabilità di
una particolare vc normale, detta distribuzione normale standardizzata ed
indicata con Z; essa è caratterizzata dai parametri µ = 0 e σ = 1. Possiamo
allora concludere che la trasformazione
X −µ
X = N [µ, σ] →
= Z = N [0, 1]
(3.24)
σ
17
Vittorio Casella - Dispense, parte 1
trasforma una normale qualsiasi in una normale standardizzata e che vi è un
legame relativo alla probabilità degli intervalli associati alla vc trasformanda
e alla vc trasformata
a−µ b−µ
,
(3.25)
P N [µ, σ] ∈ [a, b] = P Z ∈
σ
σ
Tale trasformazione si chiama standardizzazione e viene spesso impiegata per
ricondurre dei calcoli relativi a una normale qualunque a calcoli riguardanti
la normale standardizzata.
In particolare vengono spesso presi in considerazione gli intervalli notevoli
[µ − σ, µ + σ]
[µ − 2σ, µ + 2σ]
[µ − 3σ, µ + 3σ]
la cui probabilità è costante per ogni vc normale in quanto, qualunque sia
la scelta µ e σ, si ha
Z µ+σ
Z +1
dxfX (x; µ, σ) =
dxfZ (x) = 0.6826
−1
+2
µ−σ
µ+2σ
Z
Z
dxfX (x; µ, σ) =
dxfZ (x) = 0.9544
−2
Z +3
µ−2σ
Z µ+3σ
dxfX (x; µ, σ) =
dxfZ (x) = 0.9974
−3
µ−3σ
Si noti come sia praticamente certo che una estrazione da una distribuzione normale sia contenuta nell’intervallo [µ − 3σ, µ + 3σ]. Quest’affermazione
può essere meglio compresa nei termini della definizione frequentistica di
probabilità (si veda la 2.2): effettuando ripetuti blocchi di 1000 estrazioni,
mediamente solo 3 estrazioni per blocco cadranno all’esterno dell’intervallo
suddetto.
E’ pur vero che una misura è modellizzata, in genere, da una vc normale,
ma nello sviluppo dei calcoli si incontrano grandezze derivate, come il quadrato della vc scarto, che hanno distribuzione diversa dalla normale. Fra le
vc conosciute e studiate, meritano di essere menzionate la vc uniforme, la
χ2 e la t di Student.
3.6.2
La variabile casuale uniforme
La variabile casuale uniforme è molto semplice ed è caratterizzata da una
fU costante su un intervallo finito [a, b]

x ∈ [a, b]
 c
fU (x) =
(3.26)

0
altrove
18
Vittorio Casella - Dispense, parte 1
La condizione di normalizzazione pone un vincolo che lega i tre parametri
in gioco
1
c(b − a) = 1 → c =
b−a
Media e varianza assumono rispettivamente i valori
a+b
Il punto medio dell’intervallo[a, b]
(3.27)
2
(b − a)2
σ2 =
(3.28)
12
E’ certamente ragionevole che la varianza, misura della dispersione, dipenda dalla lunghezza b − a dell’intervallo sul quale la vc uniforme esiste;
è convincente anche il fatto che una grandezza quadratica come la varianza
dipenda dal quadrato di tale lunghezza.
µ=
3.7
Variabile casuale funzione di un’altra variabile
casuale - Risultati parziali
Nelle situazioni pratiche capita spesso, dovendo determinare una grandezza
X, di misurare una grandezza Y , legata alla precedente da una relazione
X = g(Y )
Per fare un esempio, dovendo determinare l’area di un piazzale quadrato, si
potrebbe misurare la lunghezza di un lato ed elevarla al quadrato: si pone
dunque il problema della funzione di una vc. In genere si ha che, se Y è una
vc, cioè un fenomeno aleatorio, anche X lo sarà.
Il problema generale della vc casuale funzione di un’altra è il seguente:
se Y è una vc avente come funzione densità di probabilità fY (y) e se X è una
seconda vc legata alla precedente dalla relazione X = g(Y ) è possibile dedurre la forma funzionale della densità di probabilità di X, cioè fX (x). Tale
problema non verrà affrontato in questa sezione, che fornirà semplicemente
alcuni risultati relativi a media e varianza.
Ciononostante premettiamo una osservazione sulla forma della densità
di probabilità di una vc funzione di altre: la vc somma delle vc X e Y non
ha come densità di probabilità la somma delle densità di probabilità delle
vc addende. Sia Z la somma di X e Y : essa non ha come densità la somma
di fX (x) e fY (y), anzitutto perchè tale funzione non è normalizzata a 1;
inoltre supponendo che X sia normale e concentrata attorno a 100 e Y sia
normale e concentrata attorno a 200, è ragionevole pensare che X + Y sia
concentrata attorno a 300, mentre la somma fX (x) + fY (y) è bimodale (ha
due massimi) attorno a 100 e 200.
Veniamo ora al problema della vc funzione di un’altra: ci limiteremo
come detto ad enunciare alcuni risultati parziali interessanti. Uno, anzitutto,
riguarda le trasformazioni lineari di vc normali.
19
Vittorio Casella - Dispense, parte 1
Teorema 1 (Funzione lineare di una vc normale) Sia Y = N [µY , σY ])
e siano a e b due costanti; allora X = aY + b è una vc normale, e in
particolare
X = N [aµY + b, aσY ])
Dunque la normalità è conservata sotto trasformazioni lineari. Ciò non
avviene in genere, per trasformazioni qualunque. Se si considera ad esempio X = Y 2 , dove Y è una normale, si comprende immediatamente che
X non può essere dello stesso tipo in quanto ha come spazio campionario
R+ (cioè l’insieme dei numeri reali positivi), mentre lo spazio campionario
di una normale è R. Questa conclusione ha valore generale: la funzione
di una vc appartenente ad una certa famiglia (N, t, U, χ2 ) non appartiene
necessariamente alla stessa famiglia.
Il risultato appena enunciato può essere generalizzato in due maniere,
considerando vc qualunque e considerando trasformazioni qualunque. Enunciamo un interessante risultato sulla trasformazioni lineari di vc qualunque.
Teorema 2 (Funzione lineare di una vc) Se X = aY + b dove Y è una
vc, allora
µX = aµY + b
(3.29)
2
σX
= a2 σY2
(3.30)
Consideriamo ora il caso di trasformazioni generiche: se la funzione g è
qualsiasi, è possibile dedurre delle relazioni approssimate. Si può dimostrare che se la funzione g ha un andamento regolare, senza grosse variazioni,
nell’intervallo in cui Y è concentrata, vale un importante risultato.
Teorema 3 (Media e varianza di una vc funzione di un’altra) Se fra
due vc X ed Y esiste una relazione del tipo X = g(Y ) e g ha un andamento
abbastanza regolare, senza grosse variazioni di pendenza, sull’intervallo in
cui Y si concentra, allora vale
µX ' g(µY )
2
0
(3.31)
2 2
σX ' g (µY ) σY
(3.32)
Consideriamo ora un esempio. Sia L la vc associata alla misura del
lato di un quadrato e sia A la vc associata all’area del quadrato stesso. La
relazione che le lega è, evidentemente A = L2 . La funzione g è in tal caso
g(x) = x2 : applicando i risultati del teorema 3 si ha
µA ' µ2L
(3.33)
σA2 ' (2µL )2 σL2
(3.34)
σA ' 2µL σL
(3.35)
20
Vittorio Casella - Dispense, parte 1
L
A=LxL
eL x L
eL x L
eL
eL x eL
L
eL
Figura 3.3: Visualizzazione della propagazione dell’errore nel calcolo di
un’area
Emerge che l’errore che si commette nella misura del lato si propaga quando tale misura viene manipolata formalmente per determinare l’area del
quadrato.
Il risultato appena conseguito può essere meglio compreso se si adotta
una scrittura meno rigorosa e si indicano i valori veri rispettivamente con L
e A e i valori misurati rispettivamente, con L̄ e Ā; indicando con L l’errore
di cui è affetto L, si può scrivere
L̄ = L + L
2
(3.36)
2
2
2
Ā = L̄ = (L + L ) = L + 2LL + L
2
= A + 2LL + L
(3.37)
(3.38)
da cui si può dedurre che l’errore che caratterizza A è il seguente
A = 2LL + 2L
Tale conclusione è in accordo con la 3.35 e può essere facilmente spiegata
con una illustrazione.
Per precisione si deve notare che la Fig. 3.3 evidenzia come quest’ultima
trascuri i termini di errore del secondo ordine. Ciò è dovuto al fatto che le
relazioni 3.31 e 3.32 sono approssimate e sono state ottenute sviluppando
la funzione g in serie di Taylor troncata al primo ordine: questo semplice
esempio evidenzia dunque anche i limiti di validità delle suddette relazioni.
21
Vittorio Casella - Dispense, parte 1
3.8
Intervallo di confidenza
Consideriamo un valore α ∈ [0, 1] e, fissata una vc X, cerchiamo un intervallo di R nel quale X sia localizzata con probabilità 1 − α. La soluzione è
un intervallo di confidenza con livello di significatività α il cui significato è
chiarito, ancora una volta, dall’interpretazione frequentistica di probabilità:
estraendo N volte da X, ci aspettiamo di trovare valori compresi nell’intervallo di confidenza circa N (1 − α) volte. E’ chiaro che il problema descritto
ha un interesse pratico solo se α è abbastanza piccolo: comunemente si
scelgono i valori 0.05 e 0.01.
Affronteremo il problema per gradi: cerchiamo anzitutto un intervallo di
confidenza della forma ]−∞, a]; chiediamo dunque che a soddisfi l’equazione
P (] − ∞, a]) = 1 − α
(3.39)
FX (a) = 1 − α
(3.40)
cioè che sia
Si tratta di un’equazione in a che, in genere, non si sa risolvere in forma
chiusa1 . Si ricorre allora a soluzioni approssimate mediante tabelle oppure
programmi, come ad esempio MATLAB. La soluzione si indica con Xα . Essa
è caratterizzata dalla proprietà
P (] − ∞, Xα ]) = 1 − α
(3.41)
Dovendo stabilire un intervallo limitato a destra e a sinistra, la scelta
che viene fatta usualmente è
[Xα/2 , X1−α/2 ]
(3.42)
anche se non è l’unica scelta possibile.
Per le vc la cui fX (x) è simmetrica rispetto all’origine, come ad esempio
la normale standardizzata e la t di Student, è possibile stabilire un legame
fra i due estremi dell’intervallo di confidenza.
Dimostreremo anzitutto che si ha
P (] − ∞, −a]) = P ([a, ∞])
∀a
(3.43)
Per definizione di funzione densità di probabilità si ha
Z −a
P (] − ∞, −a]) =
dxfX (x)
(3.44)
−∞
Effettuando un cambio di variabile u = −x si ha
Z −a
Z
dxfX (x) = −
P (] − ∞, −a]) =
−∞
a
dufX (−u)
∞
Per le vc continue trattate in queste note, si ha che FX è C ∞ (R) e monotona e dunque
invertibile, ma non si sa dare esplicitamente la funzione FX nè, tantomeno, FX−1 .
1
22
Vittorio Casella - Dispense, parte 1
Ricordando che lo scambio degli estremi di integrazione dell’integrale definito
ne cambia il segno, si ha
Z ∞
P (] − ∞, −a]) =
dufX (−u)
a
Sfruttando la simmetria della funzione integranda si ha infine il risultato
cercato
Z ∞
P (] − ∞, −a]) =
dufX (u) = P ([a, ∞])
a
Ricordando ora che, per definizione, Xα/2 è caratterizzato dalla proprietà
P ([−∞, Xα/2 ]) = α/2
e che, per quanto appena dimostrato, si ha anche
P ([−Xα/2 , ∞]) = α/2
si può ricavare
P ([−∞, −Xα/2 ]) = 1 − α/2
da cui la la conclusione
X1−α/2 = −Xα/2
3.8.1
Intervalli di confidenza di vc normali
Affrontiamo il problema del calcolo dell’intervallo di confidenza al livello di
significatività α per una vc normale qualunque X = N [µX , σX ]); indichiamo tale intervallo con [Xα/2 , X1−α/2 ]. E’ opportuno calcolare l’intervallo
di confidenza dello stesso livello di significatività per la vc standardizzata,
[Zα/2 , Z1−α/2 ] e poi ricavare quello della X mediante la 3.24
Xα/2 = Zα/2 σX + µX
(3.45)
X1−α/2 = Z1−α/2 σX + µX = −Zα/2 σX + µX
(3.46)
da cui il risultato che lo IC cercato è centrato sulla media µX e ha semilunghezza −Zα/2 σX .
3.8.2
Esercizi sull’intervallo di confidenza
1. Si consideri la normale N [2, 2] e si calcolino gli estremi dell’intervallo
di confidenza di probabilità al 95% e al 99%.
2. Data la normale N [−8, 3] e si calcoli la probabilità dell’intervallo ] − ∞, 2]
e di quello [−10, −3].
23
Scarica

Misure e Probabilità