Assiomi della Probabilità
1.
La probabilità di una qualunque ipotesi A è un numero reale
non-negativo, i.e. P (A) ≥ 0
2.
La probabilità di una qualunque verità necessaria T è 1,
i.e. P (T) = 1
3.
Se A e B sono mutuamente esclusive (A ∩ B = ∅ ) allora la
somma delle loro probabilità eguaglia la probabilità della loro
unione, i.e
P (A ∪ B) = P (A) + P (B)
se A ∩ B = ∅
a)
P (A) = 1 - P (Ā)
b)
P (∅ ) = 0
c)
A ⊆ B ⇒ P (A) ≤ P (B)
d)
P (A ∪ B) = P (A) + P (B) - P (A ∩ B)
Assiomi della Probabilità
A
B
A∩B
4
La probabilità della congiunzione di A e B è data dal prodotto della
probabilità condizionata P (A | B) e della probabilità di B, i.e.
P (A ∩ B) = P (A | B) P (B)
Probabilità Condizionata

P (A | B) ≡ probabilità di A dato B; P (A ∩ B) ≡ probabilità che A e B
si verifichino
P (A ∩ B) ≠ P (A | B)
Esempio: A = B
P (A) = P (A ∩ A) ≤ P (A | A) = 1
i.e. “A dato A” è un evento certo indipendentemente dal valore di P
(A) (anche se P (A) = 0)

L’evento A | B può avere 3 valori:
 VERO (A = vero e B = falso)
 FALSO (A = falso e B = vero)
 INDETERMINATO (B = falso)
Probabilità Condizionata

P (A ∩ B) = P (A) P (B)
Eventi indipendenti:
⇒
P (A | B) = P (A)
P (B | A) = P (B)
i.e., sapere che un evento si è verificato non altera la probabilità
dell’altro.
Invece, se P(A | B) ≠ P(A) gli eventi A e B sono correlati:
 positivamente se P (A | B) > P (A)
 negativamente se P (A | B) < P (A)

Scambiando A e B nell’assioma 4, si ha:
P (B ∩ A) = P (B | A) P (A)
A∩B≡B∩A
⇒
P (A | B) P (B) = P (B | A) P (A)
Teorema di Bayes
Consideriamo tutte le possibili (mutuamente esclusive) ipotesi Hi che
potrebbero influenzare un dato evento E → qual’è la probabilità di Hi
sotto l’ipotesi dell’occorrenza di E ?
i.e., avendo osservato un effetto, assegnare la probabilità di ciascuna
delle cause che potrebbero averlo prodotto (= inferenza)
Ipotesi Hi
- mutuamente esclusive, i.e. Hi ∩ Hj = ∅ , ∀ (i, j)
- esaustive, i.e. ∪i Hi = 

E=
∪i
E ∩ Hi
H1
Hi
E
H2
Hn
Teorema di Bayes
P (E) = P (∪i E ∩ Hi ) = ∑i P (E ∩ Hi )
= ∑i P (E | Hi) P (Hi)
P (Hi | E) P (E) = P (E | Hi) P (Hi)
teorema di Bayes
P(Hi | E) =
P (E | Hi) P (Hi)
∑i P (E | Hi) P (Hi)
Phil. Trans. R. Soc. 53, 370 (1763); Biometrika 45, 293 (1958)
Teorema di Bayes
Espressioni alternative per il teorema di Bayes
 ripristinando P (E)
P (Hi | E)
P (Hi)
=
P (E | Hi)
P (E)
i.e. P (Hi) è alterato dalla condizione E con lo stesso rapporto
con cui P (E) lo è dalla condizione Hi
 poiché il denominatore nell’espressione del teorema di Bayes è
solo un fattore di normalizzazione che fa si che risulti
∑i P (Hi | E) = 1
è possibile riscrivere il teorema nella forma seguente:
Teorema di Bayes
P(Hi | E) ∝ P (E | Hi) P (Hi)
questa forma del teorema mostra esplicitamente come la probabilità
di una certa ipotesi è aggiornata a seguito del cambiamento dello
stato di informazione
P (Hi) = probabilità iniziale (a priori), i.e. la probabilità di Hi
“prima” di sapere che si è verificato E
P (Hi | E) = probabilità finale (a posteriori), i.e. la probabilità Hi
“dopo” la nuova informazione
P (E | Hi) = likelihood
N.B. - nessun ordinamento temporale: prima e dopo si riferiscono
alla considerazione o meno della nuova informazione
Teorema di Bayes
Causa = qualunque sorgente fisica in grado di produrre un dato
osservabile, i.e. un effetto
Likelihood indica la verosimiglianza che una causa produrrà un certo
effetto
Esempio: particella carica che attraversa materiale in cui rilascia
una certa quantità d’energia
 Causa: tutte le possibili particelle che attraversano il
rivelatore
 Effetto: quantità di energia persa
 Likelihood: probabilità che ciascuna delle particelle
rilasci quella quantità d’energia
Applicazioni del teorema di Bayes
• Esempio 1: test per un certo virus influenzale
P (virus) = 0.001
P (no virus) = 0.999
→
probabilità a priori, i.e. prima
di aver sostenuto il test
Il test prevede 2 soli risultati: + / −
P (+ | virus) = 0.98
P (− | virus) = 0.02
→
probabilità dei 2 possibili risultati
nel caso di persona infetta
P (+ | no virus) = 0.03
P (− | no virus) = 0.97
→
probabilità dei 2 possibili risultati
nel caso di persona sana
Il risultato del test è + → devo preoccuparmi ?
Applicazioni del teorema di Bayes
La probabilità di essere infetto dato un risultato + del test è:
P (+ | virus) P (virus)
P (virus | +) =
P (+ | virus) P (virus) + P (+ | no virus) P (no virus)
=
0.98 x 0.001
0.98 x 0.001 + 0.03 x 0.999
= 0.032
probabilità a posteriori
la probabilità di essere infetto dato un risultato +
del test è soltanto il 3.2 %, i.e. sono OK !
Risultato sorprendente ? NO, la probabilità a priori è molto piccola (0.1 %)
Applicazioni del teorema di Bayes
… e la probabilità di essere infetto dato un risultato − ?
P (− | virus) P (virus)
P (virus | −) =
P (− | virus) P (virus) + P (− | no virus) P (no virus)
=
0.02 x 0.001
0.02 x 0.001 + 0.97 x 0.999
… il test è affidabile
≅ 2.1 x 10-5
Applicazioni del teorema di Bayes
• Esempio 2: 3 scatole con 2 anelli ciascuna, ma una contiene 2
anelli d’oro, in un’altra gli anelli sono entrambi di
ferro e nell’ultima ci sono un anello d’oro e uno di
ferro
Si estrae un primo anello da una scatola il cui contenuto è
incognito → supponiamo che l’anello sia d’oro
Se voglio che anche il secondo anello sia d’oro è preferibile
estrarlo dalla stessa scatola o da una scatola diversa ??
Applicazioni del teorema di Bayes
E = anello di Au
 scatola A: Au-Au
⇒ P ( E | A) = 1
 scatola B: Au-Fe
⇒ P ( E | B) = 1/2
 scatola C: Fe-Fe
⇒ P ( E | C) = 0
Le probabilità iniziali, i.e. prima di aver estratto l’anello d’oro, per la scelta
delle 3 scatole è (per simmetria):
P (A) = P (B) = P (C) = 1/3
per cui (K = A, B, C)
P (E) = ∑K P (E | K) P(K) = 1 x
1
3
+
1
2
x
1
3
+ 0x
1
3
=
1
2
Applicazioni del teorema di Bayes
P (E | A) P (A)
P (A | E) =
P (E)
P (E | B) P (B)
P (B | E) =
P (E)
P (C | E) =
P (E | C) P (C)
P (E)
=
=
=
1 x 1/3
1/2
=
1/2 x 1/3
1/2
0 x 1/3
1/2
2
3
=
1
3
=0
S = anello successivo sarà d’oro se lo estraggo dalla stessa scatola
P (S | E) = P (S | A,E) P (A | E) + P (S | B,E) P (B | E) +
P (S | C,E) P (C | E)
=1x
2
3
+ 0x
1
3
+ 0x0 =
2
3
Applicazioni del teorema di Bayes
osservazioni sui 2 esempi
 Esempio 1 - probabilità utilizzate desunte da frequenze relative
osservate studiando un campione di pazienti sotto osservazione →
problema: cosa dire nel caso di un singolo paziente ?
Inevitabile
trasformazione (inconscia) frequenze → probabilità d’ipotesi, nel
senso di quanto confidente sono nelle 2 ipotesi (sano o infetto ?)
 Esempio 2 - significato di P (A | E) = 2/3 e P (B | E) = 1/3 ?
esistono solo 2 eventi: Au e Fe ! quali sono gli equiprobabili favorevoli
e possibili casi ? se la probabilità è il rapporto tra questi numeri, in
qualunque momento potrebbe esserci richiesto di elencare questi casi
equiprobabili che servono per calcolarlo.
Anche in questo, almeno intuitivamente, tutti interpretano 2/3 e 1/3
come quanto essere confidenti in ciascuna ipotesi
analisi del concetto di probabilità
Concetto di Probabilità
2 definizioni “standard” (da libro di testo):

definizione combinatoria - rapporto tra il numeri di casi
favorevoli e il numero totale dei casi
… se tutti i casi sono equiprobabili → definizione circolare
spesso si trova scritto: “se tutti i casi sono egualmente possibili”
→ soluzione ? NO, in tale contesto “possibile” ≡ “probabile”
Questa definizione è, al più, una regola per calcolare la
probabilità

definizione frequentista - rapporto tra il numero di volte che
l’evento si presenta nelle ripetizioni di un certo esperimento e
il numero totale di prove
Concetto di Probabilità
Insoddisfacente per 2 motivi:
a)
non è detto che il numero di ripetizioni deve essere molto
grande (→ ∞)
b)
definisce la frequenza relativa con cui l’evento è occorso
nel passato che per essere usata come misura della
probabilità richiede l’ipotesi che l’evento è occorso nel
passato e occorrerà nel futuro con la stessa probabilità.
N.B. - il punto a) è secondario, ma il punto b) è cruciale: chi può
assicurarci che l’ipotesi sia valida? nessuno, siamo costretti a
fare congetture in ogni singolo caso
… in definitiva, che cos’è la probabilità ?
Probabilità Soggettiva
Dizionario Zingarelli
probabilità - condizione, carattere di ciò che è probabile;
probabile - credibile, verosimile, ammissibile in base a motivi e
argomenti abbastanza sicuri
probabile si contrappone a certo: se non possiamo affermare con
sicurezza che un evento è vero/falso, diciamo che è possibile o
probabile
eventi diversi possono avere gradi di probabilità differenti a
seconda se pensiamo che per essi è più verosimile essere veri o
falsi, e.g dati due eventi E1 e E2
o considero E2 più probabile di E1
o sono più confidente in E2
o dovendo scommettere scelgo senza dubbio E1
Probabilità Soggettiva
probabilità come misura della fiducia, del
grado di confidenza, che riponiamo nel fatto
che un certo evento si verificherà
N.B. - l’uso del futuro non implica ordinamento temporale, ma sta
ad indicare che l’affermazione sarà provata essere vera
anche se si riferisce al passato (e.g. probabilità che il giorno
della vostra laurea fosse soleggiato)
La probabilità come atto di fede ?? … È una definizione utile ?? …
Se riflette il nostro personale grado di fiducia, come è possibile
basare su essa una logica oggettiva d’inferenza induttiva ?? … Le
definizioni combinatoria e frequentista, se non altro, forniscono regola
per calcolare qualcosa. E quella soggettiva ??
La definizione necessita indubbiamente di alcune spiegazioni … ma
già così presenta indubbi vantaggi
Probabilità Soggettiva

naturale, (molto) generale e applicabile a qualunque evento
indipendentemente dalla possibilità di:
 costruire un elenco di tutti i casi possibili e favorevoli
 ripetere gli esperimenti sotto condizioni di equiprobabilità

non richiede distinzione tra la probabilità “scientifica” e quella
“non-scientifica” (i.e. quella usata nella vita di tutti i giorni)

nel caso di misure, consente di parlare della probabilità del valore
vero di una quantità (teoria) fisica
N.B. - nell’approccio frequentista si può parlare solo della probabilità
di un risultato sperimentale: il valore vero è una costante

Consente teoria generale dell’incertezza che tiene conto di
qualunque sorgente d’errore statistico e sistematico
Gioco di de Finetti
Un vostro studente afferma di essere sicuro al 100 % di
aver superato con successo il test di Matematica
Come fare per stabilire quanto lo studente sia veramente
sicuro di essere andato bene ?
gioco di de Finetti: serie di domande volte a valutare il
grado di fiducia p che lo studente ripone nell’affermazione
“test perfetto” (= probabilità soggettiva)
Strumenti (virtuali) del gioco:
 scatola con R palle rosse e B palle blu (R + B = 100)
 una posta S in denaro, e.g. 1 M€
Gioco di de Finetti
Si propongono allo studente 2 alternative:
 A = aspettare il risultato del test, se prende il massimo vince S
 E = estrarre una palla dalla scatola, se prende una palla R vince S
1.
A
E (R = 98)
⇒
p ≤ 0.98
2.
A
E (R = 80)
⇒
0.8 < p ≤ 0.98
3.
A
E (R = 90)
⇒
0.8 < p ≤ 0.9
4.
A
E (R = 85)
⇒
0.8 < p ≤ 0.85
5.
A
E (R = 83)
(i.e. scelta indifferente)
p = 0.83
Teorema Ramsey-de Finetti
Scommessa che prevede che una parte (A) sia disposta a scambiare con
l’altra (B) una certa somma pS con l’opportunità di ricevere:
• una somma S (≠ 0) se una certa ipotesi H è vera
• 0 se l’ipotesi H è falsa
somme incassate dai due contraenti:
H
A
B
vera
S - pS
pS - S
falsa
-pS
pS
Ipotesi: p è tale che la scommessa è leale, i.e. non c’è alcun
vantaggio a scegliere uno o l’altro lato della scommessa → p
= grado di confidenza in H
N.B.- p < 1 (scommessa coerente): chi scommetterebbe con p > 1 ??
Teorema Ramsey-de Finetti
Insieme finito di ipotesi arbitrarie Hi con gradi di confidenza pi
→ Strategia di gioco rispetto alle Hi è un insieme di decisioni
della forma: scommetti a favore (o contro) ciascuna Hi
Teorema: se le pi non soddisfano gli assiomi della probabilità, allora
esistono poste Si e una strategia di gioco per le Hi che
necessariamente comportano una perdita certa per chiunque
segua questa strategia, i.e. le scommesse non sono tutte leali
Esempio: assioma 2 (i.e. P (T) = 1)
 p = P (T) > 1 → poiché T è necessariamente vera chi scommette
su T ha una perdita garantita pari a pS - S
 p = P (T) < 1 → chi scommette contro T ha una perdita garantita
pari a S - pS
i.e. in entrambi i casi una o l’altra parte perdono con certezza →
nessun valore p ≠ 1 può essere leale
Teorema Ramsey-de Finetti
… i gradi di confidenza possono essere personali ma non sono
infondati o anarchici: devono soddisfare gli assiomi della probabilità
… gioco d’azzardo e fisica: quale legame ??
La definizione della probabilità tramite le puntate delle scommesse è
operativa, sebbene non ci sia alcun bisogno di fare una scommessa
(con chi ?) ogni volta che viene presentato un risultato. Lo scopo
della scommessa è di costringere a un’assegnazione onesta della
probabilità.
Il fatto che la procedura operativa non sia da prendere alla lettera non
deve suscitare scandalo, basti pensare alla definizione di sostanza
chimica velenosa: qualcosa che è letale se ingerita … anche se
rappresenta la migliore definizione possibile del concetto, è meglio
mantenere questa definizione operativa a livello ipotetico.
Statistica Bayesiana
probabilità soggettiva + teorema di Bayes = statistica Bayesiana
A = ipotesi che una certa teoria sia vera
B = ipotesi che un esperimento darà un certo
risultato, i.e. dei dati
teorema di Bayes assume la forma:
P (teoria | dati) ∝ P(dati | teoria) P (teoria)
probabilità a posteriori che
la teoria è corretta dopo
aver osservato il risultato
dell’esperimento
probabilità, sotto
l’assunzione della
teoria, di osservare i
dati effettivamente
ottenuti
probabilità a priori
che la teoria sia vera
Statistica Bayesiana
… ancora l’esempio del test influenzale
punto di vista del virologo, i.e. di chi studia un gran numero di potenziali
portatori del virus → probabilità come frequenze relative (frequentista):
P (virus) = frazione f di persone infette; P (virus | +) = frazione di persone
che sono infette tra quelle per le quali il test è +
punto di vista del paziente, i.e. del singolo che si sottopone al test → se
nessun altra info è disponibile si assume:
P (virus) = f, i.e. come nel caso frequentista, ma interpretandola come
grado di confidenza dell’ipotesi ‘infetto’ prima di eseguire il test.
altre info a disposizione probabilità a priori differenti potrebbero essere
assegnate (aspetto soggettivo della statistica bayesiana)
Una volta assegnata P (virus), però, il teorema di Bayes ci dice come la
probabilità di avere il virus, i.e. il grado di confidenza in questa ipotesi,
cambia alla luce del risultato + del test
se
Statistica Bayesiana
Esempio 3 - C’è da lavare i piatti dopo cena. Il vostro partner propone di
lasciar decidere alla sorte: lava i piatti chi estrae dal mazzo la
carta più bassa. Voi accettate e perdete … La cosa si ripete
nei giorni successivi: tocca sempre a voi lavare i piatti … Qual
è la probabilità che il vostro partner cominci a barare al
crescere del numero n di vittorie consecutive ?
• B = il partner è un baro
Le ipotesi sono 2:
• O = il partner è onesto
 P (B) è bassa (è pur sempre dell’uomo/donna della vostra vita …)
ma ≠ 0: assumiamo P (B) = 0.05
 assumiamo (per semplificare) che un baro vince sempre: P (Sn | B) = 1
 assumiamo che la chance di vittoria ad ogni prova è 1/2 → probabilità
di vittoria se onesto è:
P (Sn | O) = 1/2n
Statistica Bayesiana
P (Sn | B) P (B)
P (B | Sn) =
=
P (Sn | B) P (B) + P (Sn | O) P (O)
1 x 0.05
1 x 0.05 + 0.95 x 2-n
n
P (B | Sn)
(%)
P (O | Sn)
(%)
1
9.5
90.5
2
17.4
82.6
3
29.4
70.6
4
45.7
54.3
5
62.7
37.3
Statistica Bayesiana
 La risposta è sempre probabilistica: non potete mai essere
completamente certi che il vostro partner sia un baro … Ciò è
coerente con il fatto che stiamo trattando eventi casuali e con il
fatto che qualunque sequenza di risultati ha la stessa probabilità
(sebbene ci sia solo 1 possibilità su 2n che il vostro partner sia
sempre il più fortunato).
In base al valore di P (B | Sn), voi potete decidere come agire:
• continuare il gioco, con probabilità P (B | Sn) di
perdere certamente alla prossima estrazione
• smettere di giocare, con probabilità P (O | Sn) di
offendere il vostro innocente partner
 P (B) = 0 → la probabilità finale rimane sempre = 0, i.e. se voi
credete ciecamente nell’onesta del vostro partner, allora dovete
solo registrare il verificarsidi un evento raro al crescere di n.
Statistica Bayesiana
dipendenza della probabilità finale da quella iniziale per un dato numero
n di vittorie
P (B)
(%)
P (B | Sn) (%)
n=5
n = 10
n = 15
n = 20
1
24
91.1
99.7
99.99
5
63
98.2
99.94
99.998
10
78
99.1
99.97
99.999
50
97
99.9
99.997
99.9999
• al crescere del numero di osservazioni sperimentali la conclusione (i.e. la
probabilità a posteriori) diviene indipendente da quella a priori
• i risultati sono stabili rispetto a variazioni ragionevoli della probabilità a
priori (cfr. i casi P (B) = 5 %, 10 %)
Referenze
Tutti gli argomenti sono trattati con maggiore ampiezza e profondità nel
libro di Giulio D’Agostini, “Bayesian Reasoning in Data Analysis”, World
Scientific (2003)
Il libro è il culmine del lavoro decennale dell’autore nell’ambito della
analisi dei dati nella Fisica delle Particelle Elementari. Traccia di tutta
questa attività è reperibile sul sito web
www.roma1.infn.it/˜dagos
Scarica

D.Babusci