statistica
teoria della probabilità
alessandro polli
facoltà di scienze politiche, sociologia, comunicazione
18 maggio 2015
Generalità
Il probabilismo gnoseologico
La teoria della probabilità, prima ancora che una branca della matematica,
è un «modo di vedere il mondo»
La dottrina del Probabilismo trae le sue origini dall’Accademia platonica
legata alla corrente scettica (III sec. a.C.) con Arcesila di Pitane (315 – 241
a.C.) e soprattutto con Carneade di Cirene (219 – 129 a.C.)
Poiché per questa scuola la verità (ideale e assoluta) è inconoscibile
(pensate al mito platonico della caverna, tanto per capirci), si può
assumere come «vera» l’opinione più probabile. Parleremo in questo caso
di Probabilismo gnoseologico
Questo approccio è vivo ancora oggi nella Epistemologia critica, proprio
per la serrata analisi che effettua al concetto di conoscenza
Generalità
Il problema della ripartizione della posta in Pacioli
I primi contributi all’elaborazione della teoria della probabilità risalgono
alla fine del XV secolo
Luca Pacioli, amico di Leonardo da Vinci, in uno dei volumi della Summa
de arithmetica, geometria, proportioni et proportionalita pubblicata
nel 1494, si occupa del problema della ripartizione della posta tra
giocatori nel caso di interruzione di un popolare gioco, problema
presentato originariamente in un manoscritto anonimo degli inizi del XV
secolo
Il problema è il seguente: si considerino due giocatori 𝐴 e 𝐵 che stiano
giocando una partita, ad esempio giocando con una moneta a «testa o
croce», in cui vince la somma 𝑠 (scommessa per metà da ciascun
giocatore) chi per primo raggiunge 𝑛 punti
Generalità
Il problema della ripartizione della posta in Pacioli
Al momento dell’interruzione della partita, il giocatore 𝐴 ha totalizzato 𝑎
punti, mentre 𝐵 ne ha totalizzati 𝑏, con 𝑎, 𝑏 < 𝑛. Luca Pacioli propone il
problema con 𝑛 = 60, 𝑎 = 50 e 𝑏 = 20 e la soluzione da lui individuata
è di dividere la posta assegnando ad 𝐴 e a 𝐵 rispettivamente le somme
𝑠 𝐴 =𝑠
𝑎
𝑎+𝑏
𝑠 𝐵 =𝑠
𝑏
𝑎+𝑏
e quindi non tenendo conto del fatto che uno dei due giocatori possa
essere «più vicino» ad ottenere il punteggio che gli farebbe conseguire
la posta in palio
Generalità
La critica di Tartaglia
Il problema è successivamente studiato da Tartaglia, che critica la
soluzione di Pacioli, osservando che, nel caso di interruzione dopo la
prima partita, se 𝐴 ha vinto e 𝐵 ha perso, poiché 𝑎 = 1, 𝑏 = 0 e
𝑎 + 𝑏 = 1 + 0 = 1, si avrebbe che
𝑠 𝐴 =𝑠
1
=𝑠
1
𝑠 𝐵 =𝑠
0
=0
1
con la conclusione paradossale che in caso di interruzione del gioco
dopo la prima partita 𝐴 otterrebbe la stessa somma che avrebbe vinto
nel caso di 𝑛 partite effettivamente disputate
Generalità
Pascal e Fermat giocano a testa o croce
Il problema è risolto nel XVII secolo da Fermat e Pascal, sulla base di un
ragionamento che è alla base del moderno calcolo combinatorio.
Vediamo come
Fermat e Pascal giocano a testa o croce. Ciascuno scommette 50 ducati,
per un totale di 100 ducati. Ogni partita vinta vale un punto. Se esce
testa il punto è di Fermat, se esce croce il punto è di Pascal. I due uomini
stabiliscono che quando uno di essi avrà raggiunto 10 punti, potrà
prendersi i 100 ducati
Purtroppo devono smettere di giocare quando Fermat sta vincendo per
8 a 7. Come si divideranno i 100 ducati?
Generalità
Pascal e Fermat giocano a testa o croce
Per Pacioli la soluzione sarebbe la seguente: indicando con 𝑎 = 8 il
numero di vittorie di Fermat e con 𝑏 = 7 le vittorie di Pascal, la
suddivisione della posta sarebbe la seguente:
𝑎
8
= 100
= 53,33
𝑎+𝑏
15
𝑏
7
𝑠 𝑃 =𝑠
= 100
= 46,67
𝑎+𝑏
15
𝑠 𝐹 =𝑠
ma sappiamo (lo dimostra Tartaglia) che tale soluzione non è
soddisfacente sotto molti punti di vista
Vediamo come risolve il problema Fermat
Generalità
Il ragionamento di Fermat
A Fermat mancano ancora 2 punti per vincere, mentre a Pascal ne
mancano 3, quindi sarebbero necessarie al massimo 4 partite per
decidere il vincitore: infatti, in 3 partite, nella peggiore delle ipotesi
Fermat potrebbe conquistare 1 punto e Pascal 2 e in questo caso la
quarta partita sarebbe quella decisiva
Indicando con 𝑇 l’evento «testa» e con 𝐶 l’evento «croce», la seguente
tabella riporta tutte le possibili sequenze di risultati nelle 4 partite:
𝑇𝑇𝑇𝑇 ∗
𝐶𝑇𝑇𝑇 ∗
𝐶𝑇𝐶𝑇 ∗
𝐶𝑇𝐶𝐶
𝑇𝑇𝑇𝐶 ∗
𝑇𝑇𝐶𝐶 ∗
𝐶𝑇𝑇𝐶 ∗
𝐶𝐶𝑇𝐶
𝑇𝑇𝐶𝑇 ∗
𝑇𝐶𝑇𝐶 ∗
𝐶𝐶𝑇𝑇 ∗
𝐶𝐶𝐶𝑇
𝑇𝐶𝑇𝑇 ∗
𝑇𝐶𝐶𝑇 ∗
𝑇𝐶𝐶𝐶
𝐶𝐶𝐶𝐶
Le sequenze in cui Fermat vince il gioco sono contrassegnate dal
simbolo *: è evidente che in 11 delle 16 sequenze possibili, Fermat
vince, mentre in 5 delle 16 sequenze vince Pascal
Generalità
Il ragionamento di Fermat
Poiché su 16 eventi possibili, 11 sono favorevoli a Fermat e 5 sono
favorevoli a Pascal, in caso di interruzione del gioco la soluzione più
ragionevole è dividere i 100 scudi in parti proporzionali in ragione di 11
a 5 e quindi
11
= 68,75
16
5
𝑠 𝑃 = 100
= 31,25
16
𝑠 𝐹 = 100
È evidente che la soluzione appare più equa di quella proposta da Pacioli
(che, a dire il vero, non era completamente convinto della soluzione da
lui stesso proposta … )
Generalità
La generalizzazione di Pascal
Pascal propone una soluzione più generale. Affinché Fermat vinca il
gioco, è sufficiente che nelle ultime 4 partite si verifichi almeno 2 volte
l’evento «testa» (cioè 2, 3 o 4 volte «testa»)
In quanti modi possono uscire 2 «teste» in 4 lanci? Consultando la
precedente tabella, il numero di sequenze di 4 lanci in cui l’evento
«testa» si verifica 2 volte è pari a 6. Più in particolare:
𝑇𝑇𝐶𝐶
𝑇𝐶𝑇𝐶
𝑇𝐶𝐶𝑇
𝐶𝑇𝑇𝐶
𝐶𝑇𝐶𝑇
𝐶𝐶𝑇𝑇
Analogamente, in quanti modi possono verificarsi 3 «teste» in 4 lanci?
Consultando la tabella, ci accorgiamo che il numero di sequenze di 4
lanci in cui «testa» si verifica 3 volte è pari a 4. Infatti:
𝑇𝑇𝑇𝐶
𝑇𝑇𝐶𝑇
𝑇𝐶𝑇𝑇
𝐶𝑇𝑇𝑇
Generalità
La generalizzazione di Pascal
In ultimo, in quanti modi possiamo ottenere 4 volte «testa» in 4 lanci? È
agevole verificare che vi è solo una sequenza in cui si verifica 4 volte
«testa» in 4 lanci:
𝑇𝑇𝑇𝑇
Quindi i casi a favore di Fermat sono 6 + 4 + 1 = 11 su 16 casi possibili
Detto in altri termini, il numero di sequenze in cui si ottengono o 𝟐 o 𝟑
o 𝟒 volte «testa» è pari alla somma del numero di sequenze in cui si
ottengono 𝟐 volte testa, del numero in cui se ne ottengono 𝟑 e di
quello in cui se ne ottengono 𝟒
(tenete a mente questo risultato, perché come vedremo ci consentirà di
enunciare un assioma teorico molto importante … )
Generalità
La generalizzazione di Pascal
Domandiamoci adesso se è possibile evitare di elencare materialmente
tutte le combinazioni e di risalire al numero di sequenze favorevoli a
Fermat attraverso una semplice procedura di carattere matematico
Quello che segue è il triangolo di Tartaglia:
Riga 0
Riga 1
Riga 2
Riga 3
Riga 4
Riga 5
1
1 1
1 2 1
1 3 3 1
1 4 6 4 1
1 5 10 10 5 1
Osservate ad esempio la quarta riga, formata dai numeri 1, 4, 6, 4, 1.
Questi numeri indicano proprio quanti sono i modi in cui ottenere
rispettivamente 0, 1, 2, 3, 4 «teste» (o «croci») in 4 lanci di una moneta
Generalità
La generalizzazione di Pascal
Ora possiamo scrivere una formula più semplice e generale basata
sull'utilizzo del triangolo di Tartaglia
Due giocatori, 𝐴 e 𝐵, giocano a «testa o croce». Ogni partita vinta vale
un punto. Se esce l’evento «testa» il punto è di 𝐴, se esce «croce» il
punto è di 𝐵. I due giocatori stabiliscono che quando uno di essi avrà
raggiunto 𝑛 punti, potrà prendersi la posta
Purtroppo essi devono smettere di giocare quando ad 𝐴 mancano
ancora 𝑥 punti per vincere e a 𝐵 ne mancano 𝑦. Come si divideranno la
posta?
Generalità
La generalizzazione di Pascal
Con riferimento al triangolo di Tartaglia, la soluzione è la seguente:
• Collochiamoci in corrispondenza della 𝑥 + 𝑦 -esima riga del
triangolo di Tartaglia;
• Indichiamo con 𝑆 𝑥 + 𝑦 la somma di tutti gli elementi posti sulla
𝑥 + 𝑦 -esima riga;
• Indichiamo con 𝑆 𝑥 la somma dei primi 𝑥 termini;
La somma che spetterà al giocatore 𝐴 sarà proporzionale al rapporto:
𝑆 𝑥
𝑝 𝑥 =
𝑆 𝑥+𝑦
Generalità
La generalizzazione di Pascal
Analogamente, la somma che spetterà al giocatore 𝐵 sarà
proporzionale al rapporto
𝑆 𝑥+𝑦 −𝑆 𝑥
𝑆 𝑥
𝑝 𝑦 =
=1−
=1−𝑝 𝑥
𝑆 𝑥+𝑦
𝑆 𝑥+𝑦
Naturalmente, esiste anche un metodo meno empirico del
triangolo di Tartaglia per determinare il numero di sequenze
favorevoli a Fermat, basato sul calcolo combinatorio: lo
esamineremo più avanti nel corso della trattazione
Generalità
La probabilità dopo il carteggio Fermat-Pascal
Lo scienziato olandese Christian Huygens, un insegnante di Leibnitz,
ispirato dal carteggio tra Fermat e Pascal, pubblica nel 1657 il primo
trattato di teoria della probabilità, dal titolo De ratiociniis in ludo aleae
Poiché il libro si occupava di giochi aleatori, la cui «febbre» stava
dilagando in quel periodo, la teoria della probabilità divenne presto
famosa e si sviluppò rapidamente durante il XVIII secolo. Tra gli studiosi
ai quali si devono fondamentali contributi alla teoria della probabilità in
questo periodo, ricordiamo Jacob Bernoulli (1654-1705) e Abraham De
Moivre (1667-1754)
Generalità
Il contributo di Laplace
Nel 1812 Pierre Simon de Laplace (1749-1827) introduce nuove idee e
tecniche matematiche nel suo testo Théorie Analytique des Probabilités
Se prima di Laplace la teoria della probabilità si occupava per lo più
dello sviluppo di una matematica dei giochi aleatori, allo studioso
francese si deve l’applicazione di un approccio probabilistico in molti
problemi scientifici e pratici
La teoria degli errori, la matematica attuariale e la meccanica statistica
sono esempi di alcune delle applicazioni della teoria della probabilità
sviluppate nel XIX secolo
Generalità
Il contributo di Laplace
In quegli stessi anni, Gauss, con il contributo dello stesso Laplace,
presentava una prima formulazione della distribuzione normale,
conosciuta anche come distribuzione di Gauss-Laplace, che come
sappiamo costituisce uno dei cardini su cui si fonda la statistica moderna
Dai tempi di Laplace, molti studiosi hanno contribuito alla sviluppo
formale della teoria della probabilità. Tra i più importanti Chebychev,
Markov, von Mises, De Finetti e Kolmogorov
Generalità
La teoria della probabilità come teoria della misura
Una delle difficoltà nello sviluppo di una teoria matematica della
probabilità è stata il raggiungimento di una definizione di probabilità
sufficientemente rigorosa e precisa per l'utilizzo all’interno di un
modello matematico ma, al tempo stesso, flessibile al fine di essere
utilizzata per l’analisi di un’ampia gamma di fenomeni
Il problema è stato definitivamente risolto nel XX secolo, quando la
teoria della probabilità è stata riformulata su basi completamente
assiomatiche. Nel 1933, nella monografia Grundbegriffe der
Wahrscheinlichkeitsrechnung (Fondamenti di teoria della probabilità),
Kolmogorov delinea l’approccio assiomatico che è alla base della
moderna teoria della probabilità
Da allora, queste idee sono state alquanto sviluppate e la teoria della
probabilità ora è parte di una più generale disciplina matematica, la
teoria della misura
L’evoluzione nelle definizioni
Premessa
La realtà che ci circonda è la sintesi – il prodotto – di infiniti fatti le cui
cause si intrecciano e si sovrappongono. Nonostante l’estrema
complessità della realtà fenomenica e la difficoltà di individuare leggi
generali, l’osservazione e l’esperienza pongono in evidenza ripetizioni e
regolarità (è il cosiddetto problema sull’induzione di Hume) che possono
essere condensate in affermazioni del tipo: «Ogni volta che si realizza un
certo insieme di condizioni B, si verifica l’evento E»
In questo caso, l’evento E è detto evento certo, in quanto definito in
maniera univoca dall’insieme delle condizioni B. In notazione logica
scriveremo che
𝐸⊂𝐵
che si legge «𝐸 implica 𝐵»
L’evoluzione nelle definizioni
Premessa
Se il set informativo a disposizione dell’agente non è 𝐵, ma un
sottoinsieme parziale di condizioni 𝐶, non si avrà come conseguenza
necessaria il verificarsi di 𝐸. Si parlerà in questo caso di evento incerto,
o evento casuale
La teoria della probabilità è la branca delle discipline matematiche che
studia i problemi di definizione e misurazione dell’incertezza
L’evoluzione nelle definizioni
Premessa
Il concetto di probabilità si presenta con due significati:
• quello di chance, quando l’osservazione sul risultato di un
esperimento e la sua valutazione dipendono dal caso – nel senso
chiarito in precedenza – e l’esperimento è suscettibile di essere
ripetuto un gran numero di volte;
• quello di probabilità in senso stretto, attinente ad un esperimento
difficilmente ripetibile
L’evoluzione nelle definizioni
Premessa
Introduciamo tre concetti, che risulteranno utili nel seguito della
trattazione:
• Esperimento casuale. Operazione (o sequenza di operazioni) il cui
esito è incerto, nel senso che non può essere previsto con certezza
(pensate ad esempio al lancio di una moneta … )
• Evento elementare. Qualunque risultato cui può dare luogo un
esperimento. Gli eventi elementari 𝜔𝑖 possono essere considerati
come elementi di un più generale spazio degli eventi
• Spazio campione. È l’insieme di tutti gli eventi elementari o evento
certo Ω, nel senso che dato un esperimento casuale, o l’uno o l’altro
degli eventi elementari cui può condurre l’esperimento deve
necessariamente verificarsi. In generale gli eventi elementari
costituiranno sottoinsiemi in Ω.
L’evoluzione nelle definizioni
La definizione classica di probabilità
Originariamente dovuta a Laplace, afferma che dato uno spazio finito di
eventi 𝛀, la probabilità è il rapporto tra il numero 𝒏𝝎 dei casi favorevoli
al verificarsi di un qualunque evento 𝝎 e il numero 𝒏 dei casi possibili,
posto che gli eventi siano tutti equiprobabili
𝑃𝑟 𝜔 =
𝑛𝜔
𝑛
∀𝜔 ∈ Ω
Esempio 1. Consideriamo un semplice esperimento di lancio di una
moneta ben bilanciata. Il lancio di una moneta può avere come esito l’uno
o l’altro dei due eventi elementari «testa» e «croce»
Lo spazio campione sarà quindi composto dai due eventi elementari
«testa» e «croce» e quindi Ω = 𝑇, 𝐶
L’evoluzione nelle definizioni
La definizione classica di probabilità
Con riferimento all’evento elementare 𝜔 = 𝑡𝑒𝑠𝑡𝑎, poiché nel corso di un
esperimento casuale di lancio di una moneta gli eventi possibili sono due, di
cui soltanto uno favorevole al verificarsi dell’evento elementare «testa»,
avremo che 𝑛 = 2, 𝑛𝜔 = 1 e quindi la probabilità che si verifichi 𝜔 sarà data
dal rapporto
𝑛𝜔 1
𝑃𝑟 𝜔 =
=
𝑛
2
Lo stesso ragionamento, ovviamente, può essere seguito per valutare la
probabilità del verificarsi dell’evento elementare «croce»
L’evoluzione nelle definizioni
La definizione classica di probabilità
La definizione classica è una definizione a priori. Per esempio, con
riferimento all’esperimento consistente nel lancio di una moneta ben
bilanciata, l’agente conosce ex ante gli eventi elementari (testa, croce) cui
l’esperimento può dare luogo
Gli eventi hanno la caratteristica fondamentale di essere:
• necessari, in quanto nel corso dell’esperimento o l’uno o l’altro degli
eventi elementari deve necessariamente verificarsi
• mutuamente esclusivi (o incompatibili), tali cioè che il verificarsi dell’uno
esclude il verificarsi dell’altro
• equiprobabili, in quanto si assume che nessuno dei due eventi
elementari abbia maggiori chance di manifestarsi rispetto all’altro
L’evoluzione nelle definizioni
La definizione classica di probabilità
Per quanto di immediata comprensibilità e di pronta applicazione a semplici
problemi pratici, la definizione classica è insoddisfacente da un punto di
vista logico
Infatti, il riferimento nella definizione alla nozione di equiprobabilità degli
eventi elementari configura una tautologia: in logica la tautologia è
un’affermazione vera per definizione e, in quanto tale, fondamentalmente
priva di contenuto informativo; una tautologia, in altre parole, ragiona
circolarmente attorno agli argomenti o alle definizioni
Inoltre, a prescindere dalle sue lacune logiche, l’applicabilità della
definizione classica è confinata a quei contesti in cui l’osservatore sia in
grado di rappresentare ex ante lo spazio degli eventi elementari e che
questi, come detto, siano equiprobabili, condizioni che difficilmente si
presentano nella realtà
L’evoluzione nelle definizioni
La definizione frequentista
Formulata da Venn (1834-1923), emerge da un ragionamento a posteriori
fondato sull’osservazione dei risultati di un esperimento
Consideriamo un esperimento articolato in 𝑛 prove, nel corso del quale si
verifichino 𝑘 eventi elementari 𝜔1 , 𝜔2 , … , 𝜔𝑘 tra loro incompatibili, ma
non equiprobabili
Ipotizziamo che in 𝑛 prove l’evento elementare 𝜔𝑖 si sia manifestato 𝑛𝑖
volte. Definendo la frequenza relativa dell’evento 𝜔𝑖 il rapporto
𝑓𝑖 =
𝑛𝑖
𝑛
la misura di probabilità del generico evento elementare 𝝎𝒊 è il limite della
sua frequenza relativa al divergere del numero di prove.
L’evoluzione nelle definizioni
La definizione frequentista
In simboli avremo che
𝑛𝑖
𝑛→∞ 𝑛
𝑃𝑟 𝜔𝑖 = lim
La definizione frequentista è stata anche indicata come legge empirica del
caso
Esempio 2. Ipotizziamo di lanciare un dado, ma di non sapere a priori a quali
esiti può dare luogo l’esperimento. Replicando alcune volte l‘esperimento,
all’ottava prova ci accorgiamo che uno degli eventi elementari che si
verificano è la faccia contrassegnata dal numero 6. Concentriamoci sulla
probabilità di ottenere come risultato la faccia contrassegnata dal numero 6
e, a questo scopo, replichiamo l’esperimento 20.000 volte e calcoliamo la
frequenza assoluta e quella relativa dell’evento 𝜔6 = 𝑓𝑎𝑐𝑐𝑖𝑎 6 𝑑𝑒𝑙 𝑑𝑎𝑑𝑜
L’evoluzione nelle definizioni
La definizione frequentista
L’esperimento è condotto utilizzando la funzione di «campionamento» di
Excel:
L’evoluzione nelle definizioni
La definizione frequentista
Al divergere del numero delle prove, la frequenza relativa associata al
verificarsi dell’evento 𝜔6 ha il seguente andamento:
Come appare evidente dal grafico, il valore della frequenza relativa mostra
notevoli oscillazioni, per poi stabilizzarsi a partire dalla prova 𝑛∗ ≅ 4.800.
Da quel punto in poi, la frequenza relativa di uscita della faccia numero 6 è
approssimativamente costante: è «diventata» una probabilità
L’evoluzione nelle definizioni
La definizione frequentista
Proprio perché formulata a posteriori, in quanto emerge nel corso di un
esperimento articolato in un grande numero di prove, la definizione
frequentista presenta alcune limitazioni
Quella più ovvia è che la misura di probabilità nella definizione frequentista
presuppone lo svolgimento di un esperimento articolato su un gran
numero di prove. Se un evento non si è manifestato nel corso
dell’esperimento, non se ne può misurare la probabilità: sarebbe infatti
necessario ripetere l’esperimento infinite volte per avere la certezza che tutti
gli eventi elementari si siano effettivamente manifestati
Inoltre, sebbene la definizione frequentista sia largamente diffusa nelle
scienze applicate, non è universale. Per risolvere il problema dell’universalità
sono stati proposti due approcci più consistenti sul piano matematico,
l’impostazione soggettiva e quella assiomatica
L’evoluzione nelle definizioni
La definizione soggettiva
L’approccio in termini soggettivi appare alla fine degli anni venti del XX
secolo in risposta alle citate lacune logiche dell’impostazione classica e di
quella frequentista
Partiamo da una premessa generale. Nella vita di tutti i giorni possono
manifestarsi eventi unici, irripetibili, rispetto ai quali un osservatore
potrebbe essere chiamato a prendere decisioni, senza conoscerne
pienamente conseguenze e implicazioni. In questi contesti, dominati
dall’incertezza più che dal rischio, le misure classiche e frequentiste di
probabilità non risultano più applicabili
L’evoluzione nelle definizioni
La definizione soggettiva
In che termini parliamo di incertezza e di rischio? La distinzione tra rischio
(measurable uncertainty) e incertezza (unmeasurable uncertainty) è un
tema introdotto da Knight
Una decisione in condizioni di rischio si realizza quando il decisore ha
cognizione di tutti gli stati in cui può manifestarsi un fenomeno ed è in
grado di associare una misura di probabilità a ciascuno stato
Di contro, quando l’agente non dispone di una rappresentazione completa
dello spazio degli stati e/o non è in grado di assegnare una misura di
probabilità a ciascuno di essi, si parlerà più propriamente di decisioni in
condizioni di incertezza
L’evoluzione nelle definizioni
La definizione soggettiva
Sviluppata indipendentemente da Ramsey (1903-1930) e da De Finetti
(1906-1985), l’impostazione soggettiva afferma che la probabilità di un
evento 𝝎 è una misura 𝒑 del grado di fiducia che un individuo attribuisce al
verificarsi di 𝝎 sulla base delle sue opinioni ed informazioni sull’evento e il
principio di coerenza
In realtà De Finetti preferiva utilizzare una definizione più operativa: la
probabilità di un evento 𝝎, secondo l’opinione di un individuo 𝑰, è il prezzo
𝒑 che 𝑰 giudica equo pagare per riscuotere un importo unitario nel caso in
cui 𝝎 si verifichi
L’evoluzione nelle definizioni
La definizione soggettiva
Per i soggettivisti la probabilità è una misura del grado di fiducia – in inglese
degree of belief – che una qualsiasi affermazione sia vera. E poiché quanto
più si crede in un’affermazione, tanto più si è disposti a scommettere su di
essa, si può utilizzare il concetto di scommessa coerente per definire in
maniera operativa la misura di probabilità
Nella concezione di De Finetti una scommessa è coerente quando non
determina una perdita certa a priori per il banco o per lo scommettitore,
mentre il prezzo pagato si definisce equo se lo scommettitore non muta i
termini della scommessa anche quando scambia il suo ruolo con quello di
banco
L’evoluzione nelle definizioni
La definizione soggettiva
Quindi coerenza significa il rispetto di alcuni criteri di carattere logico. Con
la diretta implicazione che, per quanto in questa impostazione la
valutazione sia un atto soggettivo, non è arbitraria
Infatti, se nell’analisi di un problema le valutazioni di una pluralità di
osservatori potrebbero non concordare, quando il set informativo di cui
dispone l’osservatore rimane immutato, non deve mutare il suo grado di
fiducia circa l’avverarsi di 𝝎
L’evoluzione nelle definizioni
La definizione soggettiva
Esempio 3. Consideriamo l’evento 𝜔 =«vittoria del pilota 𝑋 nella
gara automobilistica 𝑌»
Ipotizziamo che dietro pagamento di 0 euro un allibratore ve ne
promettesse 100 nel caso si verifichi 𝜔: accettereste di partecipare
alla scommessa?
L’evoluzione nelle definizioni
La definizione soggettiva
Sicuramente sì, in quanto l’allibratore vi ha chiesto 0 euro per partecipare al
gioco e l’evento 𝜔 potrebbe verificarsi
Ipotizziamo adesso che l’allibratore vi chieda di scommettere 10 eurocent. In
questo caso accettereste di partecipare? Quasi certamente la risposta
sarebbe ancora affermativa, perché a fronte di una perdita massima di
10 eurocent la vincita potrebbe essere molto superiore
Ma se per scommettere l’allibratore vi chiedesse 90 euro, accettereste di
partecipare? Verosimilmente no, a meno che il vostro information set non vi
induca a ritenere che la scommessa è comunque vantaggiosa. Dunque con
un prezzo di 10 eurocent partecipate alla scommessa, mentre non
partecipate se non a condizioni stringenti quando il prezzo è di 90 euro
L’evoluzione nelle definizioni
La definizione soggettiva
Generalizzando, se accettate di partecipare al gioco pagando un prezzo 𝑝,
accetterete a maggior ragione al prezzo 𝑝∗ < 𝑝. Di contro, se non
partecipate al gioco al prezzo 𝑝, rifiuterete a maggior ragione al prezzo 𝑝∗∗ >
𝑝. Esisterà quindi un valore soglia di 𝒑 che separa la decisione di
partecipare alla scommessa da quella di non partecipare. Quel valore soglia
𝒑 è la probabilità soggettiva da voi assegnata a 𝝎
In generale, se un certo evento 𝝎, nell’ambito di una scommessa coerente
e ipotizzando che il prezzo sia equo, viene dato «𝒙 contro 𝒚», la probabilità
soggettiva di 𝝎 risulterà pari a
𝑦
𝑝 𝜔 =
𝑥+𝑦
L’evoluzione nelle definizioni
La definizione soggettiva
Esempio 4. Un allibratore vi propone una scommessa «4 contro 1» sul
verificarsi di un certo evento 𝜔, il che significa che l’allibratore si impegna, al
verificarsi dell’evento, a riconoscervi un premio pari a 4 più il rimborso del
prezzo da voi pagato per partecipare al gioco, pari ad 1
Se accettate di partecipare alla scommessa, la vostra misura di probabilità
soggettiva circa il verificarsi di 𝜔 sarà data da
𝑝 𝜔 =
𝑦
1
=
= 0,2
𝑥+𝑦 4+1
L’evoluzione nelle definizioni
Richiami di teoria degli insiemi
Per introdurre la quarta definizione di probabilità, è necessario richiamare
alcune semplici nozioni di teoria degli insiemi
L’insieme può essere visto come una collezione di oggetti che presentano
una o più caratteristiche comuni. Nel caso dello spazio campione Ω,
l’elemento comune agli eventi 𝜔𝑖 ∈ Ω è quello di essere i risultati ottenibili
nel corso di un esperimento casuale
L’evoluzione nelle definizioni
Relazioni su insiemi
Relazione di appartenenza. In matematica, per relazione intendiamo un
collegamento tra oggetti
La prima relazione fondamentale è quella di appartenenza. Diremo che un
evento elementare 𝜔 appartiene ad un sottoinsieme 𝐴 di eventi elementari
(e indicheremo tale relazione come 𝜔 ∈ 𝐴) se soddisfa un criterio di
appartenenza specifico
Se per esempio 𝐴 è l’insieme dei numeri naturali minori di 10, il criterio di
appartenenza sarà descritto come
𝐴 = 𝜔: 𝜔 𝑛𝑢𝑚𝑒𝑟𝑜 𝑛𝑎𝑡𝑢𝑟𝑎𝑙𝑒 𝑚𝑖𝑛𝑜𝑟𝑒 𝑑𝑖 10
= 𝜔: 𝜔 ∈ ℕ; 𝜔 < 10
Tale definizione si legge come «𝐴 insieme degli eventi elementari 𝜔
appartenenti ai numeri naturali minori di dieci»
L’evoluzione nelle definizioni
Relazioni su insiemi
Da un punto di vista grafico, avremo che
L’evoluzione nelle definizioni
Relazioni su insiemi
Definita l’appartenenza è immediato derivare la relazione di non
appartenenza. Infatti, fissato l’insieme 𝐵 dei numeri naturali maggiori o
uguali a 10:
𝐵 = 𝜔: 𝜔 𝑛𝑢𝑚𝑒𝑟𝑜 𝑛𝑎𝑡𝑢𝑟𝑎𝑙𝑒 𝑚𝑎𝑔𝑔𝑖𝑜𝑟𝑒 𝑜 𝑢𝑔𝑢𝑎𝑙𝑒 𝑎 10
= 𝜔: 𝜔 ∈ ℕ; 𝜔 ≥ 10
allora se 𝜔 ∈ 𝐴 → 𝜔 ∉ 𝐵
L’evoluzione nelle definizioni
Relazioni su insiemi
Relazione di inclusione. La seconda relazione fondamentale, riferita a due
sottoinsiemi, è quella di inclusione. Dati due sottoinsiemi 𝐴 e 𝐵, si ha una
relazione di inclusione se tutti gli elementi appartenenti ad uno dei due
sottoinsiemi appartengono anche all’altro. In simboli avremo che
𝐴 ⊆ 𝐵 ⟺ ∀𝜔 ∈ 𝐴, 𝜔 ∈ 𝐵
La definizione va letta come «𝐴 è incluso in 𝐵 se e solo se, per ogni 𝜔
appartenente ad 𝐴, 𝜔 appartiene a B»
L’evoluzione nelle definizioni
Relazioni su insiemi
Da un punto di vista grafico, avremo che
L’evoluzione nelle definizioni
Relazioni su insiemi
Parleremo poi di relazione di inclusione stretta (indicata come 𝐴 ⊂ 𝐵) se
ogni elemento di 𝐴 è anche elemento di 𝐵, ma esistono alcuni elementi di 𝐵
che con certezza non appartengono ad 𝐴
La relazione di inclusione è riflessiva, antisimmetrica e transitiva. Infatti
•
•
•
𝐴⊆𝐴
𝐴⊆𝐵∧𝐵 ⊆𝐴⟹𝐴=𝐵
𝐴⊆𝐵∧𝐵 ⊆𝐶 ⟹𝐴⊆𝐶
La proprietà di antisimmetria è importante in quanto consente di definire
la relazione di uguaglianza tra due o più sottoinsiemi
L’evoluzione nelle definizioni
Relazioni su insiemi
Relazione di disgiunzione. La terza relazione fondamentale è quella di
disgiunzione. Dati due sottoinsiemi 𝐴 e 𝐵, diremo che 𝑨 e 𝑩 sono disgiunti
se non hanno alcun elemento in comune, cioè se la loro intersezione è
insieme vuoto. In simboli:
𝐴∩𝐵 =∅
La relazione di disgiunzione tra sottoinsiemi è simmetrica, nel senso che se 𝐴
è disgiunto da 𝐵, deve valere anche la relazione opposta, ma non è riflessiva
né transitiva
Infatti, se è chiaro che un insieme 𝐴 non può essere disgiunto da 𝐴, cioè da
sé stesso, potrebbe non risultare immediato che la relazione di disgiunzione
non è transitiva
L’evoluzione nelle definizioni
Relazioni su insiemi
Per convincerci della validità dell’affermazione, tuttavia, basta fare
riferimento alla situazione rappresentata nel seguente diagramma:
Dall’osservazione del diagramma, appare evidente che 𝐴 è disgiunto da 𝐵, 𝐵
è disgiunto da 𝐶, ma 𝐶 non è disgiunto da 𝐴. Quindi in generale la relazione
di disgiunzione non è transitiva
L’evoluzione nelle definizioni
Relazioni su insiemi
Estendiamo la relazione di disgiunzione a famiglie di sottoinsiemi. Una
famiglia di sottoinsiemi 𝐴𝑘 ; 𝑘 = 1, 2, … , 𝑛 si dirà costituita da insiemi
mutuamente disgiunti, o mutuamente esclusivi, se per ogni coppia di indici
distinti 𝑖 e 𝑗, con 𝑖 ≠ 𝑗, i corrispondenti sottoinsiemi risultano disgiunti
Nel caso in cui, infine, lo spazio degli eventi Ω possa essere suddiviso in un
certo numero di sottoinsiemi mutuamente esclusivi appartenenti ad una
famiglia 𝐹, si dirà che 𝐹 è una partizione di Ω
L’evoluzione nelle definizioni
Operazioni su insiemi
In matematica, si definisce operazione una legge di composizione da uno o
più insiemi agli elementi compresi in essi. Si tratta di una definizione
alquanto astratta, su cui non è opportuno soffermarci, e la riportiamo
soltanto per uniformità di trattazione
Nel seguito, quindi, ci affidiamo ad un concetto primitivo di operazione,
come confronto tra due o più sottoinsiemi
L’evoluzione nelle definizioni
Operazioni su insiemi
Operazione di unione. Con riferimento a due sottoinsiemi 𝐴, 𝐵 ∈ Ω, l’unione
è l’insieme composto dagli eventi elementari compresi in A o in B o in
entrambi. In simboli avremo che
∀𝐴, 𝐵 ∈ Ω
𝐴 ∪ 𝐵 = 𝜔: 𝜔 ∈ 𝐴 ∨ 𝜔 ∈ 𝐵
La definizione precedente si legge come «dati due sottoinsiemi di eventi
elementari 𝐴, 𝐵 appartenenti allo spazio di eventi Ω, l’evento unione è
l’insieme di eventi elementari che appartengono a 𝐴 o a 𝐵»
L’evoluzione nelle definizioni
Operazioni su insiemi
Graficamente si avrà che
Notare che nel diagramma precedente i due sottoinsiemi presentano eventi
elementari in comune. Se questa situazione non si verifica, parleremo di unione
di eventi disgiunti
L’evoluzione nelle definizioni
Operazioni su insiemi
Operazione di intersezione. La seconda operazione è quella di intersezione
tra sottoinsiemi. Con riferimento a due sottoinsiemi 𝐴, 𝐵 ∈ Ω, l’intersezione
è l’insieme composto dagli eventi elementari compresi in 𝐴 e in 𝐵. In simboli
avremo che
∀𝐴, 𝐵 ∈ Ω
𝐴 ∩ 𝐵 = 𝜔: 𝜔 ∈ 𝐴 ∧ 𝜔 ∈ 𝐵
La definizione si legge come «dati due sottoinsiemi di eventi elementari 𝐴, 𝐵
appartenenti allo spazio di eventi Ω, l’evento intersezione è l’insieme di
eventi elementari che appartengono a 𝐴 e a 𝐵»
L’evoluzione nelle definizioni
Operazioni su insiemi
Graficamente si avrà che
L’evoluzione nelle definizioni
Operazioni su insiemi
Operazione di complemento assoluto o negazione. Con riferimento ad un
sottoinsieme 𝐴 ∈ Ω, definiamo il complemento assoluto o negazione di 𝑨
l’insieme degli eventi elementari compresi in Ω e non appartenenti al
sottoinsieme 𝐴. In simboli avremo che
∀𝐴 ∈ Ω
¬𝐴 = 𝜔: 𝜔 ∉ 𝐴
L’evento ¬𝐴 quindi si verifica se e solo se non si verifica 𝐴
L’evoluzione nelle definizioni
Operazioni su insiemi
Da un punto di vista grafico, rappresentiamo il complemento assoluto nel
modo seguente:
L’evoluzione nelle definizioni
Operazioni su insiemi
Elenchiamo di seguito alcune implicazioni dell’operazione di complemento
assoluto:
•
•
•
•
•
¬ ¬𝐴 = 𝐴
𝐴 ∪ ¬𝐴 = Ω
𝐴 ∩ ¬𝐴 = ∅
¬Ω = ∅
¬∅ = Ω
L’evoluzione nelle definizioni
Operazioni su insiemi
Operazione di complemento relativo o differenza. L’estensione
dell’operazione di complemento assoluto è indicata come complemento
relativo o differenza
Con riferimento a due sottoinsiemi 𝐴, 𝐵 ∈ Ω caratterizzati dall’avere uno o
più eventi elementari in comune, tali cioè che 𝐴 ∩ 𝐵 ≠ ∅, il complemento
relativo o evento differenza 𝐴 − 𝐵 è l’insieme composto dagli eventi
elementari compresi in 𝐴 e non compresi in 𝐵. In simboli avremo che
∀𝐴, 𝐵 ∈ Ω
𝐴 − 𝐵 = 𝜔: 𝜔 ∈ 𝐴 ∧ 𝜔 ∉ 𝐵
L’evoluzione nelle definizioni
Operazioni su insiemi
Notare che, diversamente dalle operazioni di unione e intersezione, in
generale l’operazione di complemento relativo non è simmetrica, per cui
potremo definire, dati i due sottoinsiemi 𝐴, 𝐵 ∈ Ω, un secondo evento
differenza 𝐵 − 𝐴 , definito come l’insieme composto dagli eventi
elementari compresi in 𝐵 e non compresi in 𝐴. In simboli
∀𝐴, 𝐵 ∈ Ω
𝐵 − 𝐴 = 𝜔: 𝜔 ∉ 𝐴 ∧ 𝜔 ∈ 𝐵
L’evoluzione nelle definizioni
Operazioni su insiemi
Da un punto di vista grafico possiamo rappresentare gli eventi differenza nel
modo seguente:
Naturalmente 𝐴 − 𝐵 ≠ 𝐵 − 𝐴 ⟺ 𝐴 ≠ 𝐵
L’evoluzione nelle definizioni
Proprietà delle operazioni su insiemi
Le operazioni su insiemi (e in particolare le operazioni di unione e
intersezione) godono di alcune fondamentali proprietà, elencate di seguito:
Proprietà commutativa
𝐴∪𝐵 = 𝐵∪𝐴
𝐴∩𝐵 = 𝐵∩𝐴
Proprietà associativa
𝐴∪ 𝐵∪𝐶 = 𝐴∪𝐵 ∪𝐶
𝐴∩ 𝐵∩𝐶 = 𝐴∩𝐵 ∩𝐶
L’evoluzione nelle definizioni
Proprietà delle operazioni su insiemi
Proprietà distributiva
𝐴∪ 𝐵∩𝐶 = 𝐴∪𝐵 ∩ 𝐴∪𝐶
𝐴∩ 𝐵∪𝐶 = 𝐴∩𝐵 ∪ 𝐴∩𝐶
Leggi di De Morgan
¬ 𝐴 ∪ 𝐵 = ¬𝐴 ∩ ¬𝐵
¬ 𝐴 ∩ 𝐵 = ¬𝐴 ∪ ¬𝐵
L’evoluzione nelle definizioni
Estensione a più eventi
Dato un numero finito di eventi 𝐴𝑘 ; 𝑘 = 1, 2, … , 𝑛 , la loro unione è
l’insieme composto dagli eventi elementari 𝜔 appartenenti a 𝐴1 o
𝐴2 o … o 𝐴𝑛 , mentre la loro intersezione sarà data dall’insieme
composto dagli eventi elementari 𝜔 appartenenti a 𝐴1 e 𝐴2 e … e 𝐴𝑛
In simboli, per l’operazione di unione avremo che
𝑛
𝐴𝑘 = 𝜔: 𝜔 ∈ 𝐴1 ∨ 𝜔 ∈ 𝐴2 ∨ … ∨ 𝜔 ∈ 𝐴𝑘
𝑘=1
mentre per l’operazione di intersezione potremo scrivere che
𝑛
𝐴𝑘 = 𝜔: 𝜔 ∈ 𝐴1 ∧ 𝜔 ∈ 𝐴2 ∧ ⋯ ∧ 𝜔 ∈ 𝐴𝑘
𝑘=1
L’evoluzione nelle definizioni
Estensione a più eventi
Quanto alle leggi di De Morgan, la loro estensione a 𝑛 eventi
assume la seguente formulazione:
𝑛
¬
𝑛
𝐴𝑘 =
𝑘=1
𝑛
¬
𝐴𝑘 =
𝑘=1
¬𝐴𝑘
𝑘=1
𝑛
¬𝐴𝑘
𝑘=1
L’evoluzione nelle definizioni
Estensione a successioni di eventi
Dato un numero finito di eventi 𝐴𝑘 ; 𝑘 = 1, 2, … , per l’operazione
di unione scriveremo che
∞
𝐴𝑘 = 𝜔: 𝜔 ∈ 𝐴1 ∨ 𝜔 ∈ 𝐴2 ∨ …
𝑘=1
mentre per l’operazione di intersezione avremo che
∞
𝐴𝑘 = 𝜔: 𝜔 ∈ 𝐴1 ∧ 𝜔 ∈ 𝐴2 ∧ ⋯
𝑘=1
L’evoluzione nelle definizioni
Estensione a successioni di eventi
Quanto alle leggi di De Morgan, la loro estensione ad una
successione di eventi è formulata come segue:
∞
¬
∞
𝐴𝑘 =
𝑘=1
∞
¬
𝐴𝑘 =
𝑘=1
¬𝐴𝑘
𝑘=1
∞
¬𝐴𝑘
𝑘=1
L’evoluzione nelle definizioni
Classi completamente additive (𝝈 −algebre)
In matematica, una 𝝈-algebra o tribù su un insieme di eventi 𝛀 è
una famiglia di sottoinsiemi di 𝛀 che gode di alcune proprietà di
stabilità rispetto a operazioni quali l’unione numerabile e il
passaggio al complementare
Il concetto di 𝝈-algebra è alla base della teoria della misura, della
teoria della probabilità incentrata sull’impostazione assiomatica e
di tutte le nozioni di misurabilità, sia di insiemi, sia di funzioni.
Infatti la 𝜎-algebra è un caso particolare di algebra di insiemi, ed è
utilizzata ampiamente in analisi matematica, per gli svariati vantaggi
che le misure definite su 𝜎-algebre hanno rispetto alle operazioni di
passaggio al limite (ricordate l’approccio frequentista?)
L’evoluzione nelle definizioni
Classi completamente additive (𝝈 −algebre)
Sia dato uno spazio di eventi Ω e un suo sottoinsieme di eventi
elementari 𝐴. Consideriamo una classe ℂ tale che
1. Contenga Ω ⟹ Ω ∈ ℂ
2. Se 𝐴 ∈ ℂ ⟹ ¬ 𝐴 ∈ ℂ. In altri termini, se la classe ℂ contiene
il sottoinsieme 𝐴, deve contenere anche la sua negazione ¬𝐴
3. Data una successione finita o infinita di sottoinsieme di eventi
elementari 𝐴1 , 𝐴2 , … = 𝐴𝑘 ; 𝑘 = 1, 2, … appartenenti a ℂ,
anche la loro unione appartiene a ℂ. In simboli avremo che
∞
𝐴𝑘 : 𝐴𝑘 ∈ ℂ
⟹
𝐴𝑘 ∈ ℂ
𝑘=1
Se valgono le proprietà 1-3, allora ℂ è detta 𝜎-algebra o classe
completamente additiva e si indicherà come ℂ = 𝐴𝑘 : 𝐴𝑘 ⊆ Ω
L’evoluzione nelle definizioni
Classi completamente additive (𝝈 −algebre)
Perché introduciamo il concetto di 𝜎-algebra? Perché è uno
strumento che ci consente di «condensare» e riassumere l’insieme
dei risultati di tutte le operazioni di confronto fra eventi elementari
o sottoinsiemi di eventi elementari, con particolare riferimento alle
operazioni di unione, intersezione, differenza
A partire da uno stesso spazio campione Ω, possono essere costruite
più classi di eventi ℂ, ognuna delle quali deve contenere almeno Ω
(proprietà 1) e l’evento complemento ¬Ω = ∅ (proprietà 2). Quindi
la più piccola classe completamente additiva è formata solo da Ω e
∅:
ℂ=
∅
Ω
L’evoluzione nelle definizioni
Classi completamente additive (𝝈 −algebre)
Nel caso di insiemi numerici continui definiti su ℝ, è impossibile
effettuare confronti, per cui preliminarmente devono essere fissati
intervalli di valori quali
𝐼 = −∞, 𝑥
𝐼 = 𝑥1 , 𝑥2
a partire dai quali è nuovamente possibile costruire la 𝜎-algebra
L’evoluzione nelle definizioni
Classi completamente additive (𝝈 −algebre)
Esempio 5. Dato lo spazio degli eventi Ω = 1, 2, 3 costruiamo la 𝜎algebra completa dei sottoinsiemi di eventi elementari appartenenti
a Ω. Avremo che
∅
1 2 3
ℂ=
12 13 23
123
Verifichiamo se effettivamente ℂ è una 𝜎-algebra, verificando che la
proprietà 2, in virtù della quale se 𝐴 ∈ ℂ ⟹ ¬ 𝐴 ∈ ℂ, sia
soddisfatta
L’evoluzione nelle definizioni
Classi completamente additive (𝝈 −algebre)
Scegliamo arbitrariamente due sottoinsiemi rispettivamente di
ampiezza 1 o 2, ad esempio 𝐴1 = 3 e 𝐴2 = 1, 2 . È agevole
mostrare che
𝑠𝑒 𝐴 = 3 ∈ ℂ ⟹ ¬𝐴 = 1, 2 ∈ ℂ
𝑠𝑒 𝐴 = 1, 2 ∈ ℂ ⟹ ¬𝐴 = 3 ∈ ℂ
Inoltre, scegliendo arbitrariamente due sottoinsiemi di ampiezza
unitaria, quali ad esempio 𝐴1 = 1 e 𝐴2 = 3 , verifichiamo se ℂ è
una 𝜎-algebra alla luce della proprietà 3, in virtù della quale data
una successione finita o infinita di sottoinsieme di eventi elementari
𝐴1 , 𝐴2 , … = 𝐴𝑘 ; 𝑘 = 1, 2, … appartenenti a ℂ, anche la loro
unione appartiene a ℂ
L’evoluzione nelle definizioni
Classi completamente additive (𝝈 −algebre)
Avremo che
1.
2.
𝐴1 ∪ 𝐴2 = 1, 3 ⟹ ¬ 𝐴1 ∪ 𝐴2 = 2 ∈ ℂ
2
𝑘=1 ¬𝐴𝑘 = ¬𝐴1 ∩ ¬𝐴2 = 2, 3 ∩ 1, 2 = 2 ∈ ℂ
Inoltre, scegliendo arbitrariamente due sottoinsiemi di ampiezza
unitaria, quali ad esempio 𝐴1 = 1 e 𝐴2 = 3 , verifichiamo se ℂ è
una 𝜎-algebra alla luce della proprietà 3, in virtù della quale data
una successione finita o infinita di sottoinsieme di eventi elementari
𝐴1 , 𝐴2 , … = 𝐴𝑘 ; 𝑘 = 1, 2, … appartenenti a ℂ, anche la loro
unione appartiene a ℂ
L’evoluzione nelle definizioni
La definizione assiomatica
Formulata da Kolmogorov (1903-1987), è considerata la definizione
più consistente sul piano matematico, in quanto, come chiarito in
precedenza, si fonda su alcuni principi generali di teoria della misura
Data una 𝝈-algebra ℂ di sottoinsiemi 𝑨 ⊆ 𝜴, la misura di probabilità
𝑷𝒓 è una funzione che associa ad ogni sottoinsieme 𝑨 un numero
reale non negativo. In simboli
𝑃𝑟: 𝐴 → ℝ+
Come appare evidente, tale definizione prescinde dalle nozioni di casi
favorevoli, casi possibili, equiprobabilità, esperimenti articolati in
infinite prove, quindi «tiene» da un punto di vista sia logico, sia
operativo, in quanto è sufficientemente generale da ricomprendere
tutti i contesti concretamente osservabili
La teoria assiomatica
Gli assiomi della misura di probabilità
La misura di probabilità così definita soddisfa quattro assiomi:
1. Non negatività.
∀𝐴 ∈ ℂ 𝑃𝑟 𝐴 ≥ 0
2. Normalizzazione
𝑃𝑟 Ω = 1
3. Additività finita. Dati due eventi 𝐴, 𝐵 ∈ Ω incompatibili, cioè tali
che 𝐴 ∩ 𝐵 = ∅, la probabilità dell’evento unione è data dalla
somma delle singole probabilità degli eventi. In simboli:
𝑃𝑟 𝐴 ∪ 𝐵 = 𝑃𝑟 𝐴 + 𝑃𝑟 𝐵
4. Completa additività. Data una famiglia composta da un’infinità
numerabile di sottoinsiemi di eventi elementari 𝐴1 , 𝐴2 , … =
𝐴𝑘 ; 𝑘 = 1, 2, … a due a due incompatibili, cioè tali che ∀𝑖 ≠ 𝑗
𝐴𝑖 ∩ 𝐴𝑗 = ∅
∞
𝑃𝑟
∞
𝐴𝑘 =
𝑘=1
𝑃𝑟 𝐴𝑘
𝑘=1
La teoria assiomatica
Gli assiomi della misura di probabilità
Nell’impostazione assiomatica si adotta una definizione di probabilità
su una 𝜎-algebra ℂ perché si è interessati non soltanto agli eventi
elementari (come nella definizione classica), ma anche a sequenze
finite o infinite di operazioni di unione, intersezione, differenza,
negazione: gli eventi complessi così definiti appartengono di nuovo a
ℂ, per cui se ne può misurare la probabilità
Notare anche che, per le leggi di De Morgan, data una successione
𝐴𝑘 ∈ ℂ,
∞
𝑠𝑒
∞
𝐴𝑘 ∈ ℂ ⟹
𝑘=1
𝐴𝑘 ∈ ℂ
𝑘=1
quindi oltre ad esistere la misura di probabilità dell’evento unione,
esiste quella dell’evento intersezione
La teoria assiomatica
Proprietà della misura di probabilità
La misura di probabilità gode di alcune proprietà che consentono di
quantificare l’incertezza dell’osservatore non soltanto circa il
verificarsi di eventi elementari, ma anche circa il verificarsi di
sottoinsiemi di eventi, cioè di suddivisioni dello spazio campione Ω
Queste proprietà sussistono indipendentemente dalla definizione
adottata di probabilità. Nel caso delle definizioni classiche e
frequentiste, le proprietà sono una conseguenza della formula di
calcolo adottata (una frequenza relativa), mentre nelle definizioni
soggettivistiche e assiomatiche trovano fondamento in alcuni principi
di natura logica
Ad ogni modo, nel seguito della trattazione, preferiamo attenerci
esclusivamente all’impostazione assiomatica. Dagli assiomi 1‒4
elencati in precedenza derivano tutte le proprietà della probabilità
La teoria assiomatica
Proprietà 1. Probabilità dell’evento negazione
Dato un sottoinsieme di eventi 𝐴 ∈ Ω, siamo interessati a calcolare la
probabilità associata all’evento ¬𝐴
Per risalire alla probabilità dell’evento negazione, è sufficiente
osservare che ¬𝐴 = 𝜔: 𝜔 ∉ 𝐴 , quindi 𝐴 ∪ ¬𝐴 = Ω e 𝐴 ∩ ¬𝐴 = ∅
Osservando che in virtù dell’assioma 2 (normalizzazione) 𝑃𝑟 Ω = 1
e che 𝐴 e ¬𝐴 sono sottoinsiemi incompatibili, possiamo applicare
l’assioma 3 (additività finita) e scrivere
𝑃𝑟 𝐴 ∪ ¬𝐴 = 𝑃𝑟 Ω
𝑃𝑟 𝐴 + 𝑃𝑟 ¬𝐴 = 1
e quindi
𝑃𝑟 ¬𝐴 = 1 − 𝑃𝑟 𝐴
La teoria assiomatica
Probabilità dell’evento negazione
Esempio 6. Consideriamo l’esperimento consistente nel lancio di un
dado. Lo spazio campione sarà composto dai sei eventi elementari
Ω = 1, 2, 3, 4, 5, 6
Poiché lo spazio campione Ω ha cardinalità 6 (cioè contiene 6 eventi
elementari), mentre ciascun evento elementare ha cardinalità 1
(essendo un «punto» appartenente ad Ω), la probabilità teorica che si
verifichi uno dei sei eventi elementari (ad esempio la faccia del dado
contrassegnata dal numero 6) sarà data dal rapporto
𝑃𝑟 𝜔6
#𝜔6 1
=
=
#Ω
6
La teoria assiomatica
Probabilità dell’evento negazione
Domandiamoci adesso a quanto ammonta la probabilità che lanciando il
dado «non» so ottenga la faccia contrassegnata dal numero 6»
Tale probabilità può essere calcolata facendo riferimento all’evento
negazione ¬𝜔6
Osservando che:
• ¬𝜔6 = 1, 2, 3, 4, 5
• 𝜔6 ∪ ¬𝜔6 = 6 ∪ 1, 2, 3, 4, 5 = 1, 2, 3, 4, 5, 6 = Ω
• 𝜔6 ∩ ¬𝜔6 = ∅
avremo che
𝑃𝑟 ¬𝜔6 = 1 − 𝑃𝑟 𝜔6
1 5
=1− =
6 6
La teoria assiomatica
Probabilità dell’evento negazione
In alternativa, osservando che la cardinalità del sottoinsieme ¬𝜔6 è pari a
5, possiamo scrivere in maniera del tutto equivalente che
𝑃𝑟 ¬𝜔6
#¬𝜔6 5
=
=
#Ω
6
Una delle più dirette conseguenze della prima proprietà è la seguente:
poiché ¬Ω = ∅, avremo che
𝑃𝑟 ∅ = 𝑃𝑟 ¬Ω = 1 − 𝑃𝑟 Ω = 1 − 1 = 0
Quindi la probabilità dell’insieme vuoto è nulla (ad esempio, con
riferimento al precedente esperimento, a quanto ammonta la probabilità di
ottenere la faccia del dado contrassegnata dal numero 7?)
La teoria assiomatica
Proprietà 2. Estremi della misura di probabilità
La proprietà 2 definisce l’insieme di definizione della misura di probabilità
Intuitivamente, poiché abbiamo già sottolineato l’analogia che lega la
nozione di frequenza relativa a quella di probabilità nella definizione
classica e in quella frequentista, è immediato comprendere che la misura di
probabilità deve variare tra 0 (probabilità dell’insieme vuoto ∅, cioè la
probabilità che si verifichi un qualche evento elementare o sottoinsieme di
eventi elementari non compreso in Ω) e 1 (probabilità che si verifichi l’uno
o l’altro degli eventi elementari compresi in Ω), per cui con riferimento ad
un generico sottoinsieme di eventi elementari 𝐴 ∈ Ω possiamo scrivere che
0 ≤ 𝑃𝑟 𝐴 ≤ 1
Naturalmente, in un’impostazione di tipo assiomatico di intuitivo c’è ben
poco, per cui vediamo come dimostrare formalmente questa proprietà
La teoria assiomatica
Estremi della misura di probabilità
Osservando che
• in virtù dell’assioma 1 (non negatività) 𝑃𝑟 𝐴 ≥ 0
• tale assioma vale anche per la probabilità dell’evento negazione, per cui
possiamo scrivere che 𝑃𝑟 ¬𝐴 ≥ 0. Poiché abbiamo appena dimostrato
che 𝑃𝑟 ¬𝐴 = 1 − 𝑃𝑟 𝐴 , sostituendo nella precedente relazione
avremo che 1 − 𝑃𝑟 𝐴 ≥ 0 e quindi 𝑃𝑟 𝐴 ≤ 1
Combinando i due risultati avremo che
0 ≤ 𝑃𝑟 𝐴 ≤ 1
La teoria assiomatica
Estremi della misura di probabilità
Esempio 7. Consideriamo l’esperimento consistente nell’estrazione con
reintroduzione di due palline da un’urna contenente 5 palline bianche e 5
palline nere. Lo spazio campione, come sappiamo, è l’insieme degli eventi
elementari, cioè l’insieme dei risultati dell’esperimento di estrazione, quindi
in questo caso Ω assumerà la seguente struttura:
Ω = 𝐵𝐵, 𝐵𝑁, 𝑁𝐵, 𝑁𝑁
Poiché si può dimostrare che in questo caso i 4 eventi elementari compresi
in Ω (a causa della particolare composizione dell’urna e delle particolari
modalità con cui è condotta l’estrazione) sono equiprobabili, la probabilità
del generico evento 𝜔𝑖 sarà data da
𝑃𝑟 𝜔𝑖 =
#𝜔𝑖 1
= ≥0
#Ω 4
La teoria assiomatica
Estremi della misura di probabilità
È interessante verificare anche a quanto ammonta la probabilità su un
qualche sottoinsieme 𝐴 di eventi elementari. Ad esempio, la probabilità di
ottenere almeno una pallina nera nel corso dell’esperimento di estrazione
sarà data da
A = 𝐵𝑁, 𝑁𝐵, 𝑁𝑁
la cui misura di probabilità è pari a
#𝐴 3
𝑃𝑟 𝐴 =
=
#Ω 4
Naturalmente, anche in questo caso si ha che 0 ≤ 𝑃𝑟 𝐴 ≤ 1
La teoria assiomatica
Proprietà 3. Additività in una successione finita
Con riferimento all’esempio precedente, fissiamo i tre eventi
𝐴1 = 0 𝑝𝑎𝑙𝑙𝑖𝑛𝑒 𝑛𝑒𝑟𝑒 𝑛𝑒𝑙𝑙 ′ 𝑒𝑠𝑡𝑟𝑎𝑧𝑖𝑜𝑛𝑒 = 𝐵𝐵
𝐴2 = 1 𝑝𝑎𝑙𝑙𝑖𝑛𝑎 𝑛𝑒𝑟𝑎 𝑛𝑒𝑙𝑙 ′ 𝑒𝑠𝑡𝑟𝑎𝑧𝑖𝑜𝑛𝑒 = 𝐵𝑁, 𝑁𝐵
𝐴3 = 2 𝑝𝑎𝑙𝑙𝑖𝑛𝑒 𝑛𝑒𝑟𝑒 𝑛𝑒𝑙𝑙 ′ 𝑒𝑠𝑡𝑟𝑎𝑧𝑖𝑜𝑛𝑒 = 𝑁𝑁
I tre sottoinsiemi così individuati costituiscono una famiglia 𝑭 di sottoinsiemi
di eventi elementari 𝐴𝑘 ; 𝑘 = 1, 2, 3 , a due a due incompatibili, cioè tali che
∀𝑖 ≠ 𝑗, 𝐴𝑖 ∩ 𝐴𝑗 = ∅, quindi 𝐹 = 𝐴1 , 𝐴2 , 𝐴3 costituisce una partizione di Ω
La proprietà di additività di una successione finita di sottoinsiemi stabilisce
che
𝑛
𝑃𝑟
𝑛
𝐴𝑘 =
𝑘=1
𝑃𝑟 𝐴𝑘
𝑘=1
La teoria assiomatica
Additività in una successione finita
Detto in altri termini, la proprietà di additività di una successione finita
stabilisce che la probabilità dell’unione di una successione finita di
sottoinsiemi di eventi disgiunti è pari alla somma delle probabilità dei
relativi sottoinsiemi
Ad esempio, nel caso precedente, 𝑃𝑟 𝐴1 =
𝑃𝑟 𝐴3 =
#𝐴3
#Ω
1
#𝐴1
#Ω
1
= 4 , 𝑃𝑟 𝐴2 =
= 4 . Poiché in questo risulta
3
𝑃𝑟
𝐴𝑘
= 𝑃𝑟 𝐴1 ∪ 𝐴2 ∪ 𝐴3
𝑘=1
e quindi
= 𝑃𝑟 𝐵𝐵 ∪ 𝐵𝑁, 𝑁𝐵 ∪ 𝑁𝑁
= 𝑃𝑟 Ω = 1
#𝐴2
#Ω
2
=4 ,
La teoria assiomatica
Additività in una successione finita
Inoltre osserviamo che
3
𝑘=1
𝑃𝑟 𝐴𝑘 =
1 2 1
+ + =1
4 4 4
Con riferimento all’esempio precedente, quindi, abbiamo dimostrato
empiricamente che
𝑛
𝑃𝑟
𝑛
𝐴𝑘 =
𝑘=1
𝑃𝑟 𝐴𝑘
𝑘=1
La teoria assiomatica
Additività in una successione finita
Su un piano formale, consideriamo per semplicità 3 sottoinsiemi 𝐴1 , 𝐴2
e 𝐴3 disgiunti, costituenti una famiglia 𝐹 = 𝐴1 , 𝐴2 , 𝐴3 ∈ ℂ. Poiché i
tre sottoinsiemi sono a due a due incompatibili (e quindi 𝐴𝑖 ∩ 𝐴𝑗 = ∅),
in virtù della proprietà distributiva delle operazioni di unione e
intersezione tra sottoinsiemi risulterà che
𝐴1 ∪ 𝐴2 ∩ 𝐴3 = 𝐴1 ∩ 𝐴3 ∪ 𝐴2 ∩ 𝐴3 = ∅ ∪ ∅ = ∅
e poiché per l’assioma 3 (additività finita) si ha che 𝑃𝑟 𝐴 ∪ 𝐵 =
𝑃𝑟 𝐴 + 𝑃𝑟 𝐵 , potremo scrivere
𝑃𝑟 𝐴1 ∪ 𝐴2 ∪ 𝐴3 = 𝑃𝑟 𝐴1 ∪ 𝐴2 + 𝑃𝑟 𝐴3
= 𝑃𝑟 𝐴1 + 𝑃𝑟 𝐴2 + 𝑃𝑟 𝐴2
Naturalmente, quanto mostrato con riferimento a tre sottoinsiemi è
valido, in generale, per una qualunque successione finita di eventi
La teoria assiomatica
Proprietà 4. Teorema delle probabilità totali
Il teorema delle probabilità totali generalizza la misura della probabilità
di un evento unione al caso di eventi compatibili, cioè caratterizzati da
un’intersezione non vuota
Dati due sottoinsiemi di eventi 𝐴, 𝐵 ∈ ℂ compatibili, cioè tali che
𝐴 ∩ 𝐵 ≠ ∅, il teorema delle probabilità totali ci consente di misurare la
probabilità dell’evento differenza 𝐵 − 𝐴 e la probabilità dell’evento
unione 𝐴 ∪ 𝐵
Per comprendere l’ambito di applicazione del teorema delle probabilità
totali, facciamo riferimento al seguente diagramma:
La teoria assiomatica
Teorema delle probabilità totali
Come appare evidente dall’esame del diagramma, nel caso di eventi
compatibili non possiamo ottenere la probabilità dell’evento unione
semplicemente sommando le singole probabilità dei sottoinsiemi,
applicando la relazione 𝑃𝑟 𝐴 ∪ 𝐵 = 𝑃𝑟 𝐴 + 𝑃𝑟 𝐵 , in quanto ci
esporremmo all’errore logico del «doppio conteggio» degli eventi
appartenenti all’intersezione 𝐴 ∩ 𝐵
La teoria assiomatica
Teorema delle probabilità totali
Il problema può essere aggirato esprimendo l’evento unione 𝐴 ∪ 𝐵 in
termini di due sottoinsiemi equivalenti, ma disgiunti, che ci consentano
di applicare l’assioma 3
In primo luogo, osserviamo che il sottoinsieme 𝐵 può essere espresso
come l’evento unione
𝐵 = 𝐵−𝐴 ∪ 𝐴∩𝐵
Poiché 𝐵 − 𝐴 ∩ 𝐴 ∩ 𝐵 = ∅, in virtù dell’assioma 3 possiamo scrivere
che
𝑃𝑟 𝐵 = 𝑃𝑟 𝐵 − 𝐴 ∪ 𝐴 ∩ 𝐵
= 𝑃𝑟 𝐵 − 𝐴 + 𝑃𝑟 𝐴 ∩ 𝐵
La teoria assiomatica
Teorema delle probabilità totali
Poiché, una volta introdotta la misura di probabilità, siamo nel
«territorio» dell’algebra, potremo quindi scrivere che
𝑃𝑟 𝐵 − 𝐴 = 𝑃𝑟 𝐵 − 𝑃𝑟 𝐴 ∩ 𝐵
Quindi, un primo risultato del teorema delle probabilità totale riguarda la
misura di probabilità dell’evento differenza. Ben più importante tuttavia
è l’implicazione diretta di tale risultato. Infatti, possiamo esprimere
l’evento unione 𝐴 ∪ 𝐵 come
𝐴∪𝐵 =𝐴∪ 𝐵−𝐴
Notare che 𝐴 e 𝐵 − 𝐴 sono eventi incompatibili, cioè tali che 𝐴 ∩
𝐵 − 𝐴 = ∅, quindi possiamo applicare l’assioma 3 e scrivere
𝑃𝑟 𝐴 ∪ 𝐵 = 𝑃𝑟 𝐴 ∪ 𝐵 − 𝐴
= 𝑃𝑟 𝐴 + 𝑃𝑟 𝐵 − 𝐴
La teoria assiomatica
Teorema delle probabilità totali
Quindi abbiamo che
𝑃𝑟 𝐴 ∪ 𝐵 = 𝑃𝑟 𝐴 + 𝑃𝑟 𝐵 − 𝐴
Avendo dimostrato in precedenza che
𝑃𝑟 𝐵 − 𝐴 = 𝑃𝑟 𝐵 − 𝑃𝑟 𝐴 ∩ 𝐵
combinando i due risultati otteniamo che
𝑃𝑟 𝐴 ∪ 𝐵 = 𝑃𝑟 𝐴 + 𝑃𝑟 𝐵 − 𝑃𝑟 𝐴 ∩ 𝐵
Questa relazione estende l’applicabilità dell’assioma 3 anche al caso più
generale di unione di sottoinsiemi di eventi compatibili
La teoria assiomatica
Teorema delle probabilità totali
Esempio 8. Ipotizziamo di effettuare un esperimento di lancio di due dadi e di
considerare lo spazio di eventi 𝑆 = 𝑠𝑜𝑚𝑚𝑎 𝑑𝑒𝑖 𝑝𝑢𝑛𝑡𝑒𝑔𝑔𝑖 𝑑𝑒𝑖 𝑑𝑢𝑒 𝑑𝑎𝑑𝑖
La seguente tabella riporta la distribuzione di 𝑆 in termini di una tabella a
doppia entrata, in cui i punteggi ottenibili con il lancio del primo dado
figurano in fiancata, quelli ottenibili con il lancio del secondo dado sono
riportati in testata, mentre nel quadro centrale figura la somma dei due
punteggi:
Tabella 1. Risultati dell'esperimento di lancio di due dadi. Distribuzione della
somma dei punteggi dei due lanci
Punteggi
dado
numero 1
1
2
3
4
5
6
Punteggi dado numero 2
1
2
3
4
5
6
7
2
3
4
5
6
7
8
3
4
5
6
7
8
9
4
5
6
7
8
9
10
5
6
7
8
9
10
11
6
7
8
9
10
11
12
La teoria assiomatica
Teorema delle probabilità totali
Definiamo i seguenti sottoinsiemi di eventi:
𝐴 = 𝑖𝑙 𝑟𝑖𝑠𝑢𝑙𝑡𝑎𝑡𝑜 𝑑𝑒𝑙 𝑙𝑎𝑛𝑐𝑖𝑜 𝑑𝑒𝑙 𝑝𝑟𝑖𝑚𝑜 𝑑𝑎𝑑𝑜 è 𝑝𝑎𝑟𝑖 𝑎 3
𝐵 = 𝑙𝑎 𝑠𝑜𝑚𝑚𝑎 𝑑𝑒𝑖 𝑝𝑢𝑛𝑡𝑒𝑔𝑔𝑖 𝑜𝑡𝑡𝑒𝑛𝑢𝑡𝑖 𝑛𝑒𝑖 𝑑𝑢𝑒 𝑙𝑎𝑛𝑐𝑖 è 𝑝𝑎𝑟𝑖 𝑎 7
Domandiamoci a quanto ammonta la probabilità dell’evento unione 𝐴 ∪ 𝐵 ,
cioè la probabilità che come risultato dell’esperimento di lancio di due dadi
si ottenga o 𝟑 al primo lancio o 𝟕 come somma dei due lanci
Intanto introduciamo qualche convenzione di notazione: indichiamo con 𝑠𝑥𝑦
un generico punto dell’insieme 𝑆, individuato dai due indici 𝑥 e 𝑦, dove 𝑥 è il
punteggio ottenuto nel lancio del primo dado e 𝑦 è quello relativo al lancio
del secondo dado. Ad esempio, 𝑠12 rappresenterà la somma dei due punteggi
quando 𝑥 = 1 e 𝑦 = 2
La teoria assiomatica
Teorema delle probabilità totali
Da notare che i 36 eventi elementari appartenenti a 𝑆 sono equiprobabili ─
#𝑠𝑥𝑦
1
𝑃𝑟 𝑠𝑥𝑦 = #𝑆 = 36 ─ e necessari, nel senso che nello svolgimento
dell’esperimento di lancio se ne dovrà osservare necessariamente uno
Il sottoinsieme 𝐴 è composto dagli eventi elementari il cui criterio di
appartenenza al sottoinsieme è dato dal fatto di essere caratterizzati da un
valore di 𝑥 = 3, cioè un punteggio ottenuto dal lancio del primo dado
pari a 3
La teoria assiomatica
Teorema delle probabilità totali
Scriveremo che
𝐴 = 𝑠31 , 𝑠32 , 𝑠33 , 𝑠34 , 𝑠35 , 𝑠36
Quindi 𝐴 ha cardinalità pari a 6 e la probabilità associata sarà pari a
#𝐴
6
1
𝑃𝑟 𝐴 =
=
=
#𝑆 36 6
La teoria assiomatica
Teorema delle probabilità totali
Il sottoinsieme 𝐵 è composto dagli eventi elementari il cui criterio di
appartenenza al sottoinsieme è dato dal fatto che la somma dei punteggi
ottenuti dal lancio dei due dadi è pari a 7
Osservando che gli eventi elementari appartenenti a 𝐵 sono dislocati lungo la
diagonale secondaria del quadro centrale della tabella a doppia entrata,
potremo scrivere che
𝐵 = 𝑠16 , 𝑠25 , 𝑠34 , 𝑠43 , 𝑠52 , 𝑠61
Anche 𝐵 ha cardinalità pari a 6, quindi la probabilità associata sarà pari a
𝑃𝑟 𝐵 =
#𝐵
6
1
=
=
#𝑆 36 6
La teoria assiomatica
Teorema delle probabilità totali
Domandiamoci adesso a quanto ammonta la probabilità di ottenere 𝟑 come
risultato del lancio del primo dado o 𝟕 come somma dei due punteggi
Confrontando gli eventi elementari compresi nel sottoinsieme 𝐴 e quelli
appartenenti a 𝐵, è agevole verificare che l’intersezione 𝐴 ∩ 𝐵 ≠ ∅, in
quanto 𝐴 ∩ 𝐵 = 𝑠34 , quindi i sottoinsiemi 𝐴 e 𝐵 sono compatibili e ciò
esclude l’applicabilità dell’assioma 3
Quanto alla cardinalità dell’evento intersezione, essendo composto dall’unico
punto 𝑠34 , la sua cardinalità sarà pari all’unità e quindi potremo scrivere che
𝑃𝑟 𝐴 ∩ 𝐵 =
# 𝐴∩𝐵
1
=
#𝑆
36
La teoria assiomatica
Teorema delle probabilità totali
Con riferimento alla tabella a doppia entrata, la situazione può essere
rappresentata nei termini seguenti:
Punteggi
dado
numero 1
1
2
3
4
5
6
𝐵 = 𝑠: 𝑠 = 7
Punteggi dado numero 2
1
2
3
4
5
6
7
2
3
4
5
6
7
8
𝐴 = 𝑠: 𝑥 = 3
3
4
5
6
7
8
9
4
5
6
7
8
9
10
5
6
7
8
9
10
11
6
7
8
9
10
11
12
𝐴∩𝐵
La teoria assiomatica
Teorema delle probabilità totali
Ad ogni modo, in virtù del teorema delle probabilità totali, applicabile nel
caso di unione fra sottoinsiemi di eventi compatibili, sappiamo che
𝑃𝑟 𝐴 ∩ 𝐵 = 𝑃𝑟 𝐴 + 𝑃𝑟 𝐵 − 𝑃𝑟 𝐴 ∩ 𝐵
Nel problema esaminato risulterà quindi che
𝑃𝑟 𝐴 ∩ 𝐵 =
1 1 1
11
+ −
=
6 6 36 36
La teoria assiomatica
Teorema delle probabilità totali
L’enunciato del teorema delle probabilità totali può essere generalizzato.
Data una famiglia di 𝑛 eventi 𝐴𝑘 ; 𝑘 = 1,2, … , 𝑛 a due a due compatibili, la
probabilità della loro unione è uguale alla somma delle probabilità degli
eventi, meno la somma delle intersezioni tra coppie di eventi, più la somma
delle intersezioni tra triple di eventi, meno la somma delle intersezioni tra
quadruple di eventi, e così via, per giungere alla probabilità dell’intersezione
della 𝑛 −upla di eventi, con segno positivo se 𝑛 è dispari, negativo in caso
contrario.
La teoria assiomatica
Proprietà 5. Probabilità in una relazione di inclusione
È una proprietà relativamente banale e quindi ci affidiamo soprattutto ad un
ragionamento intuitivo. Dati due sottoinsiemi 𝐴, 𝐵 ∈ Ω, ipotizziamo che fra i
due sottoinsiemi valga la seguente relazione di inclusione:
𝐴⊆𝐵
Ricordando che 𝐴 ⊆ 𝐵 ⟺ ∀𝜔 ∈ 𝐴, 𝜔 ∈ 𝐵, la probabilità in una relazione di
inclusione stabilisce che
𝑠𝑒 𝐴 ⊆ 𝐵
⟹
𝑃𝑟 𝐴 ≤ 𝑃𝑟 𝐵
Tale proposizione è ovvia, non appena rappresentiamo la relazione tramite il
diagramma di Venn
La teoria assiomatica
Probabilità in una relazione di inclusione
Infatti, con riferimento al concetto di cardinalità dei due sottoinsiemi, appare
ovvio che il sottoinsieme 𝐴 comprende
eventi elementari che appartengono
anche al sottoinsieme 𝐵, mentre in
generale non vale la relazione opposta,
fatta eccezione per il caso in cui 𝐴 = 𝐵
Poiché la cardinalità di 𝐴 è minore della
cardinalità di 𝐵, ne discende che 𝑃𝑟 𝐴 ≤
𝑃𝑟 𝐵 , con il segno di uguaglianza che
vale quando 𝐴 = 𝐵
Fin qui l’intuizione. Ora cerchiamo di formalizzare il ragionamento appena seguito
La teoria assiomatica
Probabilità in una relazione di inclusione
Con riferimento al precedente diagramma, possiamo scrivere che
𝐵 =𝐴∪ 𝐵−𝐴
Poiché 𝐴 ∩ 𝐵 − 𝐴 = ∅, possiamo applicare l’assioma 3 e scrivere che
𝑃𝑟 𝐵 = 𝑃𝑟 𝐴 + 𝑃𝑟 𝐵 − 𝐴 ≥ 𝑃𝑟 𝐴
La teoria assiomatica
Proprietà 6. Probabilità condizionata
Ipotizziamo di effettuare un esperimento di estrazione in blocco di 2 palline
da un’urna contenente 5 palline bianche e 5 nere. Naturalmente, questo
esperimento non ha particolare interesse in sé, ma perché concettualizza
situazioni del mondo reale che sono caratterizzate da una complessità ben
diversa
Si ha estrazione bernoulliana o con ripetizione quando, in un esperimento di
estrazione di 𝑛 unità da un’urna probabilistica, le unità sono reimmesse
nell’urna dopo la registrazione del risultato e possono essere estratte
nuovamente, per cui la composizione dell’urna non si modifica al susseguirsi
delle prove
Si ha viceversa estrazione in blocco o senza ripetizione, quando le unità
estratte non sono reimmesse nell’urna dopo la registrazione del risultato. Nel
secondo caso, il manifestarsi di un certo risultato nello svolgimento della
prova 𝑖 −esima dipenderà dall’intera sequenza dei risultati che lo hanno
preceduto
La teoria assiomatica
Probabilità condizionata
Ipotizziamo che alla prima estrazione si sia ottenuta una pallina di colore
nero (evento 𝐵) e che questa, conformemente allo schema di estrazione
scelto, non sia reintrodotta nell’urna, alterando quindi la composizione di
quest’ultima. Ci domandiamo a quanto ammonta la probabilità di ottenere
nell’estrazione successiva una pallina bianca (evento 𝐴), essendosi verificato
l’evento condizionante B nella prima estrazione
Con la composizione di partenza dell’urna la probabilità di estrarre nella
prima prova una pallina bianca sarebbe pari al rapporto tra il numero delle
palline bianche e il totale delle palline contenute nell’urna, cioè 𝑃𝑟 𝐴 =
0,5
Notare che questa probabilità non cambierebbe, nelle estrazioni successive,
se si adottasse uno schema di estrazione con ripetizione, la cui principale
caratteristica è quella di lasciare immutata la composizione dell’urna dopo lo
svolgimento di ciascuna delle prove
La teoria assiomatica
Probabilità condizionata
Ipotizziamo che alla prima estrazione si sia ottenuta una pallina di colore
nero (evento 𝐵) e che questa, conformemente allo schema di estrazione
scelto, non sia reintrodotta nell’urna, alterando quindi la composizione di
quest’ultima. Ci domandiamo a quanto ammonta la probabilità di ottenere
nell’estrazione successiva una pallina bianca (evento 𝐴), essendosi verificato
l’evento condizionante B nella prima estrazione
Con la composizione di partenza dell’urna la probabilità di estrarre nella
prima prova una pallina bianca sarebbe pari al rapporto tra il numero delle
palline bianche e il totale delle palline contenute nell’urna, cioè 𝑃𝑟 𝐴 =
0,5
Notare che questa probabilità non cambierebbe, nelle estrazioni successive,
se si adottasse uno schema di estrazione con ripetizione, la cui principale
caratteristica è quella di lasciare immutata la composizione dell’urna dopo lo
svolgimento di ciascuna delle prove
La teoria assiomatica
Probabilità condizionata
Se viceversa si adotta uno schema di estrazione in blocco, la composizione
dell’urna si altera ad ogni successiva estrazione, influenzando i successivi
risultati. Estratta nella prima prova una pallina nera, infatti, la probabilità di
ottenere nella seconda estrazione una pallina bianca sarà pari a 5 su 9, cioè
0,555
L’implicazione più diretta di questo semplice esperimento è che il meccanismo
di estrazione delle palline dall’urna determina la relazione di dipendenza o
l’indipendenza tra eventi
La teoria assiomatica
Probabilità condizionata
Tentiamo una prima formalizzazione del risultato appena ottenuto
Dati due eventi 𝐴, 𝐵 ∈ ℂ, si ipotizzi che 𝐵 ≠ ∅ e che non risulti vuota
l’intersezione tra i due sottoinsiemi 𝐴 e 𝐵 𝐴 ∩ 𝐵 ≠ ∅. Ipotizziamo di essere
interessati all’evento condizionato 𝐴 𝑠𝑖 𝑣𝑒𝑟𝑖𝑓𝑖𝑐𝑎 𝑒𝑠𝑠𝑒𝑛𝑑𝑜𝑠𝑖 𝑣𝑒𝑟𝑖𝑓𝑖𝑐𝑎𝑡𝑜 𝐵 ,
evento che denoteremo come 𝐴|𝐵
Possiamo pensare all’evento condizionante 𝐵 come ad una partizione di
eventi elementari Ω𝐵 ⊆ Ω
Tanto per essere chiari, con riferimento all’esempio precedente, se siamo
interessati all’estrazione di una pallina bianca avendo estratto in precedenza
una pallina nera, a noi non interessano tutte le sequenze di estrazioni di due
palline, ma soltanto quelle in cui otteniamo una pallina nera alla prima
estrazione: gli esiti dell’esperimento di estrazione in cui otteniamo una
pallina nera alla prima estrazione costituiscono una partizione di Ω e da
questo momento in poi è a tale partizione che faremo riferimento
La teoria assiomatica
Probabilità condizionata
A partire dalla partizione Ω𝐵 , possiamo costruire una 𝜎 −algebra ℂ𝐵 : quali
elementi conterrà ℂ𝐵 ?
Ricordando i principi esposti in precedenza, ℂ𝐵 dovrà contenere lo spazio
campione (che in questo caso coincide con la partizione Ω𝐵 ), la sua
negazione ∅ e l’evento condizionato 𝐴|𝐵 ─ che a ben riflettere coincide
con l’intersezione 𝐴 ∩ 𝐵 , nel senso che l’evento condizionato 𝐴|𝐵 si
verifica se e solo se si manifesta un evento elementare presente
nell’intersezione 𝐴 ∩ 𝐵
Nel complesso avremo che
∅
ℂ𝐵 = 𝐴 ∩ 𝐵
Ω𝐵
La teoria assiomatica
Probabilità condizionata
Associamo ad ogni evento compreso in ℂ𝐵 una misura di probabilità
𝑃𝑟𝐵 : 𝐴|𝐵 → ℝ+
in cui Ω𝐵 assume la funzione di evento certo. Nella partizione Ω𝐵 l’evento
𝐴 ∩ 𝐵 non ha probabilità 𝑃𝑟 𝐴 ∩ 𝐵 , ma una misura di probabilità
𝑃𝑟𝐵 𝐴 ∩ 𝐵 > 𝑃𝑟 𝐴 ∩ 𝐵
Ricordando che vale l’identità 𝐴|𝐵 = 𝐴 ∩ 𝐵 , possiamo scrivere la
seguente proporzione:
𝑃𝑟 𝐴 ∩ 𝐵 : 𝑃𝑟𝐵 𝐴 ∩ 𝐵 = 𝑃𝑟 Ω𝐵 : 𝑃𝑟 Ω
=𝑃𝑟 𝐴|𝐵
𝑃𝑟 𝐵
=1
La teoria assiomatica
Probabilità condizionata
Quindi
𝑃𝑟 𝐴 ∩ 𝐵 : 𝑃𝑟 𝐴|𝐵 = 𝑃𝑟 𝐵 : 1
da cui è immediato scrivere che
𝑃𝑟 𝐴|𝐵 =
𝑃𝑟 𝐴 ∩ 𝐵
𝑃𝑟 𝐵
Naturalmente, se si considera come evento condizionante 𝐴, vale anche il
seguente risultato:
𝑃𝑟 𝐵|𝐴 =
𝑃𝑟 𝐴 ∩ 𝐵
𝑃𝑟 𝐴
𝑃𝑟 𝐴 ≠ 0
La teoria assiomatica
Probabilità condizionata
La principale conseguenza della proprietà appena illustrata è la seguente
Se risolviamo le due precedenti relazioni per 𝑃𝑟 𝐴 ∩ 𝐵 , otteniamo la
probabilità dell’evento intersezione:
𝑃𝑟 𝐴 ∩ 𝐵 = 𝑃𝑟 𝐴 𝑃𝑟 𝐵|𝐴 = 𝑃𝑟 𝐵 𝑃𝑟 𝐴|𝐵
Tale relazione è definita principio o postulato della probabilità composta
La teoria assiomatica
Probabilità condizionata
Come dobbiamo considerare l’evento condizionato 𝐴|𝐵 ?
L’evento 𝐴|𝐵 esprime una revisione nelle aspettative dell’osservatore
circa il manifestarsi di 𝑨, che in qualche modo risulta collegato al verificarsi
dell’evento condizionante 𝐵, al fine di tenere conto del cambiamento
avvenuto nell’information set a seguito del verificarsi di 𝑩
Il verificarsi dell’evento 𝑩 potrebbe migliorare la conoscenza delle circostanze che determinano il verificarsi dell’evento 𝑨, il che in precedenza ci
ha consentito di affermare che 𝑃𝑟𝐵 𝐴 ∩ 𝐵 > 𝑃𝑟 𝐴 ∩ 𝐵 . Ma ciò non si
verifica necessariamente. Può accadere che il manifestarsi di 𝑩 potrebbe
non rappresentare un’informazione rilevante per l’osservatore. È il caso
dell’estrazione con ripetizione, in cui 𝑃𝑟 𝐴|𝐵 = 𝑃𝑟 𝐴 , condizione che ci
consente di affermare che l’evento 𝑨 è stocasticamente indipendente
dall’evento 𝑩
La teoria assiomatica
Probabilità condizionata
Nel caso di indipendenza tra eventi, scriveremo pertanto
𝑃𝑟 𝐴 ∩ 𝐵
𝑃𝑟 𝐴|𝐵 =
= 𝑃𝑟 𝐴
𝑃𝑟 𝐵
⟹ 𝑃𝑟 𝐴 ∩ 𝐵 = 𝑃𝑟 𝐴 𝑃𝑟 𝐵
In altri termini, nel caso di indipendenza tra eventi la probabilità dell’evento
intersezione è data dal prodotto delle probabilità associate ai singoli
sottoinsiemi che formano l’intersezione
La teoria assiomatica
Probabilità condizionata
Esempio 8. Ipotizziamo che in una scuola ci siano 80 studentesse e
120 studenti. I 2 5 delle studentesse e 1 2 degli alunni portano gli
occhiali. Se scegliamo 2 studenti in modo casuale fra tutti gli studenti
della scuola, a quanto ammonta la probabilità che
1. il primo studente scelto porti gli occhiali?
2. il primo studente scelto sia un’alunna, sapendo che porta gli
occhiali?
3. il secondo studente scelto porti gli occhiali, sapendo che il primo
non li porta?
In primo luogo, per visualizzare la situazione, è conveniente
rappresentare la distribuzione degli studenti in base ai caratteri
«genere» e «indossa occhiali» in una tabella a doppia entrata
La teoria assiomatica
Probabilità condizionata
Avremo quindi che
Tabella 2. Distribuzione degli studenti per
genere e possesso di occhiali
Ge ne re
O cchiali
Totale
M
F
Sì
60
32
No
60
48
120
80
Totale
92
108
200
Abbiamo già una certa familiarità con questo tipo di rappresentazione,
in quanto l’abbiamo già incontrata in analisi bivariata (si tratta di una
tabella tetracorica, ricordate?)
La teoria assiomatica
Probabilità condizionata
Risolviamo il primo quesito: la probabilità che il primo studente scelto
estraendolo casualmente dal collettivo porti gli occhiali non è altro
che il rapporto tra numero di studenti che portano gli occhiali (detto
altrimenti, la cardinalità del sottoinsieme degli studenti che portano
gli occhiali) sulla numerosità (cardinalità) del collettivo
Formalmente, se indichiamo con 𝐴 il sottoinsieme degli studenti che
portano gli occhiali, allora la probabilità che estraendo casualmente
dal collettivo uno studente che porta gli occhiali sarà pari a
#𝐴
92
𝑃𝑟 𝐴 =
=
= 0,46
𝑁
200
La teoria assiomatica
Probabilità condizionata
Occupiamoci del secondo quesito: la probabilità che il primo studente scelto
sia un’alunna, sapendo che porta gli occhiali. Per noi il fatto di sapere che lo
studente scelto casualmente porta gli occhiali è un’informazione rilevante?
In linea di massima sì, poiché se sappiamo che porta gli occhiali, non siamo
più interessati al collettivo nel suo complesso, ma concentriamo il nostro
interesse sul sottoinsieme di studenti che indossano occhiali
Su un piano operativo, questo significa considerare solo la prima colonna del
quadro centrale (ciò che in precedenza abbiamo indicato come Ω𝐵 e che in
questo caso dovremmo indicare come Ω𝐴 ). Se 𝐵 è il sottoinsieme del
collettivo di genere femminile, potremo fare riferimento alla nozione di
evento condizionato 𝐵|𝐴 e scrivere
𝑃𝑟 𝐵|𝐴 =
𝑃𝑟 𝐴 ∩ 𝐵
𝑃𝑟 𝐴
La teoria assiomatica
Probabilità condizionata
Al numeratore del rapporto figura la probabilità dell’evento intersezione
𝐴 ∩ 𝐵 = 𝑙𝑜 𝑠𝑡𝑢𝑑𝑒𝑛𝑡𝑒 𝑝𝑜𝑟𝑡𝑎 𝑔𝑙𝑖 𝑜𝑐𝑐ℎ𝑖𝑎𝑙𝑖 𝒆 è 𝑑𝑖 𝑔𝑒𝑛𝑒𝑟𝑒 𝑓𝑒𝑚𝑚𝑖𝑛𝑖𝑙𝑒 , che
ha cardinalità 32, mentre al numeratore del rapporto figura la probabilità
dell’evento che uno studente scelto casualmente indossi occhiali,
sottoinsieme che ha cardinalità 92, per cui nel complesso si avrà
𝑃𝑟 𝐵|𝐴 =
𝑃𝑟 𝐴 ∩ 𝐵
32 200 32
=
=
≅ 0,348
𝑃𝑟 𝐴
92 200 92
La teoria assiomatica
Probabilità condizionata
In ultimo, la probabilità che il secondo studente estratto porti gli occhiali,
sapendo che il primo non li porta, può essere ricavata semplicemente
osservando che, una volta estratto il primo studente e accertato che non
indossa occhiali, rimangono 199 studenti, di cui 92 portano occhiali e i 107
rimanenti (108 meno quello già estratto) no, per cui
𝑃𝑟 𝐵2 |¬𝐵1 =
92
≅ 0,462
199
Scarica

La teoria assiomatica