FREQUENZE
GENOTIPICHE
E GENICHE
Questo documento è pubblicato sotto licenza Creative Commons
Attribuzione – Non commerciale – Condividi allo stesso modo
http://creativecommons.org/licenses/by-nc-sa/2.5/deed.it
Genetica delle popolazioni
a.a. 10-11 prof S. Presciuttini

Un esempio: proteine seriche
Un esempio di variazione genetica entro e fra popolazioni è riportato
nell’articolo di Das et al. (2002), relativo a tre popolazioni umane del
Bengala occidentale tipizzate per quattro proteine seriche.


Le “proteine seriche” fanno parte dei marcatori genetici classici, che erano
già disponibili prima dell’avvento dell’analisi del DNA. La tipizzazione fa
uso della tecnica di elettroforesi in gel d’amido sviluppata a metà degli
anni ’50, che consente di separare miscele di proteine diverse sulla base
delle loro dimensioni e cariche elettriche. Miglioramenti successivi sono
stati l’introduzione della focalizzazione isoelettrica (elettroforesi in
gradiente di pH), che consente una ulteriore separazione delle proteine non
risolte, e l’introduzione del gel di poliacrilamide.
L'analisi di alcune proteine seriche fa parte degli esami routinari del
sangue, mentre altre hanno interesse solo per la variabilità genetica che
mostrano nelle popolazioni
Genetica delle popolazioni
a.a. 10-11 prof S. Presciuttini

Numerosità osservate
Una parte della tabella di Das et al., relativa ad uno dei marcatori
tipizzati, è riportata nella figura seguente. La colonna di sinistra mostra
il nome del locus (Componente Gruppo Specifico o GC), i fenotipi
individuati e il nome degli alleli; a destra seguono i dati di due delle tre
popolazioni studiate.
Consideriamo la colonna “Obs.
No.” (numerosità osservata):
vediamo ad es. che 5 soggetti
sono “ISIS”, e dall’elenco degli
alleli deduciamo che si tratta di
soggetti attribuiti al genotipo
omozigote per l’allele IS. I totali
dei due campioni sono 38 e 45
soggetti
Genetica delle popolazioni
a.a. 10-11 prof S. Presciuttini



Frequenze alleliche
Per questo locus sono stati individuati 3 alleli, denominati *IS, *IF e
*2, che sono presenti nei campioni in 5 delle 6 combinazioni possibili,
le cui frequenze sono 0,474, 0,329 e 0,197
Come sono calcolate le frequenze alleliche? In questo caso gli alleli
sono distinguibili l'uno dall'altro (codominanza) e il calcolo è
elementare.
Si tratta semplicemente di contare la numerosità di ciascun allele nel
campione e di riportarla a 1

per l’allele *IS, 10 copie sono presenti nei 5 genotipi ISIS, e 13 copie sono
presenti sia nel genotipo ISIF che nel genotipo 2IS; quindi abbiamo 36
copie *IS, che riportate al totale dei geni esaminati per il sistema GC (che
è il doppio degli individui tipizzati, 2N =76) fa esattamente 0,474. (Nota:
c’è un errore di stampa nella frequenza di questo allele nella seconda
popolazione). Analogamente si contano le numerosità degli altri due alleli
e si riportano in frequenza relativa
Genetica delle popolazioni
a.a. 10-11 prof S. Presciuttini
Esempio: colore del fiore
Una popolazione di Kalmia latifolia è stata
valutata per la frequenza allelica di un locus
codominante responsabile della colorazione
Red buds: 5000
Pink buds: 3000
White buds: 2000
A1A1
A1A2
A2A2
Le differenze fra i fenotipi sono attribuibili al
locus dell'antocianina
Quali sono le frequenze dell'allele A1 e a2?
Frequency of A2 = q
Frequency of A1 = p
1
N 11 + N 12
2 N 11 + N 12
2
p=
=
,
N
2N
q=
1
N 12
2 N 22 + N 12
2
=
,
N
2N
N 22 +
Genetica delle popolazioni
a.a. 10-11 prof S. Presciuttini
Frequenze alleliche per sistemi codominanti
Dunque nel caso di sistemi codominanti si può scrivere la regola
generale
pi = (2nii + Σj≠i nij)/(2n),
cioè anche
pi = (nii + ½ Σj≠i nij)/n
(1)
dove pi è la frequenza dell’allele i (i = 1, 2, o 3 nel caso del sistema
GC), nii è la numerosità del genotipo omozigote per l'allele i e Σj≠i nij
indica la somma di nij per tutti i valori di j ( j = 1, 2, 3), tranne quando j
= i; n è il numero totale degli individui del campione
Se le frequenze genotipiche sono espresse in frequenze relative (a
somma 1), fij (= nij/N, Σ fij = 1), esse possono essere usate al posto di
nii nell’eq. (1).
Genetica delle popolazioni
a.a. 10-11 prof S. Presciuttini


La stima delle frequenze alleliche e del loro errore
In effetti noi non siamo interessati tanto alla frequenza allelica
osservata in un dato campione quanto piuttosto alla frequenza allelica
nella popolazione che quel campione rappresenta.

Cioè noi esaminiamo un campione assumendo che esso sia rappresentativo
della popolazione cui esso appartiene, e inferiamo le proprietà di questa
dal campione stesso.
Nel caso di sistemi codominanti si può mostrare che la miglior stima
della frequenza (πi) dell’i-esimo allele nella popolazione è data dall’eq.
(1). Quindi semplicemente poniamo πi = pi.

Però ci dobbiamo porre il problema dell’errore dovuto al campionamento:
se si estraggono a caso un numero limitato di genotipi, ci sarà
inevitabilmente una certa variazione casuale delle frequenze alleliche
calcolate nel campione rispetto a quelle della popolazione, e più è piccolo
il campione, più grande è la deviazione che mediamente ci aspettiamo.
Genetica delle popolazioni
a.a. 10-11 prof S. Presciuttini

Deviazione standard ed errore standard
Come la variabilità di una serie di misure è indicata dalla deviazione
standard, così la variabilità di un valore statistico (es. una percentuale,
una proporzione, una media ecc.) calcolato su un campione è indicata
dall'errore standard.


la deviazione standard descrive la variabilità di una serie di misure
effettuate su un campione o una popolazione.
l'errore standard descrive l'incertezza nella stima di un valore statistico (es.
media, proporzione ecc.);
Genetica delle popolazioni
a.a. 10-11 prof S. Presciuttini
Standard Error of Mean
Standard Deviation is a measure of how individual points differ
from the mean estimates in a single sample
Standard Error is a measure of how much the estimate differs from
the true parameter value (in the case of means, μ)
 If you repeated the experiment, how close would you expect
the mean estimate to be to your previous estimate?
Standard Error of the Mean (se):
95% Confidence Interval:
se =
Vx
n
x ± 1.96( se)
Genetica delle popolazioni
a.a. 10-11 prof S. Presciuttini
Errore standard delle frequenze alleliche

Assumendo che il campionamento sia multinomiale, la varianza teorica
delle frequenze alleliche V(πi) è data da
V(πi) = πi(1 - πi)/(2N)
Questa è la varianza attesa in un gran numero di campioni della stessa
dimensione estratti a caso da una popolazioni in cui la frequenza
allelica è πi. Quindi l’errore standard delle frequenze alleliche [s.e.(pi)]
si stima come
s.e.(pi) = V(πi)½ .
Ad esempio gli errori standard delle frequenze di *IS, *If e *2 nella prima
popolazione di Das et al. sono rispettivamente [0,474 x (1 – 0,474)/76]½ = 0,057,
[0,329 x (1 – 0,329)/76]½ = 0,054, e [0,197 x (1 – 0,197)/76]½ = 0,046, come
riportato in tabella accanto alla stima delle frequenze alleliche.
Genetica delle popolazioni
a.a. 10-11 prof S. Presciuttini
Maximum variance as a function of allele
frequency for a codominant locus
0.3
0.25
p(1-p)
0.2
0.15
0.1
0.05
0
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
p
Genetica delle popolazioni
a.a. 10-11 prof S. Presciuttini
Why is variance highest at intermediate
allele frequencies?
p = 0.5
p = 0.125
If this were a target, how variable would your outcome be in each
case (red versus white hits)?
Variance is constrained when value approaches limits (0 or 1)
Genetica delle popolazioni
a.a. 10-11 prof S. Presciuttini




Limiti di confidenza
L'errore standard rappresenta un parametro fondamentale, che viene
comunemente impiegato per il calcolo dei limiti fiduciali (o intervalli
fiduciali o intervalli di confidenza)
Il limite fiduciale è molto utile per avere un'idea della vera caratteristica
della popolazione che stimiamo attraverso lo studio di un campione
Per campioni ragionevolmente ampi (almeno 50-60 osservazioni),
valgono le seguenti relazioni fondamentali:
Che cosa significa l'espressione «confidenza 95%» o «intervallo
fiduciale 95%» o «intervallo di confidenza 95%»? In parole povere,
anche se non del tutto esatte, si può dire che «confidenza 95%» indica
che vi è una probabilità del 95% che l'intervallo trovato includa la vera
caratteristica della popolazione.
Genetica delle popolazioni
a.a. 10-11 prof S. Presciuttini
●
●
Eterogeneità di frequenze alleliche fra popolazioni
L’errore standard delle frequenze è essenziale per calcolare la
significatività delle differenze osservate fra popolazioni.
Per esempio, un modo molto semplice per decidere se una differenza
osservata fra le frequenze alleliche di due popolazioni è significativa “al
livello del 5%” è quello di calcolare i limiti di confidenza del 95%
(95% C.L.) delle frequenze stimate, che si trovano come
95% C.I. = pi ± 1,96 x s.e.(pi),
e controllando se non ci sia sovrapposizione fra i due intervalli
delimitati da questi limiti.
●
Si può facilmente verificare che le frequenze alleliche stimate nelle due
popolazioni di Das et al. non sono significativamente diverse le une dalle altre;
quindi sulla base di questi due campioni non possiamo concludere che ci troviamo
in presenza di popolazioni eterogenee per frequenze alleliche
Genetica delle popolazioni
a.a. 10-11 prof S. Presciuttini