SVILUPPO DI ALGORITMI PER LA
CLASSIFICAZIONE DI CROMOSOMI IN
IMMAGINI IN METAFASE
Enrico Fucigna
Relatore: Prof. Alfredo Ruggeri, Università di Padova
Correlatore: Enrico Grisan
Aprile 2006
2
INDICE
Titolo: Sviluppo di algoritmi per la classificazione di
cromosomi in immagini in metafase
SOMMARIO................................................................................................... 5
1
INTRODUZIONE .................................................................................... 6
1.1
2
Scopo della tesi..........................................................................................................6
TECNICHE DI ANALISI CROMOSOMICA............................................. 7
2.1
2.1.1
2.1.2
2.1.3
2.1.4
2.1.5
2.1.6
I cromosomi...............................................................................................................7
Morfologia .......................................................................................................................... 7
Cariogramma....................................................................................................................... 8
Banding pattern ................................................................................................................... 9
Ciclo cellulare ................................................................................................................... 11
Risoluzione........................................................................................................................ 11
Anomalie cromosomiche .................................................................................................. 11
2.2
2.2.1
International System for Human Cytogenetic Nomenclature ............................13
Nomenclatura .................................................................................................................... 13
2.3
2.3.1
2.3.2
2.3.3
2.3.4
2.3.5
2.3.6
Analisi computerizzata dei cromosomi .................................................................14
Analisi automatica............................................................................................................. 14
Pre-processing................................................................................................................... 15
Segmentazione .................................................................................................................. 15
Estrazione parametri.......................................................................................................... 16
Selezione dei parametri ..................................................................................................... 17
Classificazione .................................................................................................................. 17
3
SVILUPPO DI ALGORITMI PER LA CLASSIFICAZIONE................... 19
3.1
Materiali utilizzati ..................................................................................................19
3.2
3.2.1
3.2.2
3.2.3
Algoritmo di image enhancement..........................................................................21
Decomposizione e ricostruzione wavelet .......................................................................... 21
Multiscale pointwise product ............................................................................................ 22
Enhancement algorithm .................................................................................................... 23
3.3
3.3.1
3.3.2
3.3.3
Estrazione di parametri .........................................................................................24
Lunghezza ......................................................................................................................... 26
Density profile................................................................................................................... 26
Centromeric index............................................................................................................. 27
3.4
3.4.1
3.4.2
Calcolo dell’ asse cromosomico .............................................................................29
Algoritmo proposto ........................................................................................................... 31
Osservazioni...................................................................................................................... 33
3.5
Algoritmi che sfruttano il calcolo dell’ asse cromosomico ..................................34
3
3.5.1
3.5.2
3.5.3
Estrazione del banding pattern ...........................................................................................34
Calcolo della distanza del bordo cromosomico dall’ asse..................................................35
Calcolo del centromeric index ...........................................................................................36
4
RISULTATI............................................................................................39
5
CONCLUSIONE....................................................................................46
BIBLIOGRAFIA............................................................................................47
APPENDICE.................................................................................................49
Abbreviazioni ......................................................................................................................................50
4
Sommario
5
1 Introduzione
1.1 Scopo della tesi
Lo scopo di questo studio è la realizzazione di alcuni algoritmi di interesse nel
campo della classificazione di cromosomi.
6
2 Tecniche di analisi cromosomica
2.1 I cromosomi
I cromosomi sono i trasportatori fondamentali dell’ informazione genetica degli
individui. Il DNA umano è organizzato infatti in cromosomi attivi nelle cellule, le
quali si dividono, si differenziano e guidano lo sviluppo dell’ intero organismo.
Ci sono 46 cromosomi in una normale cellula umana, visivamente i cromosomi
possono essere catalogati in una di 24 classi (etichettate 1-22 X, Y) . Le ultime due
classi individuano i cromosomi sessuali, che si presentano entrambi nella classe X
per le femmine ed uno nella classe X, l’ altro nella classe Y per i maschi. Tutte le
altre classi negli individui normali contengono una coppia di cromosomi identici
detti omologhi. Ciascun cromosoma componente la coppia di omologhi viene
ereditato da ciascun genitore. I cromosomi non sessuali sono detti autosomi.
Dall’ osservazione al microscopio risulta che i cromosomi differiscono per
dimensione e morfologia. Ogni cromosoma, lungo la sua lunghezza spesso presenta
una costrizione chiamata centromero, che è importante per il comportamento dei
cromosomi dal punto di vista cellulare. La collocazione del centromero del
cromosoma in una delle quattro classiche posizioni è utile per la classificazione dei
cromosomi eucarioti. Un cromosoma metacentrico ha il centromero localizzato al
centro del cromosoma, che risulta così diviso in due bracci di lunghezza quasi
uguale. I cromosomi sub-metacentrici hanno un braccio più lungo dell’ altro, i
cromosomi acrocentrici mostrano un braccio con una breve appendice su cui spesso
si osserva un lieve rigonfiamento (denominato “satellite”) e i cromosomi telocentrici
hanno soltanto un braccio, poiché il centromero è situato ad una estremità (Figura
2.1).
Figura 2.1
Classificazione generale dei cromosomi in metacentrici,
submetacentrici, acrocentrici e telocentrici, basata sulla posizione del
centromero.
2.1.1 Morfologia
La lunghezza relativa dei cromosomi umani varia in modo considerevole, ed
unitamente alla posizione del centromero è di aiuto nell’ identificazione dei singoli
7
cromosomi. Gruppi di cromosomi umani con morfologia simile sono designati con
una lettera da A a G:
Gruppo A (1-3): Cromosomi larghi, metacentrici, facilmente distinguibili dagli
altri per le dimensioni e la posizione del centromero.
Gruppo B (4-5): Cromosomi larghi, submetacentrici.
Gruppo C (6-12,X): Cromosomi di taglia media, metacentrici o submetacentrici.
Gruppo D (13-15): Cromosomi di taglia media, acrocentrici, con satelliti.
Gruppo E (16-18): Cromosomi relativamente corti, metacentrici o submetacentrici.
Gruppo F (19-20): Cromosomi corti, metacentrici.
Gruppo G (21-22,Y): Cromosomi corti, acrocentrici, con satelliti. Y non possiede satellite.
Questa era l' unica classificazione possibile in assenza di informazioni oltre alla
lunghezza cromosomica ed alla posizione centromerica. Quando i diversi cromosomi
sono colorati in modo uniforme, è difficile infatti distinguerli in modo non ambiguo
basandosi soltanto su dimensione e forma.
2.1.2
Cariogramma
Un insieme completo di tutti i cromosomi metafasici di una cellula viene definito
cariogramma. Vengono utilizzati di consueto cromosomi metafasici per la
generazione di un cariogramma in quanto questo è il loro stato di maggior
condensazione nella mitosi (divisione cellulare). I cromosomi si presentano quindi in
questa fase nella loro forma più compatta e di più facile osservazione al microscopio
dopo appropriata colorazione. È scelta adottata disporre i cromosomi in ordine
decrescente secondo la dimensione e la posizione del centromero. In un cariotipo
umano i cromosomi sono numerati per una più facile identificazione. Per
convenzione il paio di cromosomi omologhi più lungo è designato come 1, il
successivo più lungo 2 e così via. (Figura 2.2). Benché in realtà il cromosoma 21 sia
più piccolo del cromosoma 22, è chiamato 21 per ragioni storiche.
8
(a)
(b)
Figura 2.2
Immagine di cromosomi estratti da una cellula in metafase di essere umano di sesso maschile,
colorati con Giemsa in (a) ed in (b) il corrispondente cariogramma.
2.1.3
Banding pattern
Per semplificare il riconoscimento dei cromosomi è stata sviluppata una serie di
tecniche che colorano alcune regioni cromosomiche o bande più intensamente di
altre. I bandeggi sono specifici per ogni cromosoma e questo consente di identificare
inequivocabilmente ogni cromosoma del cariotipo.
Una banda è definita come quella parte del cromosoma che è chiaramente
distinguibile dai suoi segmenti adiacenti perché appare più chiara o più scura
attraverso una o più tecniche di bandeggio. Bande che appaiono chiare con una
colorazione possono apparire scure utilizzando una tecnica diversa. I metodi di
colorazione pubblicati per primi utilizzano quinacrine dihydrocloride, un colorante
fluorescente che si lega preferenzialmente al DNA ricco di AT e osservati con
fluorescenza UV per produrre un banding pattern fluorescente e le bande risultanti
vengono definite bandeggio Q. Un pattern quasi identico viene ottenuto
sottoponendo i cromosomi a digestione controllata con tripsina e utilizzando in
seguito il colorante Giemsa che si lega anch’esso al DNA ; le bande scure
corrispondenti vengno nominate bandeggio G, le bande chiare si dicono G-negative;
le bande G scure individuano gli stessi segmenti cromosomici delle bande
fluorescenti Q. Le bande R sono essenzialmente il contrario delle bande G. I
cromosomi vengono denaturati al calore in soluzione salina prima di essere colorati
con Giemsa. Il trattamento al calore denatura il DNA ricco di AT e le bande R sono
Q-negative. Il metodo di bandeggio T identifica un gruppo di bande R concentrate in
particolare ai telomeri. Le bande T sono tra le bande R quelle che si colorano più
intensamente e vengono visualizzate sottoponendo i cromosomi a temperature
particolarmente elevate prima di colorarli con Giemsa, oppure utilizzando una
combinazione di coloranti e fluorocromi. Il bandeggio C si pensa sia in grado di
rivelare la presenza di eterocromatina costitutiva. Una nuova tecnica di colorazione
consiste nella Fluorescence In-Situ Hybridization (FISH) in cui il DNA viene
ibridato attraverso una sonda adatta marcata con fluorescenza consentendo di
9
accrescere significativamente la sensibilità e la risoluzione del’ osservazione (Figura
2.3). Recentemente è stata utilizzata un’ ulteriore tecnica nominata M-FISH in cui
viene generata un’ immagine composita di cinque differenti tipi di fluorescenza e a
ciascun cromosoma viene assegnato uno pseudocolore a seconda della sua
composizione di fluorescenze.
(a)
(b)
(c)
Figura 2.3
Tre esempi di immagini di cellule diverse in metafase analizzate con una colorazione differente:nella
cellula in (a) è stato messo in evidenza il bandeggio G, in (b) sono state ricavate le bande Q, in (c)
vengono evidenziati i centromeri con una colorazione FISH che utilizza la fluorescenza DAPI.
Cromosomi con bandeggi Q, G, R più lunghi mostrano un numero di bande maggiore
rispetto a quelli più corti. L’ aspetto dei cromosomi al microscopio dipende infatti
dallo stadio del ciclo di divisione cellulare in cui vengono visti. Il maggior numero di
bande presente in stadi di maggiore elongazione fornisce una descrizione con una
risoluzione più elevata della struttura del cromosoma, più vantaggiosa ai fini dell’
analisi. L` osservazione in questa fase viene tuttavia resa più difficoltosa a causa
della maggiore complessità del banding pattern (bandeggio) e del fatto che
cromosomi più lunghi tendono a toccarsi e sovrapporsi molto di più rispetto a
cromosomi più corti.
10
2.1.4
Ciclo cellulare
Per la maggior parte del ciclo cellulare (interfase), i singoli cromosomi non possono
essere distinti. La mitosi, ossia il processo di duplicazione cellulare viene solitamente
distino in quattro fasi: profase, metafase, anafase e telofase. All’ inizio della profase,
i cromosomi sono molto allungato, simili a sottili stringhe longilinee, che in seguito
cominciano ad avvolgersi, per cui appaiono al microscopio più corti e spessi. Nella
profase avanzata si osserva che ciascun cromosoma è costituito da due subunità
longitudinali definite cromatidi fratelli. La metafase inizia quando la membrana
nucleare si è dissolta completamente, i cromosomi si scindono originando due copie
esatte, unite al centromero, giusto prima che la divisione cellulare abbia luogo. L’
anafase ha inizio quando i centromeri uniti dei due cromatidi fratelli si separano
dando origine a due cromosomi figli. La citocinesi (divisione cellulare generalmente
inizia negli stadi tardivi dell’ anafase). Durante la telofase si compie il processo di
divisione nucleare ed al termine di questo stadio la cellula possiede due nuclei.
Benché non significativo dal punto di vista biologico è comune riferirsi ad uno stadio
intermedio di contrazione sito tra profase e metafase indicato con il nome di
prometafase.
2.1.5
Risoluzione
Operativamente questi stadi del ciclo di divisione cellulare vengono definiti dal
numero di bande visibili nella cellula. Le cellule in metafase possiedono
approssimativamente 450 bande e si definiscono in prometafase quando hanno 550
bande e oltre (vedi Figura 2.4). Una cellula può essere definita in profase soltanto se
almeno 850 bande sono visibili. Il numero complessivo di bande visibili in un’
immagine cellulare viene definito risoluzione del bandeggio.
2.1.6
Anomalie cromosomiche
I cromosomi possono presentare delle anomalie ossia cambiamenti che producono un
un’ alterazione visibile dei cromosomi, quali di queste siano visibili dipende dalla
tecnica utilizzata. La maggior parte delle aberrazioni cromosomiche è prodotta da
errori nella riparazione di rotture cromosomiche, da errata ricombinazione o da errata
segregazione dei cromosomi durante la mitosi. Le anomalie cromosomiche rientrano
per lo più in due categorie: la anomalie numeriche e quelle strutturali. Tra le
anomalie numeriche sono note triploidia (presenza di cromosomi in eccesso),
trisomia (presenza di autosomi in eccesso es. tre cromosomi 21 indicano la sindrome
di Down), monosomia (mancanza di un cromosoma ), mosaicismo, tra quelle
strutturali si conoscono delezione (perdita di un pezzo di cromosoma), duplicazione
inserzione (un frammento staccato si attacca in un altro punto del cromosoma),
cromosoma ad anello, marcatore e traslocazione (scambio di frammenti tra
cromosomi). Il cariogramma si presenta quindi con tutti i cromosomi con i bandeggi
standard soltanto in individui sani.
11
(a)
(b)
(c)
Figura 2.4
Tre immagini in banda Q di cariogrammi raccolti da cellule di essere umano di sesso maschile a
differenti livelli di risoluzione: l’ immagine in (a) rappresenta un cariogramma estratto da una cellula
in metafase iniziale. I cromosomi mostrano approssimativamente 500 bande e presentano una forma
allungata e sottile. L’ immagine in (b) contiene un cariogramma in cui i cromosomi sono in metafase
intermedia e mostrano una struttura accorciata e compatta, in cui si osservano circa 300 bande. Nell’
immagine in (c) i cromosomi si trovano in metafase avanzata, i due cromatidi fratelli sono in via di
separazione ma rimangono uniti all’ altezza del centromero. Non sono visibili in questo caso più di 70
bande.
12
2.2 International System for Human Cytogenetic Nomenclature
2.2.1
Nomenclatura
Il Sistema Internazionale per la Nomenclatura Umana (ISCN [1]) è stabilito dallo
Standing Committee of Human Cytogenetic Nomenclature. La terminologia
fondamentale per i cromosomi bandeggiati fu decisa in un convegno a Parigi nel
1971 ed è spesso indicata come “nomenclatura di Parigi”. Le localizzazioni sul
braccio corto sono indicate da una p (petite), quelle sul braccio lungo con una q
(queue). Si considera che i bracci di ciascun cromosoma siano suddivisi in differenti
regioni che vengono indicate come p1, p2, p3 etc. e q1, q2, q3 etc., contando a partire
dal centromero e andando verso i telomeri. Le varie regioni sono delimitate da punti
di riferimento specifici, con caratteristiche morfologiche costanti e distinte, che
comprendono le estremità dei bracci cromosomici, il centromero e alcune bande . Le
regioni vengono divise in bande indicate come p11, p12, p13, etc., ed in sottobande
p11.1, p11.2, etc., con una numerazione che va sempre dal centromero verso i
telomeri. Il centromero è indicato come “cen” ed il telomero con “ter”. Xq
prossimale significa il segmento del braccio lungo dell’ X che è più vicino al
centromero, mentre 2p distale significa la porzione del braccio corto del cromosoma
2 che è più distante dal centromero e, quindi, più vicina al telomero.
La posizione del centromero viene definita attraverso il centromeric index ossia il
rapporto tra il braccio più corto e l’ intera lunghezza del cromosoma.
Figura 2.5
Cromosoma in banda G con indicazioni relative al centromero e ai
bracci p e q. per definizione il braccio più corto viene designato p.
la freccia indica la posizione del centromero
Ideogrammi. L’ ISCN ha definito inoltre un insieme di modelli chiamati
ideogrammi volti a fornire una descrizione visuale dei bandeggi cromosomici. Per
convenzione questi disegni rappresentano le bande G .
13
Figura 2.6
Ideogrammi del bandeggio G per cromosomi umani normali a 3 differenti livelli di
risoluzione. Da sinistra, i cromosomi in ogni gruppo rappresentano un cariogramma di
rispettivamente 400, 550 ed 850 linee di bandeggio. Le bande G scure corrispondono a
bande Q fluorescenti, con l’ eccezione delle regioni variabili (in grigio). La numerazione
delle bande R è esattamente la stessa con la condizione di complementare bande chiare e
scure. Negli ideogrammi viene rappresentata anche la posizione del centromero
2.3 Analisi computerizzata dei cromosomi
Ai fini dello sviluppo di un cariogramma una cellula viene fotografata al microscopio
ottico durante lo stadio di metafase, dall’ immagine ottenuta vengono ritagliati i
cromosomi e disposti nella locazione appropriata, in accordo con la classificazione
visiva operata dal citologo
Il cariogramma è uno strumento molto utile per riconoscere deviazioni dalla
normale struttura di una cellula ma tuttora l’ analisi dei cromosomi e la relativa
classificazione vengono eseguite manualmente nella maggior parte dei laboratori di
citogenetica, con un procedimento ripetitivo, dispendioso in termini temporali e
molto costoso. Il Canadian Workload Measurement System [9] impiega 465 min per
la creazione del cariogramma degli amniociti, una della operazioni più comuni in
citogenetica. La gran parte del tempo viene dedicata al microscopio, una fase
tediante, stressante per l’ occhio e che richiede una meticolosa attenzione ai dettagli,
oltre a necessitare di personale molto qualificato.
2.3.1
Analisi automatica
L’ analisi automatica dei cromosomi è stata proposta per la prima volta nel 1960. Nei
tre decenni passati sono stati compiuti molti sforzi al fine di risolvere il problema
della classificazione completamente automatizzata dei cromosomi. Considerando
tuttavia gli innumerevoli possibili aspetti con cui si presentano le immagini
cromosomiche, bisogna prendere atto che la complessità di questo problema ascende
ad un livello elevatissimo.
14
I software di creazione automatica del cariogramma disponibili attualmente in
commercio si rivelano essere di grande aiuto ma ancora inadeguati. Alcune delle
ragioni che spiegano queste modeste prestazioni vanno ricercate nel carente utilizzo
della conoscenza e della competenza degli esperti, nell’ insufficiente capacità di
eseguire confronti o eliminazioni tra cromosomi nella stessa metafase. In aggiunta i
sistemi attuali richiedono sempre l’ interazione dell’ operatore per separare
cromosomi che si toccano o sovrappongono e per verificare il risultato della
classificazione.
L’ analisi al computer dei cromosomi consiste in primo luogo di pre-processing dell’
immagine ottenuta al microscopio, segmentazione,(eventualmente seguita da un
processing intermedio), estrazione dei parametri, selezione degli stessi ed infine
classificazione.
2.3.2
Pre-processing
La fase di pre-processing ha come obiettivo il miglioramento della qualità dell’
immagine cellulare attraverso tecniche di riduzione del rumore, ottimizzazione dei
bordi del cromosoma, aumento del contrasto. Procedure di questo tipo si possono
riscontrare ad esempio nei lavori di Moradi e Setarehdan [10], in cui, prima di
effettuare il calcolo di qualsiasi parametro dipendente dalle condizioni di
illuminazione, viene eseguita una normalizzazione dell’ intensità dell’ immagine
attraverso la histogram stretching technique. Anche nello studio di Shunren et al.
[19], a precedere il successivo stadio di segmentazione viene modificato l’
istogramma dell’ immagine eseguendo uno stretching dei livelli di grigio. Uno dei
lavori migliori nell’ambito della realizzazione di un software destinato al image
enhancement di immagini cromosomiche è quello compiuto da Wang e Wu [2],[3],
in cui viene esaminato quantitativamente l’ effetto del miglioramento dell’ immagine
sulle prestazioni del pattern recognition per immagini cromosomiche e si arriva a
verificare come l’ image enhancement comporti un significativo incremento nella
precisione dell’identificazione. L’ algoritmo che introducono si basa su filtri
differenziali che facilitano l’ estrazione delle caratteristiche geometriche multiscala
dell’ immagine cromosomica. Considerando che caratteristiche geometriche come i
bordi sono correlate a scale differenti nella rappresentazione in wavelets, viene
utilizzato un multiscale point-wise product (MPP) per caratterizzare la correlazione
degli aspetti peculiari dell’ immagine a diverse scale.
2.3.3
Segmentazione
Il proposito della fase di segmentazione verte invece sull’ isolamento dei cromosomi
in metafase dallo sfondo, da nuclei cellulari indivisi, da materiale biologico
irrilevante presente all’ interno dell’ immagine e altro. In materia è stato scritto molto
in letteratura e generalmente si conviene che il primo passo della segmentazione
consti di un processo a soglia per la separazione dello sfondo dagli oggetti di
interesse. Karvelis et al. nel loro studio [20] ricorrono al processo di thresholding di
Otsu così come Guimaraes et al. [21] e Piper e Granum [13]; questo consente di
ricondursi ad un’ immagine binaria da cui si ricavano facilmente i cromosomi singoli
ma si incontrano ingenti difficoltà nella separazione di cromosomi che si toccano o
sovrappongono.
15
Tra le ricerche compiute nell’ intento di risolvere questo problema critico sono di
notevole interesse quelle effettuate da Karvelis et al. [20] (relativamente tuttavia a
gruppi di cromosomi che si toccano soltanto), ove si esegue una iniziale
segmentazione utilizzando la watershed transform ed in seguito questa
trasformazione viene applicata ricorsivamente ad ogni area segmentata finché non
vengono generate ulteriori aree. Infine vengono prodotte le aree segmentate
definitive calcolando tutti i percorsi che partono da punti ad alta concavità.
Agam e Dinstein [22] propongono un criterio che tratta il problema della
separazione di clusters di cromosomi sovrapposti come un problema di
identificazione, Shunren et al. [19] introducono ben due metodi di incisione dei
cromosomi sovrapposti: il metodo della caratteristica del contorno, che sfrutta
elementi del contorno, ad esempio la presenza di punti concavi sul bordo di un
cluster costituito da cromosomi sovrapposti, ed il metodo della trasformata di
Fourier, che impiega un filtro passa basso di Fourier per elaborare l’ immagine
cromosomica e creare una nuova immagine in cui il tono di grigio degli oggetti viene
ridistribuito con il gradiente. Da questa utilizzando a seguire un processo a soglia l’
interno del cromosoma viene rivelato. Ulteriori lavori rilevanti in questo senso sono
da riferire a Lerner et al. [7] [6], che introduce il metodo CPOOS (Classification
Driven Partially Occluded Object Segmentation) che viene applicato, in seguito alla
classificazione degli oggetti isolati, sui clusters che non è stato possibile separare. Il
metodo prende i punti più concavi lungo la curvatura dell’ immagine e
congiungendoli ricava la possibili linee di separazione dei cromosomi; infine le linee
di taglio più probabili vengono scelte come effettive.
Charters e Graham, [15], cercano di svincolare le sovrapposizioni attraverso
modelli del bandeggio cromosomico che possono essere sottoposti ad un training. I
modelli consistono di templates dei profili del banding pattern di lunghezza inferiore
a quella cromosomica. I segmenti cromosomici candidati vengono classificati in
accordo con il loro confronto con l’ intero set di templates, e uniti in base alla
classificazione. In uno studio successivo [15], unitamente ai modelli parziali di
bandeggio cromosomico vengono considerati modelli addestrabili della forma
introducendo una parametrizzazione definita Chord Distribution Model (CDM). La
percentuale complessiva di cromosomi identificati correttamente migliora
sensibilmente.
In seguito alla segmentazione può venire introdotta una ulteriore fase di processing
dell’ immagine ottenuta in precedenza, con l’ obiettivo di perfezionare quegli aspetti
dell’ immagine che facilitano il riconoscimento dei cromosomi, quali ad esempio il
banding pattern. Da noverare in questo senso l’ esempio offerto da Shunren et al.
[19] nel loro scritto, ove alla fase di segmentazione segue un’ operazione
matematica di opening morfologico, atto ad assottigliare gli oggetti e rimuovere il
rumore ancora presente.
2.3.4
Estrazione parametri
Quanto segue le fasi descritte in precedenza viene comunemente ricondotto allo
stadio di estrazione delle features. Questo punto richiede di effettuare la misura dei
parametri cromosomici per estrarne le caratteristiche che in maggior misura si
prestano a discriminare le differenti classi cromosomiche. Il risultato poi della
selezione delle caratteristiche, se applicata, consente di ricondurre il cromosoma ad
una rappresentazione più sintetica che tuttavia contenga la maggior parte dell’
16
informazione cromosomica. A partire da quest’ ultima descrizione del cromosoma
viene eseguita la classificazione vera e propria, usualmente valendosi di un metodo
statistico.
L’ utilizzo di parametri piuttosto che dell’ immagine stessa rende il processo di
classificazione più semplice, veloce ed accurato. Sono state utilizzate numerose
caratteristiche differenti per descrivere un cromosoma, ad esempio nella
pubblicazione di Piper e Granum del 1989 [13] vengono vagliati diversi parametri,
taluni misurabili direttamente dall’ immagine cromosomica (area, densità relativa,
perimetro del convex hull) altri invece ricavati in seguito al calcolo dell’ asse
(lunghezza, banding pattern) ed ulteriori che richiedono, oltre al computo dell’ asse,
l’ informazione circa la polarità del cromosoma, che può essere ottenuta
determinando anche la locazione del centromero (Centromeric Index, ossia il
rapporto tra il braccio più corto del cromosoma e l’ intera lunghezza cromosomica).
Sweeney at al. [23] calcolano la lunghezza unitamente ai coefficienti wavelet e di
Fourier derivati dal profilo densitometrico per formare un vettore di parametri per
ciascun cromosoma, Delshadpour [24] aggiunge a lunghezza e banding pattern la
decomposizione dei livelli di grigio o componenti della trasformata di Fourier
bidimensionale, Guimaraes [21] considera invece il rilevamento della forma del
cromosoma, ne ricava il contorno e quindi la relativa decomposizione attraverso la
wavelet packet transform. Nonostante molte possibili analisi effettuate su immagini
cromosomiche siano state prese in considerazione, quelle maggiormente
discriminanti ai fini della classificazione sembrano essere tuttavia la lunghezza ed il
centromeric index (ossia due caratteristiche geometriche), ed il density profile
(integrale o densità media lungo sezioni perpendicolari al medial axis del
cromosoma), come riportato negli studi di Lerner et al. [7] [8], in quelli di Moradi et
al. [10], [11], [12], ed in quelli di Cho [17].
2.3.5
Selezione dei parametri
Una volta estratti quelle features del cromosoma che si ritengono più utili alla
classificazione è possibile cercare di ridurne il numero mantenendo intatto o
diminuendo lievemente il contenuto di informazione attraverso la feature selection,
che può essere intesa come la ricerca, tra tutte le possibili trasformazioni dello spazio
dei parametri, di quella che preserva la separabilità tra le classi in uno spazio con il
minor numero possibile di dimensioni. Lerner [7] propone lo knock-out algorithm
che valuta, attraverso una matrice che pesa lo scatter within-class e between-class, l’
efficacia di vettori di parametri costituiti di sottoinsiemi del vettore iniziale,
eliminando quindi le features meno discriminanti.
2.3.6
Classificazione
Il problema che si pone al termine della convenzionale procedura di analisi dei
cromosomi è quello della classificazione vera e propria, l’ argomento che è stato
maggiormente esaminato nell’ analisi cromosomica. In quest’ ambito il classificatore
più popolare è una rete neurale con multi-layer perceptron, usualmente addestrata
con un algoritmo di backpropagation come in Delshadpour [24], Lerner [8], Cho
[17], Moradi [10]; altri classificatori sono stati studiati, come gli inferred Markov
network models di Granum e Thomason [14], statistici come in Piper and Granum
17
[13] (maximum likelihood classifier) o ancora fuzzy o nearest neighbor. La maggior
parte di questi classificatori ha due inconvenienti: innanzitutto offre prestazioni di
livello inferiore rispetto ad un citologo esperto (70-80% paragonato a 99.7%) ed in
secondo luogo richiede l’ intervento di un operatore per risolvere casi di erronea
classificazione di cromosomi. Alcune delle ragioni alla base di queste limitazioni
vanno ricercate nell’ uso inadeguato della metodologia di un esperto (ad esempio il
confronto tra cromosomi o l’ eliminazione), l’ utilizzo di parametri limitati nella
qualità o nel numero se raffrontati con il potentissimo meccanismo di sintesi del
cervello umano, l’ impiego delle stesse caratteristiche specifiche per descrivere tutti i
cromosomi e l’ ingenuo tentativo di rappresentare un problema molto complesso, che
comporta il riconoscimento di schemi molto sensibili al contesto ed esibisce una
naturale varietà, attraverso le restrizioni di una rigida struttura matematica.
In ogni caso un completo ed efficiente sistema di classificazione automatica dei
cromosomi è un obiettivo molto ambizioso. Molti dei lavori precedentemente
riportati sono in effetti da ritenere studi di fattibilità, in cui gli autori si collocano in
un contesto limitato (es. analisi di un numero esiguo di classi cromosomiche, o
utilizzo di cromosomi privi di difetti genetici, non sovrapposti, non eccessivamente
curvati ) ed inoltre i cromosomi considerati vengono prelevati da data sets di utilizzo
pubblico, dove i cromosomi vengono colorati con Giemsa il metodo più diffuso per
evidenziare il banding pattern.
18
3 Sviluppo di algoritmi per la classificazione
3.1 Materiali utilizzati
Le immagini che sono state utilizzate sono di tre tipologie:
- immagini in banda Q (cromosomi bianchi su sfondo nero) con risoluzione PAL
(768x576)
(a)
(b)
Figura 3.1
Immagine di cellula in metafase in figura (a) e relativo cariogramma rappresentato in
(b).
(a)
(b)
(c)
Figura 3.2
Immagini cromosomiche in dettaglio: cromosoma preso da immagine di
una cellula in metafase in (a), proveninti da immagini di cariogramma in (b)
ed in (c). In (b) si nota la presenza dello sfondo da cui l’ immagine è stata
tratta, in (c) la presenza di di cromosomi sovrapposti.
Oltre alle immagini metafasiche in banda Q, sono state fornite immagini dei
cariogrammi relativi, ottenuti da classificazione eseguita da esperti citogenetisti. Le
immagini in metafase con bandeggio Q sono quelle maggiormente utilizzate dai
laboratori di Padova in quanto più economiche e semplici da ottenere. Tuttavia
19
presentano spesso condizioni di illuminazione non ottimali. Le immagini di
cariogramma inoltre sono state scontornate manualmente in modo a volte
approssimativo, rendendo l’ operazione di estrazione dei parametri piuttosto
difficoltosa. Un problema presentatosi, che rende critico l’ ottenimento del
bandeggio, consiste nella presenza di overlaps (sovrapposizioni) anche tra
cromosomi del cariogramma.
- Immagini in banda G acquisite da telecamera digitale (1024x1280)
(a)
(b)
Figura 3.3
Cellula in metafase in banda G in (a), relativo cariogramma in (b).
Queste immagini sono state utilizzate in misura minore in quanto, pur essendo il
bandeggio G il più studiato in letteratura, le richieste dei laboratori propendono per
lo studio del bandeggio Q.
- Immagini in banda Q (768x576) con cariogrammi passati attraverso un programma
di cariotipizzazione automatica.
(a)
(b)
Figura 3.4
Cellula in metafase avanzata con banda G (a) e cariogramma filtrato corrispondente (b).
Queste immagini sono state le meno utilizzate in quanto già filtrate (quindi con un
banding pattern modificato) e con cellule in metafase avanzata (bassa risoluzione del
bandeggio).
20
Il software utilizzato per l’ implementazione degli algoritmi è MATLAB release 12,
che fornisce una serie di utili toolboxes per semplificare numerose operazioni di uso
comune (Wavelet Toolbox, Neural Network Toolbox etc.).
3.2 Algoritmo di image enhancement
Il primo degli algoritmi sviluppati i questo studio è un tipo di algoritmo di processing
che cerca di soddisfare la necessità di ottenere una trasformazione dell’ immagine in
metafase che faciliti l’ estrazione del banding pattern.
Questa caratteristica geometrica si presenta come una serie di bande che
attraversano il cromosoma con direzione perpendicolare al medial axis. Tra le varie
tecniche utilizzate, gli operatori differenziali sono stati usati per molto tempo in
quanto semplificano l’ estrazione di importanti features geometriche come i
contorni. Questo tipo di operatori può essere considerato come un filtro passa-alto,
quindi una tecnica di questo genere raffina l’ immagine estraendo l’ informazione ad
alta frequenza. L’ algoritmo implementato prende le mosse dai lavori di Wang e Wu
et al. [2], [3], [4], in cui presentano una struttura formale per la rappresentazione di
immagini utilizzando operatori differenziali multiscala. Sono stati disegnati molti tipi
di wavelets per la rappresentazione multiscala di immagini. Un’ immagine può
essere decomposta e ricostruita a partire dalle sue componenti a scale differenti.
3.2.1 Decomposizione e ricostruzione wavelet
Avvalendosi delle proprietà delle splines si è ottenuto un rapido algoritmo e le
relative rappresentazioni differiscono dai consueti modelli wavelet in quanto sono
completi ed invarianti rispetto alla traslazione. In generale queste rappresentazioni
sono più flessibili rispetto a quelle ortogonali e si prestano maggiormente al
trattamento di immagine in base alla geometria, permettendo di eliminare spiacevoli
artefatti introdotti da modifiche dei coefficienti di espansione delle wavelets
ortogonali (vedi Appendice).
Sfruttando le proprietà delle splines si può ottenere un algoritmo ricorsivo per il
calcolo di queste tre derivate parziali locali lungo scale diadiche {2j}j ∈ Ζ .Il costrutto
teorico che sta alla base dell’ algoritmo può essere ritrovato in [2], [3], [4].
Si ottiene la seguente formula di decomposizione discreta:
S 2 j f = S 2 j −1 f ⊗ (h, h) ↑ 2 j −1
W 1j f = S 2 j −1 f ⊗ ( g ( 2 ) , d ) ↑ 2 j −1
2
(3.1)
W 2j f = S 2 j −1 f ⊗ (d , g ( 2 ) ) ↑ 2 j −1
2
W 3j f = S 2 j −1 f ⊗ ( g (1) , g (1) ) ↑2 j −1
2
dove I ⊗ (h, g ) ↑ 2 j −1 rappresenta la convoluzione separabile delle righe e delle
colonne dell’ immagine con i filtri 1-D [h]↑2 j −1 e [ g ]↑ 2 j −1 rispettivamente. Il simbolo d
21
denota il filtro di Dirac, il cui impulso vale uno nell’ origine e zero altrove. L’
operazione di upsampling di una sequenza {h(n)} di un fattore intero m è definita
come [h]↑ m .
L’ immagine può essere ricostruita seguendo la formula di ricostruzione discreta
S 2 j −1 f = W21j f ⊗ ( g~ ( 2 ) , u ) ↑ 2 j −1 + W22j f ⊗ (u, g~ ( 2 ) ) ↑2 j −1 +
+ W23j f ⊗ ( g~ (1) , g~ (1) ) ↑2 j −1 + S 2 j f ⊗ (h, h) ↑ 2 j −1
⎛ 2n + 2 ⎞
⎟⎟ ,
u ( j ) = (1 /(2 2 n + 2 ))⎜⎜
⎝ j ⎠
impulsiva finita (FIR) descritti sotto:
(3.2)
0 ≤ j ≤ 2n+2 sono i filtri a risposta
Dove
(a)
(b)
Figura 3.5
Filtri FIR di decomposizione e ricostruzione: (a) basato sulle
linear splines e (b) basato sulle cubic splines
3.2.2
Multiscale pointwise product
Seguendo l’ analisi effettuata da Wang-wu et al. nel loro studio [2] viene osservato
come bordi e patterns permangono nella decomposizione attraverso scale differenti e
sono correlate spazialmente. In questa tesi, come nel loro lavoro viene pertanto
adottato il Multiscale Pointwise Product (MPP) per misurare la correlazione crossscale. Il MPP è definito come
K
p K ( n ) = ∏ W2 j f ( n )
(3.3)
j =1
22
Questo criterio è stato usato per il rilevamento e la localizzazione, per eliminare il
rumore e per il filtraggio di immagini di risonanza magnetica. In realtà, anche prima
dell’ utilizzo della wavelet transform, il MPP era stato usato per rafforzare i picchi
multiscala dei segnali e contemporaneamente ridurre il rumore, sfruttando la
correlazione multiscala dei segnali desiderati. Dato che i massimi di W2j f (n) dovuti
ai contorni nel segnale f (n) tendono a propagarsi attraverso scale differenti
contrariamente ai massimi dovuti al rumore, pK rafforza la risposta del segnale
piuttosto che del rumore. Il multiscale product ha quindi la capacità intrinseca di
sopprimere impulsi stretti ed isolati e al contempo preservare la risposta dei contorni
a scale differenti.
3.2.3
Enhancement algorithm
L’ algoritmo di miglioramento dell’ immagine può essere riassunto nei tre passi
seguenti:
1. Eseguire delle decomposizioni multiscala dell’ immagine usando le spline
wavelets ottenendo così una serie di decomposizioni lungo le direzioni
orizzontale, verticale e diagonale. L’ utilizzatore può decidere di modificare
queste componenti direzionali in modo selettivo attraverso dei coefficienti
passati in ingresso, al fine di evidenziare alcuni dettagli di informazione
piuttosto che altri.
2. Ordinare i valori di p Kd (n) d = 1, 2, 3 ad ogni pixel in ordine crescente. In
questo modo si nota quali componenti wavelet contribuiscono in misura
maggiore all’ immagine. L’ utilizzatore imposta una soglia μ per i diversi
gradi di enhancement. La fase di thresholding usando la formula seguente:
~
W2dj f (n) = λ( j )W2dj f (n)
= 0
if
if
p Kd (n) ≥ μ
p Kd (n) < μ
(3.4)
3. Dopo aver modificato le componenti wavelet nei passi precedenti viene
operata la trasformazione wavelet inversa usando la formula di ricostruzione
S 2 j −1 f = W21j f ⊗ ( g~ ( 2 ) , u ) ↑ 2 j −1 + W22j f ⊗ (u, g~ ( 2 ) ) ↑2 j −1 +
+ W23j f ⊗ ( g~ (1) , g~ (1) ) ↑2 j −1 + S 2 j f ⊗ (h, h) ↑ 2 j −1
(3.2)
4. Si esegue un histogram stretching dell’ immagine ottenuta.
Nella formula, la scelta di μ dipende dal livello del rumore nell’ immagine. Poiché le
immagini cromosomiche utilizzate in questo studio hanno poco rumore, il valore di μ
viene impostato molto piccolo. L’ utilizzatore ha l’ opzione di impostare differenti
valori di λ(j) per ottenere diversi gradi di miglioramento. Generalmente aumentando il
valore di λ(j) si ottiene un aumento più evidente del contrasto. Poiché le componenti
ad alta frequenza vengono di consueto evidenziate a risoluzioni a bassa scala,
conviene impostare un valore più alto di λ(j) a bassa scala.
23
(a)
(b)
Immagine di cellula in metafase in banda G, in (a) prima
ed in (b) dopo l’ algoritmo di image enhancement
proposto
3.3 Estrazione di parametri
L’ obiettivo finale di questa fase di un software di riconoscimento cromosomico è la
determinazione di un vettore di parametri, eguale in numero per ciascun cromosoma
che sia in grado di fornire una univoca descrizione di ciascuna classe. Tale vettore,
qualora passato in ingresso ad un classificatore opportuno dovrebbe essere in grado
di determinare la classe di appartenenza del cromosoma.
Si possono distinguere parametri cromosomici di quattro livelli: quelli di livello 1
vengono ottenuti da una misura diretta dell’ immagine cromosomica e sono ad
esempio l’ area cromosomica, la densità relativa (rapporto tra densità ottica totale e
area), e il perimetro del convex hull. Le caratteristiche di livello 2 richiedono l’ asse
come ad esempio la lunghezza cromosomica, quelle di livello 3 richiedono sia l’
informazione circa l’ asse , sia quella relativa alla polarità del cromosoma ed un
esempio è il density profile, infine i parametri di livello 4 necessitano ulteriormente
della conoscenza della posizione del centromero, ad esempio il banding pattern.
24
(a)
(b)
(c)
Figura 3.6
Parametri cromosomici di differenti livelli: in (a) un cromosoma, il suo convex hull
ed il rettangolo circoscritto di larghezza minima derivato dal convex hull, che viene
utilizzato per ruotare il cromosoma in posizione verticale (parametro di livello 1).In
(b) l’ asse mediano del cromosoma utile per trovare la lunghezza cromosomica
(livello2). In (c) viene evidenziato il banding pattern di un cromosoma ossia la media
dell’ intensità del cromosoma lungo linee perpendicolari al medial axis (livello 3).
Tra i lavori di letteratura utili alla scelta delle caratteristiche cromosomiche che si
prestano in maggior misura all’ identificazione, vi sono gli studi di Lerner et al. [6],
[7], [8], in cui viene chiaramente indicato come, benché le caratteristiche globali del
cromosoma come l’ area possano essere calcolate molto facilmente e siano adatte per
l’ implementazione, una combinazione di caratteristiche geometriche (lunghezza e
centromeric index) e di intensità (density profile) consenta di ottenere un miglior
discriminazione nella classificazione dei cinque tipi cromosomici considerati nel data
set dello studio. Il grafico riportato in Figura 3.7, mostra come un vettore di
parametri cromosomici costituito da lunghezza, CI e density profile consenta di
ottenere una percentuale di riconoscimenti corretti ottimale (compresa tra il 90% ed
il 100%), con l’ aggiunta di soltanto 5-10 parametri del density profile, mentre vettori
privi della lunghezza ma contenenti il centromeric index raggiungono percentuali
simili con l’ aggiunta di 18-20 caratteristiche del bandeggio ulteriori. Vettori infine
contenenti soltanto parametri del density profile necessitano di almeno 28-30
25
caratteristiche per raggiungere percentuali superiori al 90% (ricordando che vengono
considerati soltanto 5 classi cromosomiche) .
Figura 3.7
Studio effettuato da Lerner et al. [7] [8] per valutare l’ importanza del
numero di elementi (in ascissa) del vettore di parametri con cui viene
descritto un cromosoma per ottenere una classificazione corretta
(valore in percentuale in ordinata). La linea continua rappresenta il
vettore costituito dal solo density profile, la linea con” x” rappresenta il
vettore con centromeric index e density profile, la linea con “o” indica
l’ utilizzo di lunghezza, CI e DP.
Per questa ragione in questo studio è stato concentrato il lavoro sull’ ottenimento di
lunghezza, posizione del centromero (quindi centromeric index) e density profile.
3.3.1
Lunghezza
Questo parametro cromosomico può essere ottenuto semplicemente come una misura
in pixel della lunghezza dell’ asse cromosomico. Nel caso l’ asse venga calcolato
attraverso il computo della Medial Axis Transform (vedi par. 3.4) la lunghezza può
essere considerata quella del medial axis finché questo non si dirama, e quella della
mediana del triangolo costituito dalle due biforcazioni e dal bordo del cromosoma
dove iniziano le ramificazioni.
3.3.2 Density profile
Ogni campione del density profile viene definito da Moradi et al. [10] come la media
o l’ integrale dell’ intensità dei pixels che giacciono su di una linea perpendicolare
all’ approssimazione dell’ asse del cromosoma. A questo proposito,in corrispondenza
di ogni pixel che appartiene all’ approssimazione della curva centrale del cromosoma
26
viene considerata una retta e vengono mediati i livelli di grigio dei pixel che vi
appartengono, generando così un campione del DP-signal ossia un numero compreso
nel range 0-255. Nel caso di cromosomi a bande G (come quelli nel data set di
Moradi ) poiché usualmente è desiderabile attribuire i picchi del DP-signal alle
regioni più scure del cromosoma, ogni campione del DP-signal viene rimpiazzato dal
suo complemento a 255.
Figura 3.8
Density profile signal calcolato per i due cromosomi 17 e 18 appartenetnti al gruppo E.
3.3.3
Centromeric index
Nel lavoro di Moradi et al. [11] si considera che da un punto di vista morfologico il
centromero è il punto lungo l’ asse del cromosoma che possiede la minor larghezza.
In corrispondenza del centromero e distinguibile un restringimento lungo i bordi del
cromosoma. Per questo motivo è sufficiente ottenere anche in questo caso una
versione binaria dell’ immagine attraverso un processo di thresholding, con una
soglia che differisce da un’ immagine all’ altra. Una volta ottenuta la binarizzazione
vengono calcolati i vettori proiezione nelle direzioni orizzontale e verticale
sommando i valori dei pixel lungo le linee di proiezione. Quando sono stati ottenuti i
valori delle proiezioni orizzontali, per l’ intera lunghezza del cromosoma, il minimo
globale che si presenta nella parte centrale del cromosoma può venire considerato
come come locazione del centromero. Calcolando il medial axis, il punto di questo
che corrisponde alla posizione del centromero sul piano proiettivo può essere
approssimato come locazione del centromero sull’ asse e da questo è possibile
ottenere i vettori proiettivi. Questo metodo di calcolo del centromero necessita di
cromosomi che si trovi in posizione verticale e presenta tuttavia l’ inconveniente di
non riuscire a determinare una locazione corretta se vengono analizzati cromosomi
troppo piegati.
27
Figura 3.9
Il metodo di calcolo del centromero basato sul computo dei
vettori proiettivi.
La metodologia proposta da Lerner et al. [7] prevede di localizzare la posizione
centromerica ricercando la coppia più vicina di punti opposti del contorno lungo
linee perpendicolari all’ asse. Questo metodo da risultati migliori rispetto al
precedente tuttavia il problema critico di questo approccio si trova nel fatto che la
“testa” e la “coda” del cromosoma debbono essere tagliate, sarebbero infatti dei punti
di minimo assoluto, e la posizione del taglio è di difficile determinazione (non si
conosce a priori infatti se il cromosoma è metacentrico o acrocentrico).
Un tentativo di ovviare a questo inconveniente è stato proposto da Piper e Granum;la
soluzione adottata in questo lavoro [13] è quella di ottenere il profilo del cromosoma
inteso come distanza del bordo del cromosoma dall’ asse, e rifletterlo vicino alle
estremità. Se il profilo del cromosoma viene rappresentato come una funzione S di
una variabile intera che ha valori non nulli nel range [0-l] ed è zero altrove, dove l è
la lunghezza del profilo, allora il profilo è una funzione S’(i) = S(i) + S(k-i) + S(2l-ki) dove k < l è la lunghezza della sovrapposizione tra il profilo originale e le sue
riflessioni. S’ è non nullo nel range [k-l, 2l-k] . L’ effetto di questa trasformazione e
indurre un minimo locale artificiale nel profilo si un cromosoma acrocentrico,
distinto da uno metacentrico. Questo giace usualmente a k/2 dall’ estremo del profilo
originale e quindi k viene preso tale che k/2l è la lunghezza media CI per cromosomi
acrocentrici normali. Nel caso di cromosomi metacentrici il minimo globale del
profilo trasformato è quasi sempre ancora nel centromero, mentre nel caso di
cromosoma acrocentrico il minimo locale indotto nel profilo trasformato costituisce
anche il minimo globale (vedi ). Anche questo metodo tuttavia necessita di
cromosomi con bordi sufficientemente regolari, che consentano con una semplice
funzione di minimo, di determinare la posizione centromerica, condizione non
verificata in molte immagini di cromosomi in particolare in banda Q.
Figura 3.10
Trasformazione del shape profile di cromosomi con bandeggio G
attraverso la riflessione alle due estremità:Cromosoma metacentrico. La
posizione del centromero viene indicata dalla linea trasversale all’ asse.
28
Figura 3.11
Trasformazione del shape profile di cromosomi con
bandeggio G attraverso la riflessione alle due estremità:
caso di cromosoma acrocentrico.
Tutte le caratteristiche considerate maggiormente discriminanti ai fini della
classificazione richiedono quindi il computo dell’ asse del cromosoma. Ecco perché
il primo passo è la determinazione di un algoritmo che riesca ad ottenere una buona
curva centrale anche per cromosomi morfologicamente complessi.
3.4 Calcolo dell’ asse cromosomico
Gli algoritmi utilizzati per ottenere il medial axis possono essere suddivisi in due
grandi categorie dipendentemente dal tipo di informazione preservata: algoritmi di
tipo “skeleton” e algoritmi di “thinning”. Negli algoritmi skeleton ogni punto viene
specificato attraverso la sua distanza dal punto più vicino del contorno. Lo skeleton
viene a seguire definito come l’ insieme di punti la cui distanza dal più vicino punto
del contorno è localmente massima. Negli algoritmi di thinning invece i punti del
bordo vengono gradualmente eliminati se la loro rimozione non modifica la
topologia dell’ oggetto. I più utilizzati algoritmi di calcolo dell’ asse cromosomico si
fondano sul computo della Medial Axis Transform (MAT), una trasformazione molto
conveniente ai fini della rappresentazione di oggetti di forma allungata, dove la
larghezza degli oggetti contiene poca (se non nessuna) informazione utile, come ad
esempio nel riconoscimento di caratteri o proprio nell’ identificazione di pattern
cromosomici. La MAT di un oggetto preserva le proprietà topologiche dell’ oggetto e
riduce le esigenze di memoria e tempo di computazione.Dal punto di vista
geometrico il medial axis di un oggetto solido può essere definito come il luogo dei
centri dei dischi massimali inscritti nel dominio dato.
Nello studio di Moradi et al. [10] il computo del medial axis fornisce una curva che
passa attraverso il centro del cromosoma lungo la sua direzione longitudinale e si
divide in due parti nei pressi delle due estremità. Per ottenere il medial axis si
necessita di una versione binaria dell’ immagine, in cui l’ oggetto e lo sfondo sono
separati. La versione binaria può essere ottenuta attraverso un opportuno processo a
soglia. In seguito, nell’ algoritmo considerato nel lavoro di Moradi viene ricavata una
versione primaria dell’ asse basata sulla Euclidean distance transform ed in seguito
un processo di raffinamento consente di ottenere il medial axis. La lunghezza del
cromosoma viene quindi definita come la lunghezza della curva centrale che coincide
con il medial axis per la maggior parte, eccetto ai due estremi del cromosoma. In
questi punti il medial axis è diviso in parti e la curva centrale viene approssimata con
la mediana del triangolo formato da questi due rami e dal bordo del cromosoma.
29
Figura 3.12
Medial axis transform ottenuta secondo il procedimento descritto da Moradi: in(a) un
tipico cromosoma 17 dove è stata identificata la curva centrale; in (b) l’ immagine in
versione binaria dello stesso cromosoma; in (c) la distance transform dell’ immagine
binaria ed in (d) il medial axis del cromosoma dove sono ancora presenti le due
diramazioni.
L’ algoritmo determinato da Moradi in realtà non garantisce un asse cromosomico
connesso e della larghezza di un pixel. Altri metodi sono stati studiati per la
determinazione dell’ asse. Nello studio di Piper e Granum [13] vengono utilizzati due
differenti algoritmi per il calcolo dell’ asse cromosomico. Il primo, definito “poor
man’s skeleton”, è più rapido ma necessita di cromosomi non troppo piegati essendo
fondato sul calcolo del punto medio di ogni linea orizzontale attraverso il cromosoma
orientato verticalmente. Il secondo asse viene invece ricavato a partire dal
convenzionale algoritmo di skeletonization (operazione morfologica di dilatazione
seguita da una di erosione), seguito da un’ estensione delle estremità e da un’
operazione di smoothing (vedi Figura 3.14).
Figura 3.13
Stadi del computo dell’ asse a partire dall skeleton secondo Piper e
Granum; in (a) viene rappresentata l’ operazione di
skeletonization, in (b) la rappresentazione poligonale di (a); in (c)
l’ operazione di estensione delle estremità ed in (d) l’ asse dopo lo
smoothing realizzato attraverso una convoluzione con un filtro
passa-basso.
30
3.4.1 Algoritmo proposto
In questo studio l’ algoritmo utilizzato per il calcolo dell’ asse è stato ottenuto
prendendo le mosse da uno simile utilizzato già in ambito biomedico per effettuare il
tracking dei vasi sanguigni dell’ occhio umano. La computazione dell’ asse
cromosomico è basata sulla sua rappresentazione come immagine binaria. L’
immagine binaria viene ottenuta attraverso l’ applicazione di un processo a soglia all’
immagine in livelli di grigio. Le variazioni dei livelli di grigio tra tipi diversi di
cromosomi e le diverse condizioni di illuminazione impongono la scelta di una soglia
adattativa. MATLAB dispone di istruzioni che consentono, a partire da un’
immagine in toni di grigio, il calcolo di una soglia secondo il metodo di Otsu
(graythresh). Questa è la soglia che è stata utilizzata per ottenere la binarizzazione.
(a)
(b)
Figura 3.14
Operazione di thresholding con soglia di Otsu: in (a) l’ immagine da segmentare ed in (b) l’
effetto della binarizzazione a soglia.
Il software di calcolo dell’ asse implementato, cui in ingresso viene quindi passata la
versione binaria dell’ immagine, si compone di quattro step principali:
1) Determinazione del punto di partenza da cui in seguito viene generato
l’ asse completo. Il pixel da cui ha inizio l’ algoritmo può essere
scelto in modo abbastanza arbitrario, è sufficiente che si trovi in una
posizione sufficientemente “centrale” dell’ immagine cromosomica e
non eccessivamente in prossimità del bordo. Nell’ algoritmo
implementato viene scelto come iniziale il primo punto di una
versione dell’ immagine generata attraverso una operazione
morfologica di thinning, seguita da una di pulizia (pruning).
2) Il punto ottenuto viene usato come centro per la generazione di un
fascio di rette che vengono intersecate con l’ immagine binaria d’
ingresso ottenendone dei segmenti. Tra tutti i segmenti trovati
vengono messe in memoria le coordinate cartesiane degli estremi del
segmento più corto. Il punto medio del segmento minimo ottenuto
viene considerato il primo punto del medial axis del cromosoma.
Vengono determinati due punti successivi dell’ asse cromosomico
31
come punti medi di due segmenti paralleli al primo ma traslati di un
passo “sopra” e “sotto”.
3) I due nuovi punti trovati identificano col primo due vettori. Per
ottenere i punti ulteriori, questi vettori vengono prolungati di un passo
ottenendo due punti prova e i punti medi dei segmenti passanti per il
punto prova e perpendicolari ai vettori precedenti costituiscono due
nuovi punti dell’ asse. I vettori vengono aggiornati con gli ultimi punti
trovati. Questo passo viene ripetuto finché un punto non esce dal
bordo del cromosoma.
4) Vengono ricalcolati gli estremi dell’ asse trovato in precedenza e
considerati come prolungamento dei due precedenti.
Figura 3.15
Immagine cromosomica binaria con i punti della primaria
versione dell’ asse calcolato indicati con x.
5) Si esegue un’ operazione di smoothing dell’ asse con un’
interpolazione spline dei punti.
Figura 3.16
Immagine cromosomica con la versione finale dell’ asse.
32
3.4.2
Osservazioni
Osservazione 1. Al di là di una generica conformazione longitudinale, la struttura
naturale dei cromosomi è costituita da molte possibili configurazioni e forme, ecco
perché si rende necessario l’ ausilio di un efficace sistema di controllo, per evitare di
incorrere in anomale deviazioni dell’ asse dal suo regolare percorso. Nel caso in
esame il controllo considera distanza di due successivi punti dell’ asse ed angolo del
vettore che essi formano e, nel caso superino una soglia pre-impostata sulla base di
numerose osservazioni su immagini cromosomiche, termina la chiamata all’
algoritmo di calcolo dell’ asse precedente, l’ ultimo punto viene eliminato e si
riprende dal punto precedente con il calcolo del fascio di rette. Questo computo ha lo
svantaggio di contenere molti cicli annidati e quindi avere un peso notevole in
termini di velocità computazionale, per questo motivo si è cercato di accelerare il
processo attraverso una riduzione del numero di step adibito ad ogni ciclo, e l’
utilizzo dell’ algoritmo che procede per vettori successivi.
Osservazione 2. Nelle vicinanze di testa e coda del cromosoma si è reso necessario il
ricalcolo dei punti finali in quanto spesso il cromosoma ha in questi punti critici un
forma complessa (cromatidi in separazione, frammenti mancanti etc.).
Osservazione 3. L’ operazione terminale di approssimazione con una spline consente
anche di utilizzare un passo qualsiasi per i punti dell’ asse per ciascun cromosoma,
possibilità utile nel caso si desideri variare la dimensione del vettore con cui
descrivere un cromosoma.
Osservazione 4. Una volta ottenuto l’ asse del cromosoma è stato immediato
giungere alla lunghezza cromosomica come dimensione in pixel dell’ asse.
Osservazione 5. L’ asse così costruito, pur essendo specifico per forme
cromosomiche è risultato di ausilio anche nella realizzazione di un software di
segmentazione dove vengono considerati frammenti cromosomici di forme qualsiasi.
Figura 3.17
Immagine binaria di cromosoma con due touchings. L’ asse
del cromosoma principale non ha subito anomale
deviazioni.
33
3.5 Algoritmi che sfruttano il calcolo dell’ asse cromosomico
Una volta ottenuto l’ asse l’ estrazione degli ulteriori parametri di caratterizzazione
di un cromosoma si fonda su di esso. Gli algoritmi successivi cercano di estrarre le
altre due features di maggiore importanza, oltre la lunghezza cromosomica: banding
pattern e centromeric index.
3.5.1
Estrazione del banding pattern
Il banding pattern è stato ottenuto anche in questa tesi come la media delle intensità
dei pixel lungo linee perpendicolari al medial axis del cromosoma. Il metodo qui
utilizzato prevede i seguenti passi:
1) Ricavare l’ asse sfruttando l’ algoritmo precedente.
2) Per ogni punto dell’ asse determinare la tangente all’ interpolazione spline
della curva, calcolarne il vettore perpendicolare e determinare tutti i punti che
giacciono su questa retta compresi entro il cromosoma.
3) Mediare le intensità dei pixel determinati.
(a)
Density profile signal
180
160
140
DP-signal
120
100
80
60
40
20
0
0
10
20
30
40
Punti del medial axis
50
60
70
(b)
Figura 3.18
Density profile signal: in (a) è rappresentato il complemento di un’
immagine cromosomica in banda Q. In (b) il grafico del density profile, in
ascissa il numero di punti dell’ asse cromosomico, in ordinata la media dell’
intensità dei pixel lungo linee perpendicolari all’ asse.
34
Osservazione. Per ciascuno dei cromosomi presi in esame è stato trovato un vettore
di valori del Density profile signal, poi normalizzato in dimensione ed in valore, in
accordo con quanto svolto in molti dei lavori correlati visionati.
3.5.2
Calcolo della distanza del bordo cromosomico dall’ asse
L’ algoritmo di calcolo della distanza del contorno del cromosoma dalla sua curva
centrale è risultato essere utile non soltanto ai fini della determinazione della
posizione del centromero, ma anche in sede di segmentazione dell’ immagine.
Il calcolo di questa distanza consente infatti di ricostruire in un grafico una
rappresentazione rettificata della forma del cromosoma, utile a verificare la
somiglianza con un modello di cromosoma. Anche in questo algoritmo viene
utilizzata soltanto la versione binaria dell’ immagine cromosomica.
L’ algoritmo è stato costruito in questo modo:
1) Estrazione dell’ asse attraverso l’ algoritmo trattato in precedenza.
2) Dall’ interpolazione dell’ asse determinazione delle rette a essa
perpendicolari, computo delle intersezioni di queste con l’ immagine binaria
del cromosoma.
3) Calcolo della distanza tra gli estremi ottenuti in precedenza e l’ asse
cromosomico, positiva o negativa a seconda che i punti si trovino da una
parte o dall’ altra rispetto all’ asse cromosomico.
Chromosome border
15
Distanze del bordo
dall' asse in pixel
10
5
0
-5
-10
-15
0
10
20
30
40
50
Punti dell' asse cromosomico
60
Figura 3.19
Distanza dell’ asse cromosomicocalcolata per il cromosoma di
Figura 3.18 (a): l’ asse divide il cromosoma in due parti. Per
ciascuna viene calcolata la distanza del bordo dall’ asse. Il
grafico ottenuto mostra la sagoma del cromosoma rettificata.
35
70
Contour function
25
Funzione contorno
20
15
10
5
0
0
10
20
30
40
50
Punti dell' asse cromosomico
60
70
Figura 3.20
Funzione contorno: è ottenuta dalla somma tra le due
distanze dai bordi calcolate nel grafico precedente.
3.5.3 Calcolo del centromeric index
La posizione del centromero nei cromosomi delle immagini utilizzate è di difficile
localizzazione. Le condizioni di illuminazione delle immagini in possesso sono
scadenti e i bordi dei cromosomi sono poco definiti. Si è cercato di determinare il
centromeric index prendendo le mosse da alcuni algoritmi presenti in letteratura.
Come il precedente anche questo algoritmo necessita soltanto dell’ immagine in
versione binaria; i passi:
1) Computo di asse e distanza del bordo dallo stesso.
2) Determinazione della funzione contorno, ossia per ogni punto della curva
centrale, la somma tra le distanze del bordo cromosomico da una parte e dall’
altra dell’ asse.
3) Calcolo del minimo della funzione contorno dopo aver eliminato il 10% dei
punti dell’ asse agli estremi del cromosoma.
La posizione centromerica così ottenuta trascura tuttavia la possibilità che il
centromero sia situato alle estremità del cromosoma, evento che si verifica nel caso
di cromosomi acrocentrici e telocentrici
36
Contour function and centromere position
25
Contour function
Centromero
20
F u n z io n e c o n to rn o
15
10
5
0
0
10
20
30
Punti dell' asse
40
50
60
Figura 3.21
Determinazione della posizione del centromero come minimo della funzione
contorno nei punti “centrali” del cromosoma.
37
38
4 Risultati
4.1 Risultati dell’ image enhancement
Il miglioramento del contrasto dell’ immagine si può riscontrare visivamente
operando un confronto tra immagini prima e dopo l’ applicazione dell’ algoritmo. L’
immagine in fig mostra il risultato dell’ algoritmo su di un’ immagine di cellula
metafasica in banda Q. Inizialmente l’ immagine viene complementata per rendere il
bandeggio visivamente più chiaro (questa operazione non aggiunge informazione).
Viene poi applicato il metodo di enhancement, dove nella wavelet decomposition si è
giunti fino al livello 3 e i coefficienti λ(j) utilizzati sono 5, 2, 2 per la risoluzione in
bassa, media ed alta scala rispettivamente, mentre per μ è stato scelto 0.01.
(a)
(b)
39
Dare una quantificazione dei risultati del miglioramento di un’ immagine è
generalmente difficoltoso. Il contrasto viene spesso definito come la differenza di
luminosità media tra gli oggetti e lo sfondo. L’ effetto del miglioramento dell’
immagine alla fine viene giudicato sulla base dell’ accuratezza nella classificazione
dei cromosomi, per determinare se il miglioramento conseguito ha come effetto una
migliore cariotipizzazione e quindi una diagnosi semplificata. A questo proposito da
Wang et al. [2] viene utilizzato un classificatore bayesiano per effettuare la
classificazione dei cromosomi. Estraendo sempre le stesse caratteristiche utilizzando
la stessa procedura (che include lunghezza normalizzata, densità, centromeric index e
distribuzione di densità pesata), viene effettuato un confronto tra il metodo di
enhancement proposto e altri metodi, da cui risulta che il primo ottiene il più basso
error rate.
Figura 4.1
Curve dell’ error rate di classificazione come funzione del numero delle features
utilizzato. I metodi testati sono: adaptive contrast stretch (ACE), adaptive
contrast enhancement (ACE) e contrast gain transform (CGT). Il metodo
proposto è il multiscale contrast enhancement (MCE)
40
4.2 Risultati del calcolo dell’asse e degli algoritmi correlati
Risultati del DP signal
Risultati funzione contorno
41
Precisione determinazione del centromero
4.3 Determinazione distanza tra classi
Per avere una valutazione circa la capacità degli algoritmi di estrazione delle
caratteristiche implementati di determinare l’ appartenenza di un cromosoma ad una
determinata classe, si è ottenuto un vettore di parametri cromosomici di 65 elementi
per ciascun cromosoma. Il primo parametro è costituito dalla lunghezza del
cromosoma, gli ulteriori 64 sono valori del density profile. Le immagini da cui le
features sono state estratte sono 7 cariogrammi di cellula in metafase cui è stata
effettuata un’ operazione manuale di scontornatura per togliere materiale non
cromosomico presente a causa di una approssimativa segmentazione.
42
Utilizzando il vettore 65-dimensionale, innanzitutto è stato realizzato un plot delle
lunghezze dei cromosomi in relazione al loro tipo. Si vede chiaramente come sia
possibile differenziare abbastanza cromosomi, o restringere la possibile appartenenza
di un cromosoma con una determinata lunghezza ad 1-3 tipi.
Lunghezza normalizzata del cromosoma
Lunghezza cromosomica
Intervallo di confidenza
Lunghezza cromosomica normalizzata
Media
1
0.8
0.6
0.4
0.2
0
2
4
6
8
10
12
14
N° della classe
16
18
20
22
Figura 4.2
Sono stati poi calcolati il vettore medio per ogni tipo di cromosoma delle 64 features,
ottenendo un ‘prototipo’ per ogni classe. I seguito si è ricavata la correlazione di ogni
cromosoma coi prototipi, sperando che la correlazione massima si ottenesse col
prototipi della classe di appartenenza.
Pattern correlation
Dati ordinati per tipo di cromosoma
0.8
50
0.6
100
0.4
0.2
150
0
200
-0.2
-0.4
250
-0.6
5
10
15
Tipo di cromosoma
43
20
Figura 4.3
Il passo successivo è stato il calcolo di un vettore di features ottenuto prendendo il
segno della derivata del vettore di caratteristiche precedente. Il prototipo per ogni
classe è ottenuto calcolando il segno della derivata sui prototipi calcolati al punto
precedente
Correlazione della derivata
0.8
Dati per tipo di cromosoma
50
0.6
100
0.4
150
0.2
0
200
-0.2
250
5
10
15
Tipi di cromosoma
20
Figura 4.4
Si sono moltiplicate le correlazioni ai due passi precedenti ed in effetti sembra che i
massimi di questa misura si trovino in corrispondenza delle classi corrette.
Correlazione pattern X correlazione derivata
Dati ordinati per tipo di cromosoma
0.7
50
0.6
0.5
100
0.4
0.3
150
0.2
200
0.1
0
250
-0.1
5
10
15
Tipo di cromosoma
Figura 4.5
44
20
Osservazione 1: il cromosoma 22 ha correlazioni bassissime, ma probabilmente si
può classificare per esclusione.
45
Conclusione
46
Bibliografia
[1]
[2]
[3]
[4]
[5]
[6]
[7]
[8]
[9]
[10]
[11]
[12]
[13]
[14]
[15]
[16]
ISCN: an international system for human cytogenetic nomenclature, in
Cytogenetics and Cell Genetics
Y.-P. Wang, Q. Wu, K. R. Castleman and Z. Xiong, “Chromosome image
enhancement using multiscale differential operators” IEEE Trans. on
Medical Imaging, vol. 22, n.5 May 2003
Q. Wu, Y.-P. Wang, Z. Liu, T. Chen and K. Castleman, “The effect of
image enhancement on image pattern recognition”, Proc. Of the Second
Joint EMBS/BMES Conference, Houston, TX, USA, October 23-26, 2002.
Y.-P Wang, “Image representation using multiscale differential operators”,
IEEE Trans on Image Processing, vol. 8, n. 12, December 1999.
Q. Wu, Z. Liu, T. Chen, Z. Xiong, K. R. Castleman, “Subspace-based
prototyping and classification of chromosome images” IEEE Trans on
Image Processing, vol. 14, n. 9, September 2005.
B. Lerner, H. Guterman and I. Dinstein, “A classification-driven partially
occluded object segmentation (CPOOS) method with application to
chromosome analysis” IEEE Trans. on Signal Processing, vol. 46, n.10,
October 1998.
B. Lerner, H. Guterman, I. Dinstein and Y. Romem, “Medial axis
transform-based features and a neural network for human chromosome
classification”. Pattern Recognition, vol. 28, n.11, pp. 1673-1683 Great
Britain, 1995.
B. Lerner “Toward a completely automatic neural-network-based human
chromosome analysis”, IEEE Trans. on Systems, Man and Cybernetics –
Part B: Cybernetics, vol. 28, n. 4, August 1998.
Canadian Workload Measurement System, Minister of Supply and
Services Canada, Toronto, 88 (1986).
M. Moradi, S. K. Setarehdan, “New features for automatic classification of
human chromosomes: a feasibility study” Pattern Recognition Letters 27
(2006) 19-28.
M. Moradi, S. K. Setarehdan and S. R. Ghaffari, “Automatic landmark
detection on chromosome images for feature extraction purposes” Proc. Of
the 3rd International Simposium on Image and Signal Processing and
Analysis (2003).
M. Moradi, S. K. Setarehdan and S. R. Ghaffari, “Automatic locating the
centromere on human chromosome pictures” Proc. of the 16th IEEE
Symposium on Computer-Based Medical Systems (CBMS’03).
J. Piper and E. Granum, “On fully automatic feature measurement for
banded chromosome classification” .
E. Granum and M. Thomason “Inferred Markov network models for
classification of chromosomal band pattern structures” Cytometry 11 pp.
26-39 1990.
G. C. Charters and J. Graham, “Disentangling chromosome overlaps by
combining trainable shape models with classification evidence” IEEE
Trans. on signal Processing, vol. 50, n.8, August 2002.
G. C. Charters and J. Graham, “Trainable gray-level models for
disentangling overlapping chromosomes” Pattern Recognition 32 13351349 (1999).
47
[17] J. M. Cho, “Chromosome classification using backpropagation neural
networks” IEEE Engineering in Medicine and Biology January/February
2000.
[18] M. R. Ortiz-Posadas, “A mathematical model for classical chromosome
identification using the logical combinatory approach” IEEE EMBC pp.
1342-1345 (2003) .
[19] X. Shunren, X. Weidong and S. Yutang “Two intelligent algorithms
applied to automatic chromosome incision” IEEE ICASSP vol. 3, pp. 697700 (2003).
[20] P. S. Karvelis , D.I. Fotiadis, M. Syrrou and I. Georgiu, “Segmentation of
chromosome images based on a recursive watershed transform” IEEE The
3rd European Medical and Biological Engineering Conference, Prague
Czech Republic, November 20-25, 2005.
[21] L. V. Guimaraes, A. Schuck Jr and A. Elbern, “Chromosome classification
for kariotype composing applying shape representation on wavelet packet
transform” European Medical and Biological Engineering Conference.
[22] G. Agam and I. Dinstein “Geometric separation of partially overlapping
non-rigid objects applied to automatic chromosome classification” IEEE
Transactions on Pattern Analysis and machine intelligence, vol. 19, n. 11,
November 1997.
[23] N. Sweeney, R. L. Becker and B. Sweeney “A comparison for wavelet and
Fourier descriptors for a neural network classifier” IEEE/EMBS Oct 30Nov 2, 1997 Chicago, Illinois, USA.
[24] S. Delshadpour “ Reduced size multi-level neural network for human
chromosome classification” IEEE/EMBC 2003
48
Appendice
Nel caso unidimensionale (1-D) una wavelet differenziale che assomiglia al mexican
hat o Lapalcian of Gaussian (LoG) è definita come la derivata seconda di B-splines
di ordini differenti:
1 d 2 n+ 2
ψ =
β 2−1 ( x) = 2( β n (2 x + 1) − 2β n (2 x) + β n (2 x − 1))
2
4 dx
n
La wavelet transform è definita come:
W2 j f = f ⊗ψ 2nj
j= 1, 2, .... , J
Se introduciamo l’ operazione di smoothing
S 2 j f = f ⊗ β 2nj
j=1, 2, … , J
Si può dimostrare che le trasformazioni sopra sono le derivate seconde delle
operazioni di smoothing.
49
Una rappresentazione multiscala di un’ immagine può essere ottenuta dalla
convoluzione dell’ immagine con una funzione di smoothing bidimensionale (2-D)
definita come
Formula 3
a diverse scale.
Per l’ implementazione discreta, si approssimano le tre componenti delle derivate
direzionali, o decomposizione wavelet come:
formula
Abbreviazioni
DNA
AT
deossiribonucleic acid
adenosine trifosfate
50
Scarica

sviluppo di algoritmi per la classificazione di cromosomi in