UNIVERSITÀ DEGLI STUDI DI BARI
FACOLTÀ DI SCIENZE MATEMATICHE, FISICHE E NATURALI
CORSO DI LAUREA IN INFORMATICA
TESI DI LAUREA
IN
METODI AVANZATI DI PROGRAMMAZIONE
REALIZZAZIONE DI STRUMENTI DI
INFORMATION EXTRACTION PER TASK DI
TEXT-MINING IN BIOINFORMATICA
Relatori:
Prof. Donato Malerba
Correlatore:
Dr. Corrado Loglisci
Laureando:
Pietro La Grotta
Information Extraction
•
Un sistema di Information Extraction (IE) : Dato un testo scritto in un linguaggio
naturale e contenente informazione non strutturata, IE identifica informazione di
interesse e la rappresenta in forma strutturata.
Tale informazione può essere utilizzata in processi di Text Mining (TM) ovvero il Data
Mining applicato a collezioni di testi.
•
IE – Attività:
TM – Algoritmi:
•
•
•
•
•
•
•
•
•
•
•
Named Entity Recognition (NE)
Coreference Resolution (CO)
Template Element Construction (TE)
Template Relation Construction (TR)
Scenario Template Production (ST)
REALIZZAZIONE DI STRUMENTI DI
INFORMATION EXTRACTION PER TASK DI
TEXT-MINING IN BIOINFORMATICA
Classificazione
Clustering
Scoperta di trend
Scoperta di pattern
Summarization
Scoperta di dipendenze
Laureando:
Pietro La Grotta
Named Entity Recognition e
Template Filling
NER: riconoscere entità nominate di
interesse presenti all’interno dei testi. Il
processo di identificazione impiega
features morfologiche, sintattiche e
semantiche delle entità.
gene
malattia
…
starting approximately 35kb upstream (telomeric) to the
GJB2 gene was identified in 7 patients from 4 unrelated
Jewish Ashkenazi families with non-syndromic hearing
loss. These patients were heterozygous for one of the
common mutations
167delT or 35delG
…
TF: riconoscere un insieme di
entità nominate e legate tra loro
concettualmente e rappresentare
questa informazione in strutture
pre-definite
…
The authors describe a novel pathogenic G5540A
transition in the mitochondrial transfer RNA
(tRNA)Trp gene of a sporadic encephalomyopathy
characterized by spinocerebellar ataxia. Clinical
features also included
neurosensorial deafness,
peripheral neuropathy, and dementia”
…
disease
symptoms
mutazione
REALIZZAZIONE DI STRUMENTI DI
INFORMATION EXTRACTION PER TASK DI
TEXT-MINING IN BIOINFORMATICA
Laureando:
Pietro La Grotta
clinics
Ambito della Tesi
1. Named Entity Recognition per un task di
Textual Profile Clustering
2. Named Entity Recognition per un task di
Semantic Search Engine
3. Template Filling con strutture
Predicato-Argomento per un task di
Pattern Discovery
REALIZZAZIONE DI STRUMENTI DI
INFORMATION EXTRACTION PER TASK DI
TEXT-MINING IN BIOINFORMATICA
Laureando:
Pietro La Grotta
Named Entity Recognition
per Textual Profile Clustering
Textual Profile Clustering (TPC): Tecnica di raggruppamento di testi basata su
similarità tra testi rappresentati in forma di textual profile: un profile tiene conto
di keyword presenti nel testo e di loro caratteristiche (posizione, frequenza,…)
Ruolo di NER per TPC:
•…35kb upstream (telomeric) to the GJB2 (CX26) gene was identified…
•…of inheritance of GJB2 and GJB6 genes that encode two different
connexins; connexin 26 and connexin 30, or it may abolish…
GJB2
GJB6
REALIZZAZIONE DI STRUMENTI DI
INFORMATION EXTRACTION PER TASK DI
TEXT-MINING IN BIOINFORMATICA
Laureando:
Pietro La Grotta
Named Entity Recognition
per Textual Profile Clustering
Soluzione Proposta
1. Riconoscimento delle Entità Biomediche di interesse presenti nei documenti
…35kb upstream to the GJB2 gene
2. Normalizzazione di nomi varianti (sinonimie, abbreviazioni, acronimi)
con nomi canonici
…connexin 26 and connexin 30, or it may abolish…
GJB6
3. Interpretazione delle entità secondo conoscenza di dominio
…35kb upstream (telomeric) to the GJB2 (CX26) gene was identified…
REALIZZAZIONE DI STRUMENTI DI
INFORMATION EXTRACTION PER TASK DI
TEXT-MINING IN BIOINFORMATICA
Laureando:
Pietro La Grotta
Named Entity Recognition
per Textual Profile Clustering
2. Normalizzazione di
varianti con canonici
1. Riconoscimento di
Entità Biomediche
di interesse
3. Interpretazione
delle entità
•Impiego di librerie di Text Analytics (GATE)
REALIZZAZIONE DI STRUMENTI DI
INFORMATION EXTRACTION PER TASK DI
TEXT-MINING IN BIOINFORMATICA
Laureando:
Pietro La Grotta
Named Entity Recognition
per Textual Profile Clustering
Risultati Sperimentali
•Dataset: 10 artificiali + 10 reali
•Sperimentazioni condotte per il riconoscimento di
1)entità del problema specifico, 2)entità biomediche generali)
•Valutazione manuale Precision & Recall
REALIZZAZIONE DI STRUMENTI DI
INFORMATION EXTRACTION PER TASK DI
TEXT-MINING IN BIOINFORMATICA
Laureando:
Pietro La Grotta
Named Entity Recognition
per Textual Profile Clustering
Risultati Sperimentali
input
Mutations in the gene GJB2 encoding connexin 26 (Cx26), a gap junction protein, have
been shown to be responsible for a majority
of recessive nonsyndromic hereditary hearing impairment in children.
Over 60 different mutations in Cx26 have been reported. To obviate the need for direct
sequencing of each specimen,
a variety of screening techniques have been used to detect mutations in Cx26.
output
Mutation CD44 the Genes GJB2 encoding GJB2 , a RGS6PL-5283, have been shown to
be responsible WWOX a majority
BRIP1 recessive nonsyndromic hereditary hearing impairment CD44 children.
Over 60 different Mutation CD44 GJB2 have been reported. To obviate the need WWOX
direct sequencing BRIP1 each
specimen, a variety BRIP1 screening techniques have been used to detect Mutation CD44
GJB2.
REALIZZAZIONE DI STRUMENTI DI
INFORMATION EXTRACTION PER TASK DI
TEXT-MINING IN BIOINFORMATICA
Laureando:
Pietro La Grotta
Named Entity Recognition
per Semantic Search Engine
Semantic Search Engine (SSE): Tecnica di Information Retrieval basata su
indicizzazione semantica dei termini rappresentativi del documento (index term):
operazioni di trasformazione del testo sono necessarie per ridurre il numero degli
index term
Ruolo di NER per SSE:
•…35kb upstream (telomeric) to the GJB2 (CX26) gene was identified…
•…of inheritance of GJB2 and GJB6 genes that encode two different
connexins; connexin 26 and connexin 31, or it may abolish…
GJB6
REALIZZAZIONE DI STRUMENTI DI
INFORMATION EXTRACTION PER TASK DI
TEXT-MINING IN BIOINFORMATICA
Laureando:
Pietro La Grotta
Named Entity Recognition
per Semantic Search Engine
Soluzione Proposta
1. Riconoscimento delle Entità Biomediche di interesse presenti nei documenti
…35kb upstream to the GJB2 gene
2. Interpretazione delle entità secondo conoscenza di dominio
•…35kb upstream (telomeric) to the GJB2 (CX26) gene was identified…
3. Labeling di entità riconosciute
Genes
•…of inheritance of GJB2 and GJB6 genes that encode two different
Connexins
connexins; connexin 26 and connexin 31, or it may abolish…
4. Rappresentazione in formalismo standard IOB-2
GJB6 B – Genes
Connexin B – Connexins
31
I


Index Term Singoli
Index Term Multi-Word
REALIZZAZIONE DI STRUMENTI DI
INFORMATION EXTRACTION PER TASK DI
TEXT-MINING IN BIOINFORMATICA
Laureando:
Pietro La Grotta
Named Entity Recognition
per Semantic Search Engine
1. Riconoscimento di
Entità Biomediche
di interesse
1. Riconoscimento di
Entità Biomediche
di interesse
2. Interpretazione
delle entità
3.& 4. Labeling &
Rappresentazione IOB-2
•Impiego di librerie di Text Analytics (GATE)
REALIZZAZIONE DI STRUMENTI DI
INFORMATION EXTRACTION PER TASK DI
TEXT-MINING IN BIOINFORMATICA
Laureando:
Pietro La Grotta
Named Entity Recognition
per Semantic Search Engine
Risultati Sperimentali
•Dataset: 10 artificiali + 10 reali
•Sperimentazioni condotte per il riconoscimento di
1)entità del problema specifico, 2)entità biomediche generali)
•Valutazione manuale Precision & Recall
REALIZZAZIONE DI STRUMENTI DI
INFORMATION EXTRACTION PER TASK DI
TEXT-MINING IN BIOINFORMATICA
Laureando:
Pietro La Grotta
Template Filling basato su Strutture Predicato-Argomento
per Pattern Discovery
Pattern Discovery (PD): Estrazione di regolarità statistiche nella forma di cooccorrenze di items/eventi. L’uso di strutture Predicato-Argomento (PAS) supporta
la scoperta di co-occorrenze di items in termini di predicati verbali che li mettono in
relazione.
Ruolo di Template Filling per PD:
•…A 342-kb deletion truncating the GJB6 gene (encoding connexin-30)…
•
PAS-truncate template
Pubblicazioni
Scientifiche
Estrazione di PAS
REALIZZAZIONE DI STRUMENTI DI
INFORMATION EXTRACTION PER TASK DI
TEXT-MINING IN BIOINFORMATICA
Template Filling
Pattern Discovery
Relazionale
Laureando:
Pietro La Grotta
Template Filling basato su Strutture Predicato-Argomento
per Pattern Discovery
Soluzione Proposta
1. Estrazione di PAS dai testi
…A 342-kb deletion truncating the GJB6 gene (encoding connexin-30)…
["truncate" "342-kb deletion" "GJB6 Gene“]
2. Filling di Templates pre-definiti sulla base di PAS di background
["truncate"
"342-kb " "GJB6 “]
chromosomal
name
predicate
gene
name
3. Rappresentazione in formalismo relazionale (Datalog)
pas(paper_1,structure_1). predicate(structure_1,truncate).
chromosomal_name(structure_1,342-kb). gene_name(structure_1,GJB6).
locus_name(structure_1,generic_locus_name).
REALIZZAZIONE DI STRUMENTI DI
INFORMATION EXTRACTION PER TASK DI
TEXT-MINING IN BIOINFORMATICA
Laureando:
Pietro La Grotta
locus
name
Template Filling basato su Strutture Predicato-Argomento
per Pattern Discovery
3.Rappres. in
formalismo
relazionale
1.Estrazione di PAS
dai testi
2. Filling di PAS
templates
•Impiego di librerie di Text Analytics (MontyLingua, GATE)
REALIZZAZIONE DI STRUMENTI DI
INFORMATION EXTRACTION PER TASK DI
TEXT-MINING IN BIOINFORMATICA
Laureando:
Pietro La Grotta
Template Filling basato su Strutture Predicato-Argomento
per Pattern Discovery
Risultati Sperimentali
•Pubblicazioni con minimo 5 istanze PAS
• 13 PAS templates di background
•Dataset: 6584
•Minsup: 2%
•2382 Pattern relazionali in termini di PAS
•Pattern più informativi (4) con PAS-structure inhibit
abs(A),pas(A,B),verb_rule(B,inhibit), homosapiens_gene_role0(B,prkab1),
chemicals_and_drugs_role2(B,metformin), biological_sciences_role1(B,growth) supporto:2.9%
abs(A),pas(A,B),verb_rule(B,inhibit),organisms_role2(B,brucella_abortus),
homosapiens_gene_role1(B,sema6a), homosapiens_gene_role0(B,taf8)
REALIZZAZIONE DI STRUMENTI DI
INFORMATION EXTRACTION PER TASK DI
TEXT-MINING IN BIOINFORMATICA
supporto: 2.9%
Laureando:
Pietro La Grotta
Conclusioni & Sviluppi Futuri
•Sviluppo di tre strumenti di IE a supporto della investigazione di
biomedicina basata su analisi di dati testuali.
•Valutazione dell’ accuratezza mostra buona performance degli
strumenti di NER.
•Applicazione dello strumento di TF per PD ad insiemi di testi più
voluminosi e ad altri domini (esempio, web news).
REALIZZAZIONE DI STRUMENTI DI
INFORMATION EXTRACTION PER TASK DI
TEXT-MINING IN BIOINFORMATICA
Laureando:
Pietro La Grotta
GRAZIE
PER LA VOSTRA
CORTESE ATTENZIONE
Scarica

Presentazione in Power Point (pps - 644 KB)