Sabrina Aulitto
Università Cattolica del Sacro Cuore di Milano
1.
Note introduttive
2.
Definire un corpus
3.
Il contenuto del corpus
4.
Corpus-Didattica: un binomio possibile?
5.
Strumenti informatici
6.
Proposta di studio applicato
7.
Conclusioni
Sabrina Aulitto
30/09/2010
2

-
-
La linguistica computazionale studia tecniche di
rappresentazione e modalità di elaborazione, di
espressione linguistiche al fine di riprodurre su
macchina alcune capacità linguistiche tipiche
degli essere umani:
Riconoscimento della correttezza di frasi;
Generazioni di frasi;
Comprensione del significato di frasi.
M. Benedetti, “Introduzione alla linguistica computazionale”, in
Formare i Formatori. Una proposta di aggiornamento per gli
insegnanti di lingua, a cura di M. Negri, A. Villamira e J. Villar, Roma,
FrancoAngeli, 1999, p102.
Sabrina Aulitto
30/09/2010
3
 «Una
delle discipline che affonda le sue
radici nelle origini della linguistica
computazionale stessa è la linguistica dei
corpora, la quale si occupa del trattamento
del linguaggio naturale ai fini della
produzione di lessici di testi specifici, di
concordanze e di studi statistici».
G. WILLIAMS, Introduction , « TEXTE ET CORPUS», 3, août,
2008, Actes des Journées de la linguistique de Corpus
2007, p. 23.
Sabrina Aulitto
30/09/2010
4

Grandi corpora di testi sono da tempo per i
linguisti uno strumento d’uso quotidiano
poiché hanno contribuito e contribuiscono
all’arricchimento di database finalizzati a scopi
di ricerca e didattica.

I principali tipi di corpora adoperati per finalità
di ricerca descrittiva e pedagogica sono
innanzitutto corpora bilingui e multilingui che
a loro volta si distinguono in corpora paralleli e
corpora comparabili
Sabrina Aulitto
30/09/2010
5
2. DEFINIRE UN CORPUS
 “Un
corpus parallelo comprende testi sia
nella loro lingua originaria, sia in traduzioni
in un’altra lingua. […] Un corpus comparabile
non contiene, invece, testi in traduzione, ma
testi in originale in lingue diverse. […]
 I corpora comparabili permettono di
confrontare due o più lingue rispetto allo
stesso genere testuale o dominio tematico,
dal momento che i testi sono tutti originali, i
dati raccolti possiedono un maggior grado di
naturalezza, evitando le artificiosità che
talvolta conseguono dall’opera di
traduzione”.
Cfr, A. Lenci, Testo e computer – Elementi di linguistica
computazionale, Carocci Roma, 2005, pp.31-32.
Sabrina Aulitto
30/09/2010
6
In un corpus il numero di termini ne rappresenta
la sua autenticità, conferendo a sua volta alle
parole funzioni ben definite, in quanto possono
essere analizzate secondo la classificazione
seguente:

La parola grafica ( sequenza di caratteri
compresi tra due bianchi o segni di
interpunzione);

Le occorrenze o word tokens (comprendono le
forme flesse, quindi anche le occorrenze delle
parole testuali);

Le parole o word types (si intendono le parole
diverse tra loro).
Sabrina Aulitto
30/09/2010
7
 In
relazione a tale suddivisione un aspetto
interessante da calcolare è lo studio della
frequenza attraverso il rapporto tra il
numero di types e il numero di tokens, che
fornisce una misura della varietà lessicale di
un testo.
 La
formula per calcolare il rapporto
types/tokens ratio, è ottenuta
automaticamente dai software che eseguono
analisi statistiche sui testi.
Sabrina Aulitto
30/09/2010
8
Cobuild - Collins
Collins Birmingham University International
Language Database è un fonademntale
progetto di analisi lessicale computerizzato
basato su coropora di lingua inglese, avviato
nel 1980 dal prof. John Sinclair e i cui frutti –
dizionari, corsi di lingua, corpora elettonci di
riferimento per gli apprendenti- sono stati a
tutt’oggi numerosi e apprezzati.
Per il suo utilizzo è necessario l’acquisto di
licenze relative alle diverse sezioni di cui è
composto.
Sabrina Aulitto
30/09/2010
9
British National Corpus – Oxford
E’ uno dei corpora più rappresentativi, in
quanto conta 100 milioni di parole.
La raccolta cominciò nel 1991 e attualmente
presenta sia testi scritti (90%) che testi audio
(10%).
Il suo accesso non è libero, ma prevede un
costo variabile in base alla sezione da
consultare.
Sabrina Aulitto
30/09/2010
10
FRANTEXTE
 E’ un corpus letterario realizzato dal centro
di ricerca ATILF (Analyse et traitement
informatique de la langue française)
dell’Université de Nancy.
 La consultazione di questa base testuale è
possibile attraverso un abbonamento.
 Le possibilità di interrogazione del corpus
vertono sulla ricerca di parole o intere
espressioni all’interno delle opere letterarie
raccolte.
Sabrina Aulitto
30/09/2010
11
 Corpus
multilingue comparato, ricavato dalla
raccolta di articoli tratti da dieci testate
giornalistiche internazionali, le quali hanno
prestato particolare interesse allo sviluppo
delle problematiche affrontate dalla
compagnia aerea italiana “Alitalia” relative
all’anno 2008.
 Gli articoli sono stati acquisiti dal web e
codificati.
 Periodo, settembre - ottobre 2008
 Numero complessivo degli articoli: 364
 Numero di tokens: 161.863.
 Numero di types: 17. 119.
Sabrina Aulitto
30/09/2010
12
I quotidiani consultati per la realizzazione del
corpus si riferiscono a tre codici linguistici
diversi:
 per
la lingua italiana sono stati scelti i
quotidiani come “La Repubblica”, “Il sole 24
ore” e “Milano-Finanza”;
 Per
la lingua francese “Les échos”, “Le
parisien” e “Le figaro”;
 Per
la lingua inglese “Times-online”,
“Guardian”, “Financial-Time” e
“International Herald Tribune”.
Sabrina Aulitto
30/09/2010
13
Un
corpus multilingue con queste
caratteristiche implica altresì
l’analisi degli impieghi diversi che
esso può avere ai fini di ricerche di
linguistica applicata o come
supporto didattico per corsi di lingua
orientati verso lo studio del
linguaggio di specialità, economicofinaziario, in dimensioni linguistiche
e prospettive culturali diverse.
Sabrina Aulitto
30/09/2010
14
L’idea del possibile connubio corpusdidattica è legata ad un approccio
esplorativo, in cui gli studenti cercano di
analizzare i fenomeni e di verificarli nella
prassi linguistica.
La disponibilità di ampie basi di dati
linguistici e di programmi di concordanze
per analizzarli, consente oggi di
affrontare tale complessità con qualche
strumento in più.
Sabrina Aulitto
30/09/2010
15
DEFINIRE GLI OBIETTIVI
 L’obiettivo
primario della realizzazione
del nostro corpus si pone dunque in una
prospettiva di tipo didattico, e parte da
un’ipotesi di somministrazione di una
raccolta di testi inerenti ad un unico
campo di indagine, ad un campione di
studenti che abbia buone competenze
relative alla tre dimensioni linguistiche
scelte.
Sabrina Aulitto
30/09/2010
16
 Partendo
dall’analisi del nostro obiettivo
primario, orientato verso l’espletamento di
questo corpus ai fini didattici, è importante
sottolineare, come precisa Elena Tognini
Bonelli, che un corpus presenta una serie di
parametri che lo distingue dal singolo testo,
come la sua lettura frammentaria e verticale
e non per intero e orizzontale come nel caso
del testo singolo, in più il corpus offre
informazioni circa la langue mentre il testo
è un esempio di parole.
Sabrina Aulitto
30/09/2010
17
Quindi, come può un corpus, con queste tratti
distintivi risultare un utile e proficuo supporto
didattico?
FINALITA’:
1.
2.
3.
4.
5.
6.
7.
Esercizi di lettura e comprensione del testo o dei
testi somministrati;
Acquisizione di una competenza interrogativa;
Identificazione de profilo lessicale ( collocation);
Identificazione delle regolarità lessicogrammaticali (colligation);
Considerazioni riguardanti il campo semantico
comune (preferenza semantica);
Considerazioni riguardanti le realizzazioni
pragmatiche (prosodia semantica) dove la prosodia
semantica rappresenta l’elemento più importante
nello studio dei rapporti tra contesto e funzione.
Acquisizione di un linguaggio di tipo specialistico in
relazione ad un settore specifico.
Sabrina Aulitto
30/09/2010
18
 Nella
fase applicativa dello studio di un
corpus è necessario l’utilizzo di programmi
di concordanze che permettono di
analizzare un corpus in diverse prospettive:
 1.
La frequenza;
 2. Ricerca delle concordanze;
 3. Ricerca delle collocazioni;
 4. Ricerca dei clusters.
Sabrina Aulitto
30/09/2010
19
I
programmi di concordanze sono disponibili
in rete sia attraverso free download o
attraverso l’acquisto di una licenza.
 Alla
prima categoria appartengono i
programmi come: Antconc, Monoconc,
Paraconc, Kwic.
 Alla
seconda: Wordsmith Tools
Sabrina Aulitto
30/09/2010
20
ANTCONC 3.2 w
Generare file in TXT;
- Inserire file nel programma;
- Indicare il termine per la ricerca;
- Scegliere il tipo di ricerca:
 Concordance, Concordance plot, File view,
Clusters, Collocates, Word Iist;
- Lanciare la ricerca;
- Analizzare l’output.
-
Sabrina Aulitto
30/09/2010
21
PUNTI DI SVILUPPO
Per raggiungere tali obiettivi la nostra analisi si è
soffermata sullo studio delle frequenze, delle
concordanze, delle collocazioni e dei clusters o
segmenti ripetuti estratti dal corpus.
In relazione a quanto fin’ora precisato, il nostro
percorso verso il raggiungimento delle finalità
proposte è partito dall’analisi di cinque lemmi
rispettivamente:
in lingua italiana accordo, offerta, partner,
piano, trattativa;
 in lingua francese accord, offre, partenaire,
plan, négotiations;
 in lingua inglese agreement, offer, partners,
plan, negotiations.

Sabrina Aulitto
30/09/2010
22
 Tabella
n. 1
1. L’analisi rivela una disomogeneità
dell’impiego dei cinque lemmi nei tre singoli
sub-corpus, in cui spesso compare uno
squilibrio tra le frequenze dei termini nelle
diverse lingue.
2. Un caso interessante da analizzare è quello
del lemma agreement, che nelle testate
giornalistiche inglesi è utilizzato 46 volte, un
numero inferiore rispetto all’equivalente
italiano accordo (164) e all’equivalente
francese accord (190).
Sabrina Aulitto
30/09/2010
23
Si potrebbe ipotizzare l’utilizzo di un suo
sinonimo. Dalla ricerca delle rispettive similarità
semantiche si evince che il sinonimo che
presenta più semi in comune con agreement è
pact, il quale si ripete una sola volta in tutto il
corpus inglese, due volte in quello italiano,
patto e quattro volte in quello francese, pacte.
 E’ chiaro che l’impiego di sinonimi non fornisce
una spiegazione sufficiente a tale fenomeno, in
realtà la disparità potrebbe anche essere dovuta
al modo in cui è espressa la notizia e al paese in
cui si vive l’informazione.

Sabrina Aulitto
30/09/2010
24
UNIONS E ACCORD

Unions con 261 occorrenze;
Possibile motivazione: la tematica della
mobilitazione dei sindacati è stata
maggiormente affrontata dalle testate
giornalistiche inglesi; contrariamente le testate
giornalistiche francesi presentano il lemma
syndicat solo 32 volte
 Una notevole frequenza del termine accord
(196), nella stampa francese, anche del suo
sinonimo alliance (92 volte), che potrebbe
essere motivata dal coinvolgimento della Francia
nelle trattativa tra Alitalia e Air France.

Sabrina Aulitto
30/09/2010
25
Individuazione dell’habitat linguistico in cui
ricorrono i lemmi selezionati. (Tabella. 2)
 Ai fini didattici la visualizzazione delle
concordanze e delle collocazioni, oltre a
comunicare un’idea di testo e di testi
frammentaria, (presentando l’elenco di tutte le
parole presenti nel corpus, quante volte e come
si collocano all’interno della loro stringa di
appartenenza), permette allo studente di
acquisire delle competenze, attraverso una
metodologia innovativa di analisi testuale,
prevalentemente concentrata sullo studio
dell’impiego del lessico in un dato contesto.

Sabrina Aulitto
30/09/2010
26
Tali applicazioni, consentono di visualizzare la
fitta rete semantica relativa ad un termine dato,
evidenziandone la sua contestualizzazione, i suoi
sinonimi e i sinonimi dei verbi o aggettivi ad esso
associabili, al fine di raggiungere delle
competenze linguistiche approfondite in un
settore specifico comparativamente in tre
lingue.
 Analisi dei sintagmi verbali, estrapolati dalla
ricerca delle concordanze, appartenenti ai
cinque lemmi selezionati a partire dal corpus
italiano.
 Individuare se nel corpus di lingua francese e nel
corpus di lingua inglese esistono sintagmi
corrispondenti o ulteriori alternative. (Tabella.
2, 3,4,5,6)

Sabrina Aulitto
30/09/2010
27
 Dall’analisi
dei dati ricavati dalle cinque
tabelle è percepibile una limitata
corrispondenza di lemmi nelle tre lingue, in
quanto non si tratta di corpora paralleli,
bensì di corpora comparabili. Potremmo
considerare un corpus comparabile come un
serie di testi aperti e non particolarmente
pigri, dai quali è possibile trarre spunto per
numerose esercitazioni in aula, come
colmare le corrispondenze mancanti nelle
tabelle, completando il panorama relativo ai
sintagmi verbali dei lemmi scelti.
Sabrina Aulitto
30/09/2010
28
 Potrebbe
essere interessante effettuare la
medesima operazione di completamento
analizzando i sintagmi nominali, oppure le
preposizioni che seguono tale lemma, in
modo da poter identificare il profilo
semantico e sintattico di una serie di unità
linguistiche selezionate.
 Un’altra
possibile applicazioni:
- realizzazione di banche dati, relative ad un
settore linguistico di specialità come quello
economico-finanziario in tre codici linguistici
diversi.
Sabrina Aulitto
30/09/2010
29
 Risulta,
altresì, interessante e utile ai fini di
un apprendimento mirato, un’analisi
comparata dei clusters e delle collocazioni,
che prevede l’estrapolazione di singoli lemmi
( per lo studio delle collocazioni) e di
segmenti o gruppi di parole ( per l’analisi dei
clusters) che si ripetono in un corpus,
visualizzati attraverso un programma di
concordanze.
Sabrina Aulitto
30/09/2010
30
Collocazioni e Clusters

“Una ricerca per clusters analizza in un corpus
gli spezzoni di testo che ricorrono più volte, a
seconda della loro lunghezza in parole. La
differenza con le collocazioni è evidente: i
clusters prevedono che i segmenti ripetuti siano
adiacenti e che la loro sequenza non sia
interrotta da nessun altro elemento, e
costituiscono per questo un tipo di relazione più
stretta; quello di collocazione, è un concetto
più ampio, che comprende sia i segmenti
adiacenti che cooccorrenze di una parola in
prossimità di altre, in base alla definizione della
lunghezza del contesto”.
(A. Lenci Testo e computer – Elementi di linguistica computazionale)
Sabrina Aulitto
30/09/2010
31
 Nel
caso del nostro corpus abbiamo estratto
dal software i clusters e le collocazioni
corrispondenti al lemma stampa.
 Tra i clusters abbiamo, conferenza stampa,
comunicato stampa, agenzie di stampa, sala
stampa, fra le collocazioni abbiamo le
preposizioni o i verbi che accompagnano
l’unità linguistica stampa.
 Una proposta didattica può essere quella di
individuare i clusters equivalenti nei diversi
codici linguistici. (Tabella. 7)
Sabrina Aulitto
30/09/2010
32
Nel nostro caso la ricerca automatica, con
l’aiuto del software AntConc, rivela l’assenza di
clusters equivalenti per i segmenti individuati in
lingua italiana, nel sub-corpus francese mentre
un solo risultato nel sub-corpus inglese con press
conference.
 Si potrebbe quindi proporre anche in questo caso
un tipo di esercitazione che richieda la ricerca
delle traduzioni equivalenti dei clusters del
lemma stampa nelle tre lingue.
 Anche quest’esercitazione di scorporazione e
frammentazione di un corpus, fornisce
un’analisi della lingua che permette di acquisire
una maggiore padronanza del lessico
contestualizzato, oltre che di visualizzare il
modo in cui co-occorrono all’interno del corpus.

Sabrina Aulitto
30/09/2010
33
 In
generale, le proposte di esplorazione del
linguaggio in una dimensione plurilingue
richiamano ad un’idea di interattività e di
costruzione di regole e significati a partire da
esempi non predefiniti, ma ricavati dallo
studente attraverso il supporto dei mezzi
informatici, un approccio che favorisce lo
sviluppo di abilità autonome di
apprendimento.
Sabrina Aulitto
30/09/2010
34

Quindi è noto come in questo contesto l’analisi
dei dati linguistici tragga vantaggio dall’apporto
delle nuove tecnologie, le quali dispongono di
molteplici strumenti di indagine per lo sviluppo
di diverse competenze e abilità, dalle nozioni di
grammatica generica all’approfondimento
dell’appropriatezza contestuale, quale la lingua
di specialità e infine l’acquisizione di una tale
proprietà di linguaggio, dovuta alla mole infinita
di dati linguistici a disposizione, che tende a
colmare quelle comuni lacune che differenziano
un’apprendente da un nativo.
Sabrina Aulitto
30/09/2010
35
Il possibile connubio tra didattica e
l’impiego di corpora come strumento di
apprendimento, permette di raggiungere
“una nuova concezione della lingua e una
nuova concezione della didattica”, come
facendo leva su una risorsa che si avvale dell’
abilità e della proprietà di un singolo
individuo di disporre di vari tipi di
competenze linguistiche in codici diversi.
Sabrina Aulitto
30/09/2010
36
Scarica

document