Corpus Kontatto: descrizione ed esempi
Simone Ciccolone
Presentazione
Il corpus “Kontatto” è stato realizzato all’interno del progetto di ricerca “Italiano-tedesco: aree storiche di contatto in Sudtirolo e Trentino”, coordinato da Silvia Dal Negro.
Il corpus è tuttora in fase di ampliamento e consolidamento, tramite l’aggiunta di nuove
registrazioni, la trascrizione ed etichettatura di nuovi files, la verifica periodica dei dati.
Il corpus coinvolge parlanti bilingui sudtirolesi e si è finora concentrato in particolare
nell’area della Bassa Atesina, per tre motivi principali: è l’area di più antico insediamento di italofoni in Alto Adige, nella quale quindi il contatto tra italiano e tedesco è più
intenso e prolungato nel tempo; oltre all’italiano e al dialetto sudtirolese locale è presente una varietà italo-romanza di origine trentina; alcune osservazioni dell’area ipotizzano
la presenza di una varietà mista, identificata dai parlanti nativi come “Krautwalsch”.
Raccolta dati
Il corpus è costituito da un insieme di registrazioni audio associate a file di trascrizione
realizzati tramite il software ELAN (il software di trascrizione realizzato dal Max
Planck Institute di Nijmegen1).
Le registrazioni sono state raccolte quasi esclusivamente da membri della comunità
locale, anch’essi parlanti bilingui, ricorrendo spesso a contatti della loro rete personale
(familiari, amici, colleghi di lavoro etc.). Gli scenari variano da contesti molto informali
(conversazioni tra amici al bar, pranzi in famiglia) a contesti più controllati (intervista
libera, compilazione di questionari), fino ad arrivare al map task. La maggior parte delle
registrazioni, comunque, permette di osservare forme di parlato spontaneo o semi-spontaneo.
1
Max Planck Institute for Psycholinguistics, The Language Archive, Nijmegen, The Netherlands. Cfr.
Wittenburg, P., Brugman, H., Russel, A., Klassmann, A., Sloetjes, H. (2006): “ELAN: a Professional
Framework for Multimodality Research” – In: Proceedings of LREC 2006, Fifth International Conference on
Language Resources and Evaluation. (http://tla.mpi.nl/tools/tla-tools/elan/)
1
Il ricorso a parlanti nativi locali per la raccolta dei dati, e a loro amici, parenti o conoscenti come informanti da registrare, ci ha permesso di ridurre al minimo gli effetti di
condizionamento derivanti dalla presenza di un osservatore esterno e di ottenere registrazioni più naturali e interazioni più spontanee.
La varietà di scenari comporta anche un certo grado di variazione nel numero di parlanti coinvolti nell’interazione: molte registrazioni coinvolgono solo 2 informanti (come
nel caso dei map task), altre arrivano a coinvolgere fino a 9 informanti diversi (incluso il
rilevatore).
N° informanti
N° registrazioni
2
3
4
5
6
7
8
9
15
13
9
4
2
2
2
2
Trascrizione e annotazione
Le registrazioni audio vengono archiviate su un server protetto e trascritte. Le trascrizioni sono spesso eseguite dal rilevatore stesso, che ha modo non solo di riconoscere più
facilmente le forme delle varietà locali ma anche di discernere con sicurezza le voci dei
vari parlanti coinvolti e di ricostruire l’evento comunicativo al quale ha partecipato, disambiguando eventuali passaggi di difficile comprensione.
Ogni file audio incluso nel corpus è quindi associato a un file ELAN contenente la
trascrizione puntuale del parlato.
In una fase successiva, tutte le righe di trascrizione vengono separate parola per parola (tramite un processo automatico di “tokenizzazione”), escludendo le pause e le parole non comprensibili e unendo locuzioni fisse e polirematiche (ad es., “va beh” viene
considerato come un’unica “parola”, o meglio un unico token).
Infine, tutti i singoli tokens individuati vengono classificati in base a due livelli di informazione: parte del discorso e lingua. La classificazione per parti del discorso utilizza
una tassonomia piuttosto tradizionale e a maglie larghe, innanzitutto per permetterne
l’applicazione a lingue con strutture sensibilmente diverse come italiano e tedesco. Tale
scelta si è mostrata particolarmente efficace per lo studio dei fenomeni di code mixing
perché ne ha permesso l’osservazione e la classificazione in relazione a macro-categorie
strettamente funzionali al tipo di analisi (individuando ad es. la distribuzione dei codici
sulla base della presenza di parole grammaticali o di content words).
La classificazione per “lingua” include in realtà non solo categorie legate al codice dei
singoli tokens (italiano, dialetto sudtirolese, trentino etc.), ma anche alcune categorie residuali che permettono di escludere dall’attribuzione ad una specifica lingua: i nomi
propri; le interiezioni (quando non chiaramente appartenenti ad una lingua).
2
Struttura complessiva del corpus
Il corpus è al momento costituito da 49 registrazioni audio, per un totale di circa 15 ore
e 20 minuti. Di queste 49 registrazioni, 41 sono già state trascritte in ELAN e 31 hanno,
oltre alla trascrizione, anche l’etichettatura completa per parti del discorso e lingua.
La struttura complessiva del corpus include quindi 49 registrazioni audio e 41 file di
trascrizione ELAN, a cui si aggiunge un database contenente tutti i dati relativi alle registrazioni (situazione comunicativa, rilevatore, statistiche sull’uso dei codici) e ai partecipanti (dati anagrafici, profilo sociolinguistico, e per molti di essi le risposte ad un
questionario sociolinguistico su repertorio, autovalutazione degli usi linguistici e atteggiamenti). Il corpus è consultabile tramite il software ELAN, con il quale è possibile
effettuare delle ricerche strutturate all’interno delle trascrizioni. Il database permette
poi di fare ricerche all’interno dei dati relativi agli informanti e di associare ad essi le
trascrizioni estratte dai file di ELAN.
La maggior parte delle registrazioni sono di parlato spontaneo; a queste si affianca un
sottogruppo di registrazioni elicitate tramite il metodo del map task. Vi sono poi alcune
altre registrazioni condotte in forma di intervista.
Tipo
Registrazioni
Durata
Parlato spontaneo
29
9 h 47’
Intervista
4
51’
Map task
16
4 h 42’
Totale
49
15 h 20’
3
Descrizione del corpus
Le lingue coinvolte sono italiano, varietà locali di tipo bavarese, varietà italo-romanze
locali (“trentino”) e ladino. La tabella seguente riporta il conteggio di tokens nei 31 file
ELAN etichettati per parte del discorso e lingua:
“Lingua”
N° di parole
%
72762
89,3%
Italiano
3206
3,9%
“Trentino”
1204
1,5%
Ladino
134
0,2%
Nomi propri
919
1,1%
2267
2,8%
982
1,2%
Tedesco sudtirolese
Interiezioni/pause piene
Altro (forestierismi, incerti...)
Totale
81474 parole
Come si può facilmente notare, il codice quantitativamente più presente è il dialetto
sudtirolese, seguito dall’italiano. Nomi propri e interiezioni non assegnabili ad una lingua sono conteggiati a parte. La percentuale estremamente elevata del dialetto sudtirolese fa pensare che questo sia il codice di interazione non marcato, e che il ricorso agli
altri codici sia piuttosto limitato. Occorre però sottolineare che italiano e trentino non
ricorrono solo tramite elementi linguistici isolati, inseriti in enunciati in dialetto sudtirolese, bensì sono presenti interi enunciati e scambi tra interlocutori in questi codici.
Il corpus mostra un notevole numero di esempi sia di code switching interfrasale che
intrafrasale. Un esempio del primo tipo è il seguente:
S4 S3 S4 du muasch a storia tragica dårzeeln
sì ma se non ce l’ho la storia # [ storia tragica?
[ te la inventi
(013-16:54-16:58)
Come si può notare, nel primo turno di S4 viene inserito un elemento combinato (storia tragica) in un enunciato in tedesco sudtirolese. Nella risposta di S3 avviene la commutazione di codice, col passaggio all’italiano, confermata dal secondo turno di S4.
La tabella seguente riporta invece il conteggio dei casi di enunciazione mistilingue
(826 su un totale di 15287 righe di trascrizione), divisi per estensione e direzionalità
dello switch all’interno dell’enunciato. I dati fanno sempre riferimento alle 31 registrazioni già trascritte, e sono quindi da considerare come provvisori.
Per direzionalità viene qui intesa la direzione del cambio di codice all’interno dell’enunciato dal codice maggiormente attivato in un dato punto dell’interazione al codice
meno attivato presente nello stesso turno conversazionale.
4
Nel caso di una alternation, in cui ad una parte dell’enunciato nel codice A segue una
parte di enunciato nel codice B, la direzionalità sarà A>B; nel caso di una insertion di un
elemento del codice A all’interno di un enunciato nel codice B, la direzionalità sarà
B>A. Se sono presenti più punti di switch con direzionalità diversa, l’enunciato mistilingue è categorizzato come bidirezionale. Quando invece non è possibile una chiara distinzione del codice maggiormente attivato, per via della continua fluttuazione nella scelta
dei codici o per la posizione dello switch, l’enunciato non può essere categorizzato neanche in base all’estensione dello switch.
Le colonne riportano il conteggio di enunciati che presentano single-item switches, multi-item switches o entrambi. Sono conteggiati tra i single-item switches anche i casi di polirematiche o combinazioni lessicali altamente convenzionalizzate.
Direzionalità
S
M
S+M
Total
Sudtirolese > italiano o trentino
562
92
11
665
Italiano/Trentino > sudtirolese
41
44
1
86
Bidirezionale
1
18
21
40
Direzionalità non chiara
-
-
-
35
Total
604
154
33
826
Come mostrano questi dati, il numero di single-item switches è di gran lunga superiore
a quello dei multi-item switches (il rapporto è di 4 a 1 in favore dei single-item switches).
Inoltre, più dell’80% degli enunciati individuati nel corpus come chiaramente mistilingui riguardano il passaggio dal tedesco sudtirolese all’italiano o al trentino (tramite
alternation o, più spesso, insertion di elementi in questi due codici all’interno di un enunciato in tedesco sudtirolese).
Ecco alcuni esempi di single-item switches:
1. dår
acquisto
des iaarhundårts wor des °wail i glab°
D
> I
D
2. wänn lai ba åan turnir uanänainzig
mille
gekreg håt
D
> I D
3. häl glabi
D
magaari > I
war net bäas
D
4. iå obår nimm
tipo
D
>I
Di seguito, invece, alcuni esempi di multi-item switches:
5
5. draizän # beh mit
schpese di trasporto
sächzän
thirteen - well, with
D
shipping fees
> I
sixteen
D
6. però appena che è a scuola
wenn si untårrichtät
but as soon as she is at school
when she teaches
I
>D
7. tomatn wåas i net
non mi ricordo più se mi piaceva
D
>I
Come si può notare, in questo secondo gruppo sono inclusi sia casi di insertions lunghe, che coinvolgono più di un elemento (es. 5) sia casi di alternation (es. 6 e 7).
[Simone Ciccolone - 10.07.2013]
6
Scarica

Descrizione del corpus