Corpus Kontatto: descrizione ed esempi Simone Ciccolone Presentazione Il corpus “Kontatto” è stato realizzato all’interno del progetto di ricerca “Italiano-tedesco: aree storiche di contatto in Sudtirolo e Trentino”, coordinato da Silvia Dal Negro. Il corpus è tuttora in fase di ampliamento e consolidamento, tramite l’aggiunta di nuove registrazioni, la trascrizione ed etichettatura di nuovi files, la verifica periodica dei dati. Il corpus coinvolge parlanti bilingui sudtirolesi e si è finora concentrato in particolare nell’area della Bassa Atesina, per tre motivi principali: è l’area di più antico insediamento di italofoni in Alto Adige, nella quale quindi il contatto tra italiano e tedesco è più intenso e prolungato nel tempo; oltre all’italiano e al dialetto sudtirolese locale è presente una varietà italo-romanza di origine trentina; alcune osservazioni dell’area ipotizzano la presenza di una varietà mista, identificata dai parlanti nativi come “Krautwalsch”. Raccolta dati Il corpus è costituito da un insieme di registrazioni audio associate a file di trascrizione realizzati tramite il software ELAN (il software di trascrizione realizzato dal Max Planck Institute di Nijmegen1). Le registrazioni sono state raccolte quasi esclusivamente da membri della comunità locale, anch’essi parlanti bilingui, ricorrendo spesso a contatti della loro rete personale (familiari, amici, colleghi di lavoro etc.). Gli scenari variano da contesti molto informali (conversazioni tra amici al bar, pranzi in famiglia) a contesti più controllati (intervista libera, compilazione di questionari), fino ad arrivare al map task. La maggior parte delle registrazioni, comunque, permette di osservare forme di parlato spontaneo o semi-spontaneo. 1 Max Planck Institute for Psycholinguistics, The Language Archive, Nijmegen, The Netherlands. Cfr. Wittenburg, P., Brugman, H., Russel, A., Klassmann, A., Sloetjes, H. (2006): “ELAN: a Professional Framework for Multimodality Research” – In: Proceedings of LREC 2006, Fifth International Conference on Language Resources and Evaluation. (http://tla.mpi.nl/tools/tla-tools/elan/) 1 Il ricorso a parlanti nativi locali per la raccolta dei dati, e a loro amici, parenti o conoscenti come informanti da registrare, ci ha permesso di ridurre al minimo gli effetti di condizionamento derivanti dalla presenza di un osservatore esterno e di ottenere registrazioni più naturali e interazioni più spontanee. La varietà di scenari comporta anche un certo grado di variazione nel numero di parlanti coinvolti nell’interazione: molte registrazioni coinvolgono solo 2 informanti (come nel caso dei map task), altre arrivano a coinvolgere fino a 9 informanti diversi (incluso il rilevatore). N° informanti N° registrazioni 2 3 4 5 6 7 8 9 15 13 9 4 2 2 2 2 Trascrizione e annotazione Le registrazioni audio vengono archiviate su un server protetto e trascritte. Le trascrizioni sono spesso eseguite dal rilevatore stesso, che ha modo non solo di riconoscere più facilmente le forme delle varietà locali ma anche di discernere con sicurezza le voci dei vari parlanti coinvolti e di ricostruire l’evento comunicativo al quale ha partecipato, disambiguando eventuali passaggi di difficile comprensione. Ogni file audio incluso nel corpus è quindi associato a un file ELAN contenente la trascrizione puntuale del parlato. In una fase successiva, tutte le righe di trascrizione vengono separate parola per parola (tramite un processo automatico di “tokenizzazione”), escludendo le pause e le parole non comprensibili e unendo locuzioni fisse e polirematiche (ad es., “va beh” viene considerato come un’unica “parola”, o meglio un unico token). Infine, tutti i singoli tokens individuati vengono classificati in base a due livelli di informazione: parte del discorso e lingua. La classificazione per parti del discorso utilizza una tassonomia piuttosto tradizionale e a maglie larghe, innanzitutto per permetterne l’applicazione a lingue con strutture sensibilmente diverse come italiano e tedesco. Tale scelta si è mostrata particolarmente efficace per lo studio dei fenomeni di code mixing perché ne ha permesso l’osservazione e la classificazione in relazione a macro-categorie strettamente funzionali al tipo di analisi (individuando ad es. la distribuzione dei codici sulla base della presenza di parole grammaticali o di content words). La classificazione per “lingua” include in realtà non solo categorie legate al codice dei singoli tokens (italiano, dialetto sudtirolese, trentino etc.), ma anche alcune categorie residuali che permettono di escludere dall’attribuzione ad una specifica lingua: i nomi propri; le interiezioni (quando non chiaramente appartenenti ad una lingua). 2 Struttura complessiva del corpus Il corpus è al momento costituito da 49 registrazioni audio, per un totale di circa 15 ore e 20 minuti. Di queste 49 registrazioni, 41 sono già state trascritte in ELAN e 31 hanno, oltre alla trascrizione, anche l’etichettatura completa per parti del discorso e lingua. La struttura complessiva del corpus include quindi 49 registrazioni audio e 41 file di trascrizione ELAN, a cui si aggiunge un database contenente tutti i dati relativi alle registrazioni (situazione comunicativa, rilevatore, statistiche sull’uso dei codici) e ai partecipanti (dati anagrafici, profilo sociolinguistico, e per molti di essi le risposte ad un questionario sociolinguistico su repertorio, autovalutazione degli usi linguistici e atteggiamenti). Il corpus è consultabile tramite il software ELAN, con il quale è possibile effettuare delle ricerche strutturate all’interno delle trascrizioni. Il database permette poi di fare ricerche all’interno dei dati relativi agli informanti e di associare ad essi le trascrizioni estratte dai file di ELAN. La maggior parte delle registrazioni sono di parlato spontaneo; a queste si affianca un sottogruppo di registrazioni elicitate tramite il metodo del map task. Vi sono poi alcune altre registrazioni condotte in forma di intervista. Tipo Registrazioni Durata Parlato spontaneo 29 9 h 47’ Intervista 4 51’ Map task 16 4 h 42’ Totale 49 15 h 20’ 3 Descrizione del corpus Le lingue coinvolte sono italiano, varietà locali di tipo bavarese, varietà italo-romanze locali (“trentino”) e ladino. La tabella seguente riporta il conteggio di tokens nei 31 file ELAN etichettati per parte del discorso e lingua: “Lingua” N° di parole % 72762 89,3% Italiano 3206 3,9% “Trentino” 1204 1,5% Ladino 134 0,2% Nomi propri 919 1,1% 2267 2,8% 982 1,2% Tedesco sudtirolese Interiezioni/pause piene Altro (forestierismi, incerti...) Totale 81474 parole Come si può facilmente notare, il codice quantitativamente più presente è il dialetto sudtirolese, seguito dall’italiano. Nomi propri e interiezioni non assegnabili ad una lingua sono conteggiati a parte. La percentuale estremamente elevata del dialetto sudtirolese fa pensare che questo sia il codice di interazione non marcato, e che il ricorso agli altri codici sia piuttosto limitato. Occorre però sottolineare che italiano e trentino non ricorrono solo tramite elementi linguistici isolati, inseriti in enunciati in dialetto sudtirolese, bensì sono presenti interi enunciati e scambi tra interlocutori in questi codici. Il corpus mostra un notevole numero di esempi sia di code switching interfrasale che intrafrasale. Un esempio del primo tipo è il seguente: S4 S3 S4 du muasch a storia tragica dårzeeln sì ma se non ce l’ho la storia # [ storia tragica? [ te la inventi (013-16:54-16:58) Come si può notare, nel primo turno di S4 viene inserito un elemento combinato (storia tragica) in un enunciato in tedesco sudtirolese. Nella risposta di S3 avviene la commutazione di codice, col passaggio all’italiano, confermata dal secondo turno di S4. La tabella seguente riporta invece il conteggio dei casi di enunciazione mistilingue (826 su un totale di 15287 righe di trascrizione), divisi per estensione e direzionalità dello switch all’interno dell’enunciato. I dati fanno sempre riferimento alle 31 registrazioni già trascritte, e sono quindi da considerare come provvisori. Per direzionalità viene qui intesa la direzione del cambio di codice all’interno dell’enunciato dal codice maggiormente attivato in un dato punto dell’interazione al codice meno attivato presente nello stesso turno conversazionale. 4 Nel caso di una alternation, in cui ad una parte dell’enunciato nel codice A segue una parte di enunciato nel codice B, la direzionalità sarà A>B; nel caso di una insertion di un elemento del codice A all’interno di un enunciato nel codice B, la direzionalità sarà B>A. Se sono presenti più punti di switch con direzionalità diversa, l’enunciato mistilingue è categorizzato come bidirezionale. Quando invece non è possibile una chiara distinzione del codice maggiormente attivato, per via della continua fluttuazione nella scelta dei codici o per la posizione dello switch, l’enunciato non può essere categorizzato neanche in base all’estensione dello switch. Le colonne riportano il conteggio di enunciati che presentano single-item switches, multi-item switches o entrambi. Sono conteggiati tra i single-item switches anche i casi di polirematiche o combinazioni lessicali altamente convenzionalizzate. Direzionalità S M S+M Total Sudtirolese > italiano o trentino 562 92 11 665 Italiano/Trentino > sudtirolese 41 44 1 86 Bidirezionale 1 18 21 40 Direzionalità non chiara - - - 35 Total 604 154 33 826 Come mostrano questi dati, il numero di single-item switches è di gran lunga superiore a quello dei multi-item switches (il rapporto è di 4 a 1 in favore dei single-item switches). Inoltre, più dell’80% degli enunciati individuati nel corpus come chiaramente mistilingui riguardano il passaggio dal tedesco sudtirolese all’italiano o al trentino (tramite alternation o, più spesso, insertion di elementi in questi due codici all’interno di un enunciato in tedesco sudtirolese). Ecco alcuni esempi di single-item switches: 1. dår acquisto des iaarhundårts wor des °wail i glab° D > I D 2. wänn lai ba åan turnir uanänainzig mille gekreg håt D > I D 3. häl glabi D magaari > I war net bäas D 4. iå obår nimm tipo D >I Di seguito, invece, alcuni esempi di multi-item switches: 5 5. draizän # beh mit schpese di trasporto sächzän thirteen - well, with D shipping fees > I sixteen D 6. però appena che è a scuola wenn si untårrichtät but as soon as she is at school when she teaches I >D 7. tomatn wåas i net non mi ricordo più se mi piaceva D >I Come si può notare, in questo secondo gruppo sono inclusi sia casi di insertions lunghe, che coinvolgono più di un elemento (es. 5) sia casi di alternation (es. 6 e 7). [Simone Ciccolone - 10.07.2013] 6