Corpus Stammerjohann L’italiano parlato a Firenze nel 1965 dalle registrazioni di Harro Stammerjohann Ricerca finanziata dal “Fondo Nazionale Italiano per la Ricerca di Base (FIRB): “L’Italiano in Diacronia” Corpus Stammerjohann • N° Registrazioni: 30 • Durata Totale: circa 47 Ore Corpus Stammerjohann Bobina 1 Lato A Lato B Bobina 2 Lato A Lato B TRACCIA 1 TRACCIA 1 TRACCIA 1 TRACCIA 1 •Scuola elementare Vitali / Perugi •Pinocchio (Pensione) •Conversazione in casa Vitali •Giardino d’ infanzia (Bendinelli) •Artigiano Contini / Nencioni •Barbiere via Faenza •Barbiere via Faenza •Amiche della Bendinelli •Conversazione in casa Vitali •Il grillo canterino •Famiglia •Conversazione Romoli •Franco e Serena •Studio Porcinai •Conversazione Braccini •Il grillo canterino Rai •Franco e Serena •Giardino d’ infanzia San Frediano TRACCIA 2 TRACCIA 2 TRACCIA 2 •San Frediano (Bendinelli) •Lilian’ s •Scherzo via San Gallo TRACCIA 2 •Bidello Magistero (Braschi) •Barbiere via Faenza •Copie Rai (Il grillo canterino) •Barbiere via Faenza •Artigiano San Frediano (Braschi) •Conversazione Garavini •Facoltà di Lettere (Braccini) •Barbiere via Faenza •Barbiere via Faenza Durata Registrazioni (Totale: 2806 minuti) Recupero del Corpus Stammerjohann • Audio 1. 2. Digitalizzazione Campionamento • Testo 1. 2. Trascrizione in formato CHAT Meta-dati • Allineamento Testo-Audio dei testi con minore quantità di sovrapposizioni e migliore qualità acustica Campionamento del corpus rispetto ai corpora di riferimento LABLITA e C-ORAL-ROM per la comparabilità dei dati linguistici CORPUS ITALIANO C-ORAL-ROM (311.582 parole; 460 locutori) INFORMAL 155.048 10 testi di 4.500 parole 70 testi di 1.500 parole FORMAL 156.544 testi di 3.000 parole C-ORAL-ROM ITALIANO INFORMALE DOMINIO SOCIOLOGICO D’USO Familiare e privato Pubblico 128.696 26.352 Monologues 45.212 dial&convers 83.464 Monologues 6.050 STRUTTURA DELL’EVENTOCOMUNICATIVO dial&convers 20.241 C-ORAL-ROM FORMAL ( campionamento per genere e dominio semantico) Natural context Trasmissione non naturale 68.324 88.220 Media Téléphone 61.638 26.582 •Droit •Débat politique •Religion •Enseignement •Conférence •Explications professionnelles •Affaires •News •Météo •Interviews •Reportages •Science •Talk show (testi di 3.000 parole) (testi di 3.000 parole) 30.598 –dialogical structure •Dialogues •Man-machine interactions CAMPIONAMENTO dell’insieme di registrazioni continue in testi di dimensione tra le 1500 e le 4500 parole Corpus Stammerjohann INFORMAL FORMAL TELEPHONE 75.718 27.092 3.738 FAMILY PRIVATE PUBLIC PRIVATE & PUBLIC BROADCASTING 24.169 FREE FREE REGULATED RADIO 13.134 28.415 17.763 9.329 Monologues 0 Dialogues 9384 Conversations 14785 Monologues 0 Dialogues 1880 Conversation 11254 Monologues 0 Dialogues 0 Conversations 28415 Monologues 4565 Dialogues 13.198& Conversations 0 •Il campionamento dialogico informale è fortemente comparabile •Il campionamento dialogico regolato/formale è comparabile, con cautela •Il parlato monologico non è comparabile •I media sono scarsamente comparabili Campionamento rispetto ai corpora di riferimento LABLITA e C-ORAL-ROM Corpus Stammerjohann 1965 : 47 h registrazioni trascritte 8h 31’ 96548 parole in 34 testi Corpus C-ORAL-ROM ’90 – 2003 : 311.582 parole 36 h trascritte per TESTO Format: CHAT (Codes Human Analysis of Transcripts) di B. McWhinney (1994) adattamento in (Cresti – Moneglia, 1997) Meta-dati: Informazioni sulla sessione e sui locutori (C-ORAL-ROM format )* Linea del testo: trascrizione ortografica Linea dipendente: informazione contestuale e paralinguistica Il metalinguaggio è sempre l’inglese * Anche in Format IMDI (Isle Metadata Iniziative) in collaborazione con il Max Planck Institute. Mata-dati @Title: Palmira @File: ifamcv19 @Participants: PAL, Palmira, (woman, D, x, retired, conversation participant, Florence) CAR, Carlota, (woman, C, 3, researcher, conversation participant, Spain) GIU, Giuseppina, (woman, D, x, retired, conversation participant, Florence) @Date: 10/10/2001 @Place: Florence @Situation: shared-memories dialogue between relatives at home, not hidden, researcher participant @Topic: events in family life @Source: C-ORAL-ROM @Class: informal, family/private, conversation @Length: 9’ 25’’ @Words: 1518 @Acoustic_quality: A @Transcriber: Sabrina Signorini @Revisor: Paola Gramigni; Antonietta Scarano @Comments: text collected by Carlota Nicolas Un esempio di testo trascritto Unità di riferimento annotate nella trascrizione • Turno dialogico: ogni presa di parola da parte di un parlante (identificabile con il cambiamento di voce) • Enunciato: qualsiasi espressione interpretabile pragmaticamente, ossia ogni espressione attraverso cui viene compiuta una illocuzione (Cresti, 2000) (identificabile con un break prosodico terminale) • Unità d’informazione: qualsiasi espressione che svolge una funzione informativa (Cresti, 2000). (identificabile con un break prosodico non terminale). •Parte del discorso e lemma di ogni token (non realizzata) Annotazione Locutore Unità d’intonazione non terminale *PAL: guarda / ad aver perso i libri / io ho perso dimolto // l' era tutta + le [/] le novelle della nonna + *CAR: mh // *PAL: / l' <erano> // Unità d’intonazione terminale Interrupzione Retracting *GIU: [<] <eh> / quelle erano belle // *PAL: ma / l' erano belle proprio / eh // le dètti all' Elda // la venne l' Elda // la mi disse / mi dai &de [///] le novelle della nonna / dice // e &di [/] e dicano le son tanto belle // Sovrapposizione %com: she' s laughing Frammento Linea dipendente Allineamento testo suono Unità di allineamento: L’enunciato Il corpus come una Base di dati di enunciati TOOL: WinPitch Corpus, di Ph. Martin Il file multimediale per lo sfruttamento simultaneo dell’informazione acustica e testuale Un esempio di audio e testo allineati WinPitchCorpus (P. Martin) Un esempio di audio e testo allineati WinPitch Corpus (P. Martin) Misure 1 MLTw: Lunghezza media del Turno dialogico in parole 2 MLU: Lunghezza media dell’enunciato in parole 3 MLTone: Lunghezza media dell’unità tonale in parole 4 MLTu: Lunghezza media del turno dialogico in enunciati 5 MLUtone: Lunghezza media dell’enunciato in unità tonali 6 MLTtone: Lunghezza media del Turno dialogico in unità tonali 7 Speed w: Numero di parole al secondo 8 Speed u: numero di parole al minuto 9 FFE: Frequenza della frammentazione (sul totale degli enunciati) 10 FIE: Frequenza delle interruzioni (sul totale degli enunciati) Ricerche future sul Corpus Stammerjohann •Lemmatizzazione e tagging morfosintattico •Lessico di frequenza •Studi sintattici di superficie: (enunciati verbali e non verbali, principali indici di coordinazione, subordinazione, focalizzazione negativa) •Studi diacronici: Modificazione del lessico di base toscano Possibilità attuali per la pubblicazione dei risultati della ricerca FIRB in : a) Pubblicazione on demand in DVD + Volume (Firenze University Press) b) Pubblicazione Volume + DVD (Collana degli Studi Linguistici del Dipartimento di Italianistica) Tabella corpus (Informale) Tabella corpus (Formale) Stammerjohann - C-ORAL-ROM: misure a confronto