Corpus Stammerjohann
L’italiano parlato a Firenze nel 1965 dalle
registrazioni di Harro Stammerjohann
Ricerca finanziata dal “Fondo Nazionale Italiano per la Ricerca
di Base (FIRB): “L’Italiano in Diacronia”
Corpus Stammerjohann
• N° Registrazioni: 30
• Durata Totale: circa 47 Ore
Corpus Stammerjohann
Bobina 1
Lato A
Lato B
Bobina 2
Lato A
Lato B
TRACCIA 1
TRACCIA 1 TRACCIA 1
TRACCIA 1
•Scuola elementare Vitali / Perugi
•Pinocchio (Pensione)
•Conversazione in casa Vitali
•Giardino d’ infanzia (Bendinelli)
•Artigiano Contini / Nencioni
•Barbiere via Faenza
•Barbiere via Faenza
•Amiche della Bendinelli
•Conversazione in casa Vitali
•Il grillo canterino
•Famiglia
•Conversazione Romoli
•Franco e Serena
•Studio Porcinai
•Conversazione Braccini
•Il grillo canterino Rai
•Franco e Serena
•Giardino d’ infanzia San Frediano
TRACCIA 2
TRACCIA 2 TRACCIA 2
•San Frediano (Bendinelli)
•Lilian’ s
•Scherzo via San Gallo
TRACCIA 2
•Bidello Magistero (Braschi)
•Barbiere via Faenza
•Copie Rai (Il grillo canterino)
•Barbiere via Faenza
•Artigiano San Frediano (Braschi)
•Conversazione Garavini
•Facoltà di Lettere (Braccini)
•Barbiere via Faenza
•Barbiere via Faenza
Durata Registrazioni
(Totale: 2806 minuti)
Recupero del Corpus Stammerjohann
•
Audio
1.
2.
Digitalizzazione
Campionamento
•
Testo
1.
2.
Trascrizione in formato CHAT
Meta-dati
•
Allineamento Testo-Audio dei testi con minore
quantità di sovrapposizioni e migliore qualità
acustica
Campionamento del corpus
rispetto ai corpora di
riferimento
LABLITA e C-ORAL-ROM
per la comparabilità dei dati linguistici
CORPUS ITALIANO
C-ORAL-ROM
(311.582 parole; 460 locutori)
INFORMAL
155.048
10 testi di 4.500 parole
70 testi di 1.500 parole
FORMAL
156.544
testi di 3.000 parole
C-ORAL-ROM ITALIANO
INFORMALE
DOMINIO SOCIOLOGICO D’USO
Familiare e privato
Pubblico
128.696
26.352
Monologues
45.212
dial&convers
83.464
Monologues
6.050
STRUTTURA DELL’EVENTOCOMUNICATIVO
dial&convers
20.241
C-ORAL-ROM FORMAL
( campionamento per genere e dominio semantico)
Natural context
Trasmissione non naturale
68.324
88.220
Media
Téléphone
61.638
26.582
•Droit
•Débat politique
•Religion
•Enseignement
•Conférence
•Explications
professionnelles
•Affaires
•News
•Météo
•Interviews
•Reportages
•Science
•Talk show
(testi di 3.000 parole)
(testi di 3.000 parole)
30.598 –dialogical
structure
•Dialogues
•Man-machine interactions
CAMPIONAMENTO dell’insieme di registrazioni continue in testi di
dimensione tra le 1500 e le 4500 parole
Corpus Stammerjohann
INFORMAL
FORMAL
TELEPHONE
75.718
27.092
3.738
FAMILY
PRIVATE
PUBLIC
PRIVATE & PUBLIC
BROADCASTING
24.169
FREE
FREE
REGULATED
RADIO
13.134
28.415
17.763
9.329
Monologues 0
Dialogues 9384 Conversations 14785
Monologues 0
Dialogues 1880 Conversation 11254
Monologues 0
Dialogues 0 Conversations 28415
Monologues 4565
Dialogues 13.198& Conversations 0
•Il campionamento dialogico informale è fortemente comparabile
•Il campionamento dialogico regolato/formale è comparabile, con cautela
•Il parlato monologico non è comparabile
•I media sono scarsamente comparabili
Campionamento rispetto ai
corpora di riferimento
LABLITA e C-ORAL-ROM
Corpus Stammerjohann 1965 : 47 h registrazioni
trascritte 8h 31’ 96548 parole in 34 testi
Corpus C-ORAL-ROM ’90 – 2003 :
311.582 parole
36 h trascritte per
TESTO
Format: CHAT (Codes Human Analysis of Transcripts)
di B. McWhinney (1994) adattamento in
(Cresti – Moneglia, 1997)
Meta-dati: Informazioni sulla sessione e sui locutori (C-ORAL-ROM
format )*
Linea del testo: trascrizione ortografica
Linea dipendente: informazione contestuale e paralinguistica
Il metalinguaggio è sempre l’inglese
* Anche in Format IMDI (Isle Metadata Iniziative) in collaborazione con il Max
Planck Institute.
Mata-dati
@Title: Palmira
@File: ifamcv19
@Participants: PAL, Palmira, (woman, D, x, retired, conversation participant, Florence)
CAR, Carlota, (woman, C, 3, researcher, conversation participant, Spain)
GIU, Giuseppina, (woman, D, x, retired, conversation participant, Florence)
@Date: 10/10/2001
@Place: Florence
@Situation: shared-memories dialogue between relatives at home, not hidden,
researcher participant
@Topic: events in family life
@Source: C-ORAL-ROM
@Class: informal, family/private, conversation
@Length: 9’ 25’’
@Words: 1518
@Acoustic_quality: A
@Transcriber: Sabrina Signorini
@Revisor: Paola Gramigni; Antonietta Scarano
@Comments: text collected by Carlota Nicolas
Un esempio di testo trascritto
Unità di riferimento annotate nella
trascrizione
• Turno dialogico:
ogni presa di parola da parte di un parlante
(identificabile con il cambiamento di voce)
• Enunciato: qualsiasi espressione interpretabile pragmaticamente, ossia ogni
espressione attraverso cui viene compiuta una illocuzione (Cresti, 2000)
(identificabile con un break prosodico terminale)
• Unità d’informazione:
qualsiasi espressione che svolge una funzione
informativa (Cresti, 2000). (identificabile con un break prosodico non terminale).
•Parte del discorso e lemma di ogni token (non realizzata)
Annotazione
Locutore
Unità d’intonazione non terminale
*PAL: guarda / ad aver perso i libri / io ho perso dimolto //
l' era tutta + le [/] le novelle della nonna +
*CAR: mh //
*PAL: / l' <erano> //
Unità d’intonazione
terminale
 Interrupzione
Retracting
*GIU: [<] <eh> / quelle erano belle //
*PAL: ma / l' erano belle proprio / eh // le dètti all' Elda // la
venne l' Elda // la mi disse / mi dai &de [///] le novelle della
nonna / dice // e &di [/] e dicano le son tanto belle //
Sovrapposizione
%com: she' s laughing
Frammento
Linea dipendente
Allineamento testo suono
Unità di allineamento: L’enunciato
Il corpus come una Base di dati di enunciati
TOOL: WinPitch Corpus, di Ph. Martin
Il file multimediale per lo sfruttamento simultaneo
dell’informazione acustica e testuale
Un esempio di audio e testo allineati
WinPitchCorpus (P. Martin)
Un esempio di audio e testo allineati
WinPitch Corpus (P. Martin)
Misure
1
MLTw: Lunghezza media del Turno dialogico in parole
2
MLU: Lunghezza media dell’enunciato in parole
3
MLTone: Lunghezza media dell’unità tonale in parole
4
MLTu: Lunghezza media del turno dialogico in enunciati
5
MLUtone: Lunghezza media dell’enunciato in unità tonali
6
MLTtone: Lunghezza media del Turno dialogico in unità tonali
7
Speed w: Numero di parole al secondo
8
Speed u: numero di parole al minuto
9
FFE: Frequenza della frammentazione (sul totale degli enunciati)
10
FIE: Frequenza delle interruzioni (sul totale degli enunciati)
Ricerche future sul Corpus Stammerjohann
•Lemmatizzazione e tagging morfosintattico
•Lessico di frequenza
•Studi sintattici di superficie: (enunciati verbali e non verbali,
principali indici di coordinazione, subordinazione, focalizzazione
negativa)
•Studi diacronici: Modificazione del lessico di base toscano
Possibilità attuali per la pubblicazione dei risultati della ricerca
FIRB in :
a) Pubblicazione on demand in DVD + Volume (Firenze University
Press)
b) Pubblicazione Volume + DVD (Collana degli Studi Linguistici del
Dipartimento di Italianistica)
Tabella corpus (Informale)
Tabella corpus (Formale)
Stammerjohann - C-ORAL-ROM:
misure a confronto
Scarica

Power Point format