16/04/2010
PdE LM - Chiari, Scrittura accademica 2010
1
SCRITTURA ACCADEMICA E
RISORSE BIBLIOGRAFICHE
ONLINE
Isabella Chiari
PdE LM - Chiari, Scrittura accademica 2010
2
IL DATO LINGUISTICO E
TESTUALE
i corpora di riferimento della lingua italiana, corpora
specialistici, corpora letterari.
1
16/04/2010
Tipologie di risorse digitali (online)
3

Corpora linguistici


Portali



ParlarItaliano
Testi da varie fonti


Corpora di lingua parlata, corpora di lingua scritta,
corpora specialistici
Repubblica, Corriere della Sera, La Stampa
Biblioteche digitali
Cd-rom e risorse

LIZ Letteratura Italiana Zanichelli, TLIO
PdE LM - Chiari, Scrittura accademica 2010
Principali corpora italiani
4
ITALIANO
SCRITTO
ITALIANO
PARLATO
LIF - Lessico di frequenza della lingua
italiana contemporanea
LIP - Lessico di frequenza dell'italiano
parlato
CORIS / CODIS
Corpus Dinamico dell’Italiano scritto
CLIPS - Corpora Linguistici per l'Italiano
Parlato e Scritto
COLFIS - Corpus e Lessico di Frequenza
dell'Italiano Scritto
LABLITA - Corpus di italiano parlato
LA REPUBBLICA CORPUS (giornalistico)
Integrated reference corpora for spoken
romance languages
(C-ORAL-ROM)
Fakulteta za humanistične študije Koper, Univerza na Primorskem,
Capodistria, Slovenia, 5 aprile 2007 - Isabella Chiari
2
16/04/2010
Altri corpora di italiano
5
ITALIANO
SCRITTO
ITALIANO
PARLATO
TLIO - Tesoro della lingua italiana delle
origini (lettarario)
CIT - Corpus di italiano televisivo
LIZ - Letteratura Italiana Zanichelli
(lettarario)
LIR - Lessico di frequenza dell'italiano
radiofonico
BOnonia Legal Corpus (BolC)
API/AVIP/IPar
EUROTRA, EuroWordNet, PAROLE, SIMPLE
l‟Italian Reference Corpus
Child Language Data Exchange System
(CHILDES) - italiano
Banca dati di Italiano L2
Osservatorio Linguistico permanente
dell'Italiano Diffuso fra Stranieri -Siena
Fakulteta za humanistične študije Koper, Univerza na Primorskem,
Capodistria, Slovenia, 5 aprile 2007 - Isabella Chiari
Corpora di italiano scritto (1)
6

LIF Lessico di frequenza della lingua italiana contemporanea




Lessico di frequenza della lingua italiana contemporanea (LIF),
elaborato nel 1971 al cnuce (Centro Nazionale Universitario di Calcolo
elettronico) di Pisa (cfr. Bortolini et alii , 1971).
Si tratta del primo grande progetto di costruzione di un lessico di
frequenza per la lingua italiana (non tagliato su un singolo autore o su
testi specificatamente letterari).
Il lessico contiene circa 5.000 lemmi ordinati per frequenza e secondo
l'ordine alfabetico, tratti dallo spoglio di testi per un complesso di
500.000 parole. I testi che sono entrati a far parte del corpus sono
datati tra il 1947 e il 1968, sono tutti testi scritti, presi da 5 fonti
diverse (teatro, romanzi, cinema, periodici, sussidiari), a rappresentare
diverse forme testuali alcune delle quali vicine al parlato.
Il corpus non è disponibile per la consultazione né offline né online.
PdE LM - Chiari, Scrittura accademica 2010
3
16/04/2010
Corpora di italiano scritto (2)
7

Corpus e Lessico di Frequenza dell'Italiano Scritto
 Corpus
e Lessico di Frequenza dell'Italiano Scritto
(ColFIS), costruito da Bertinetto, Burani, Laudanna,
Marconi, Ratti, Rolando e Thornthon, è costituito da
3.150.075 occorrenze lessicali tratte da quotidiani,
periodici e libri di varia natura bilanciate secondo le
letture degli italiani.
 Al momento sono disponibili gratuitamente online le
liste con il lemmario (non il corpus).
 http://www.istc.cnr.it/material/database/colfis/
PdE LM - Chiari, Scrittura accademica 2010
Progetto COLFIS
8
Rappresentatività italiano “medio”
•Letture preferite dagli italiani
•1992-1994
•differenziati per tipologia (quotidiani, periodici, libri) e per argomento
(politica, letteratura, sport, ecc.).
•il bilanciamento delle fonti, che conferisce un carattere di non casualità
alle rilevazioni numeriche estraibili dall'archivio lessicale
Estensione
•3.798.275 parole
Fakulteta za humanistične študije Koper, Univerza na Primorskem,
Capodistria, Slovenia, 5 aprile 2007 - Isabella Chiari
4
16/04/2010
Bilanciamento
Il corriere
della sera
La
Repubblica
9
La Stampa
altro
arte scienza e tecnica
auto e nautica
bambini e ragazzi
casa e hobby
femminili
LIBRI
QUOTIDIANI
• Circa 655.000
occorrenze
• 13 generi
letterari
• Circa
1.800.000
occorrenze
QUOTIDIANI
economia
cronaca locale
fotoromanzi
cronaca mondana
informazione generale
PERIODICI
cronaca nera
cronaca mondana
• Circa 1.306.000
occorrenze
politica estera
radio e televisione
politica interna
sport
scienza
viaggi e ecologia
spettacolo
sport
Fakulteta za humanistične študije Koper, Univerza na Primorskem,
Capodistria, Slovenia, 5 aprile 2007 - Isabella Chiari
Ricerca nel corpus
10
Fakulteta za humanistične študije Koper, Univerza na Primorskem,
Capodistria, Slovenia, 5 aprile 2007 - Isabella Chiari
5
16/04/2010
“sai” nel COLFIS
11
Corpora di italiano scritto (2)
12

CORIS/CODIS Corpus di Italiano Scritto contemporaneo




Corpus di Italiano Scritto contemporaneo (CORIS/CODIS): COrpus di
Riferimento dell'Italiano Scritto (CORIS) elaborato e coordinato da R. Rossini
Favretti, dal 1998. Formato da due corpus distinti.
Il COrpus di Riferimento dell'Italiano Scritto ( Coris ) è stato elaborato con lo
scopo di costruire un corpus generale dell'italiano scritto. Il corpus contiene 100
milioni di parole, e verrà aggiornato ogni due anni con nuovo materiale di
controllo.
I testi ivi contenuti sono prevalentemente di narrativa prodotta negli anni
Ottanta e Novanta. Il corpus è elaborato con criteri linguistici molto rigorosi ed
è per sua natura dinamico. Dal corpus generale si distinguono alcuni
sottocorpora, rappresentanti delle diverse varietà dell'italiano scritto.
Accanto al Coris si aggiunge il COrpus Dinamico dell'Italiano Scritto ( Codis )
che permette la selezione ed eventuale esclusione di sottocorpora considerati
non rilevanti per specifiche ricerche. Il corpus è disponibile su cd-rom e per
consultazione online.

http://corpora.dslo.unibo.it/coris_ita.html
PdE LM - Chiari, Scrittura accademica 2010
6
16/04/2010
CODIS
Chiari, I. (2007), Introduzione alla linguistica computazionale, Laterza,
Roma-Bari.
Risultati in concordanza
14
Fakulteta za humanistične študije Koper, Univerza na Primorskem,
Capodistria, Slovenia, 5 aprile 2007 - Isabella Chiari
7
16/04/2010
Corpora di italiano scritto (3)
15

ItWac



ItWac, corpus di lingua italiana costituito da circa 1.909.535.984
parole (occorrenze). Il corpus è parzialmente bilanciato
attraverso una serie di procedure di Web crawling, lemmatizzato
con un lemmatizzatore di impianto statistico TreeTagger,
interrogato attraverso il Corpus Query System di Sketch Engine.
M. Baroni, A. Kilgarriff, Large linguistically-processed Web
corpora for multiple languages, in Proceedings of the Eleventh
Conference of the European Chapter of the Association for
Computational Linguistics, Association for Computational
Linguistics, 2006, pp. 87-90.
http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/
http://ca.sketchengine.co.uk/auth/corpora/
PdE LM - Chiari, Scrittura accademica 2010
Il corpus di Repubblica
16

Corpus di Repubblica (SSLMIT, Baroni)
 Corpus
delle 10 annate pubblicate fino al 1999
 Annotato con Treetagger
 Circa 380 milioni di occorrenze
 http://dev.sslmit.unibo.it/corpora/
PdE LM - Chiari, Scrittura accademica 2010
8
16/04/2010
Tipologie testuali
17
La Repubblica
news
church, culture,
economics,
education,
news, politics,
commento
science, society,
sport, weather
Fakulteta za humanistične študije Koper, Univerza na Primorskem,
Capodistria, Slovenia, 5 aprile 2007 - Isabella Chiari
Risultati in concordanza
18
Fakulteta za humanistične študije Koper, Univerza na Primorskem,
Capodistria, Slovenia, 5 aprile 2007 - Isabella Chiari
9
16/04/2010
LA REPUBBLICA in sintesi
19
Pregi
Difetti
Trattamento
Disegno
• Lemmatizzato e analizzato morfologicamente (in
modo automatico, Treetagger)
• Non è un corpus di riferimento
Interrogazione
• Sintassi di interrogazione molto ricca (un po‟
complessa)
Estensione
• 380 milioni (grande per gli standard attuali)
Distribuzione
• Online gratuita
Accesso corpus
• Senza esportazione delle
concordanze
• Nessun accesso al testo
integrale
• Liste di frequenza non
esportabili nella totalità
Fakulteta za humanistične študije Koper, Univerza na Primorskem,
Capodistria, Slovenia, 5 aprile 2007 - Isabella Chiari
Corpora di parlato
20

LIP Lessico di frequenza dell'italiano parlato


Lessico di frequenza dell'italiano parlato (LIP), curato da De Mauro,
Mancini, Vedovelli e Voghera (1993) costituisce la controparte del lif
per l'italiano parlato. Il corpus da cui è tratto è costituito da circa
500.000 parole grafiche, trascrizioni di registrazioni effettuate a
Milano, Firenze, Roma e Napoli, pari a quasi 57 ore di parlato. Le
tipologie del parlato rappresentate sono dialoghi faccia a faccia e non,
a presa di parola libera e non, monologhi faccia a faccia e non. I lemmi
sono consultabili secondo frequenza e secondo ordine alfabetico, vi è
anche una lista di frequenza dei fonosimboli e delle polirematiche. Il
volume del lessico è corredato da due dischetti che contengono le
trascrizioni di tutti i testi del corpus, permettendo dunque a chi voglia
svolgere ulteriori analisi l'accesso diretto ai materiali.
http://languageserver.uni-graz.at/badip/badip/20_corpusLip.php
PdE LM - Chiari, Scrittura accademica 2010
10
16/04/2010
Il lessico di frequenza del LIP
21
Fakulteta za humanistične študije Koper, Univerza na Primorskem,
Capodistria, Slovenia, 5 aprile 2007 - Isabella Chiari
Esempio: il testo RA1 (formato grezzo)
22
Fakulteta za humanistične študije Koper, Univerza na Primorskem,
Capodistria, Slovenia, 5 aprile 2007 - Isabella Chiari
11
16/04/2010
Interrogazione BADIP
Chiari, I. (2007), Introduzione alla linguistica computazionale, Laterza,
Roma-Bari.
Interrogazione BADIP
24
Fakulteta za humanistične študije Koper, Univerza na Primorskem,
Capodistria, Slovenia, 5 aprile 2007 - Isabella Chiari
12
16/04/2010
Risultati
25
Fakulteta za humanistične študije Koper, Univerza na Primorskem,
Capodistria, Slovenia, 5 aprile 2007 - Isabella Chiari
Osservare le concordanze
26
Fakulteta za humanistične študije Koper, Univerza na Primorskem,
Capodistria, Slovenia, 5 aprile 2007 - Isabella Chiari
13
16/04/2010
Usare i testi integrali
27
Fakulteta za humanistične študije Koper, Univerza na Primorskem,
Capodistria, Slovenia, 5 aprile 2007 - Isabella Chiari
Corpora di parlato (2)
28

API/AVIP/IPar


API/AVIP/IPar sono progetti di raccolta di materiale fonico spontaneo di lingua
italiana, cui hanno partecipato variamente il laboratorio di linguistica della
Scuola Normale di Pisa, il CIRASS e l‟Orientale di Napoli, il Politecnico di Bari e
l‟Università del Piemonte Orientale. I progetti sono conformi alle specifiche di
codifica e annotazione di Eagles. Il materiale dei corpora (files e software) è
disponibile su cd-rom, distribuiti dal CIRASS e via ftp sempre dal sito del
CIRASS.
Corpus LIPS – Italiano di stranieri

"Il corpus LIPS raccoglie le trascrizioni dei testi tratti dall‟archivio delle prove
d‟esame CILS - Certificazione di Italiano come Lingua Straniera dell‟Università
per Stranieri di Siena. Dall‟archivio, che comprende tutte le prove dei candidati
agli esami CILS a partire dalla prima sessione del 1993, sono state estratte
circa 2000 prove di diversi candidati accomunati dal fatto di avere svolto
almeno due prove in successione delle sei prove CILS. Al momento attuale, il
corpus selezionato comprende circa 70 ore di parlato, che, una volta trascritto,
ha raggiunto le 530.000 occorrenze di forme di unità lessicali."
PdE LM - Chiari, Scrittura accademica 2010
14
16/04/2010
Corpora di parlato (3)
29

CLIPS - Corpora Linguistici per l'Italiano Parlato e Scritto



Corpora Linguistici per l'Italiano Parlato e Scritto (CLIPS) (audio,
etichettatura e documentazione) è pubblico, l‟accesso e il
download completo del materiale per finalità scientifiche sono
gratuiti.
CLIPS consiste di circa 100 ore di parlato, equamente ripartito
tra voci maschili e voci femminili, in parte trascritto
ortograficamente e etichettato foneticamente. Le registrazioni
sono state effettuate in 15 località italiane scelte in base a criteri
di rappresentatività linguistica e socioeconomica: Bari, Bergamo,
Bologna, Cagliari, Catanzaro, Firenze, Genova, Lecce, Milano,
Napoli, Palermo, Parma, Perugia, Roma, Venezia.
La documentazione, i protocolli di raccolta e di annotazione del
materiale tengono conto delle direttive del progetto EAGLES.
PdE LM - Chiari, Scrittura accademica 2010
CLIPS
30
Progetto
• diretto da Federico Albano Leoni
• 1999-2004
• voci maschili e voci femminili, in parte trascritto ortograficamente e
etichettato foneticamente
Struttura
• 100 ore di parlato
• Distribuzione sia dell‟audio sia delle trascrizioni
Località
• 15 località italiane
• Bari, Bergamo, Bologna, Cagliari, Catanzaro, Firenze, Genova, Lecce,
Milano, Napoli, Palermo, Parma, Perugia, Roma, Venezia
Fakulteta za humanistične študije Koper, Univerza na Primorskem,
Capodistria, Slovenia, 5 aprile 2007 - Isabella Chiari
15
16/04/2010
Tipologie testuali
31
a) parlato radiotelevisivo
• (notiziari, interviste, talk shows);
b) parlato dialogico
• (240 dialoghi raccolti secondo le modalità del map task e del „gioco delle differenze‟,
dei quali 30 etichettati foneticamente, 90 trascritti ortograficamente, studenti universitari);
c) parlato letto da parlanti non professionisti
• (20 frasi atte a garantire la copertura delle frequenze medio-alte del lessico italiano);
d) parlato telefonico
• (conversazioni tra circa 300 parlatori e un portiere d‟albergo simulato)
e) parlato letto da 20 parlanti professionisti
Fakulteta za humanistične študije Koper, Univerza na Primorskem,
Capodistria, Slovenia, 5 aprile 2007 - Isabella Chiari
www.clips.unina.it
32
Fakulteta za humanistične študije Koper, Univerza na Primorskem,
Capodistria, Slovenia, 5 aprile 2007 - Isabella Chiari
16
16/04/2010
<inspiration> in realtà la
cultura svedese , è come se
in qualche modo un po' ha
sempre un po<oo>'
<inspiration> <eh> subito
una<aa> <inspiration>
una un po' una mancanza
di fiducia in se stessa e
quindi si è sempre nutrita di
modelli , che in negli anni
sessanta principalmente
erano fondamentalmente
l'America <inspiration>
Fakulteta za humanistične študije Koper, Univerza na Primorskem,
Capodistria, Slovenia, 5 aprile 2007 - Isabella Chiari
33
CLIPS in sintesi
34
Pregi
Difetti
Trascrizione e Annotazione
Estensione
• Ortografica, fonetica e fonologica
• Standardizzata Eagles
• Grande per indagini fonetiche, ma
piccolo per gli altri livelli
Distribuzione
Interrogazione e
annotazione
• Online gratuita
• Accesso al corpus integrale
(scaricabile)
• Accesso anche all‟audio
• Software per le analisi gratuiti online
• Documentazione dettagliata
• Nessuna annotazione grammaticale
(attualmente)
Accesso corpus
• Mediante Ftp (un po‟ lento)
Fakulteta za humanistične študije Koper, Univerza na Primorskem,
Capodistria, Slovenia, 5 aprile 2007 - Isabella Chiari
17
16/04/2010
Corpora di parlato (4)
35

Lessico di frequenza dell'italiano radiofonico (LIR)

Lessico di frequenza dell'italiano radiofonico (LIR) è un
progetto di analisi del lessico e del corpus del parlato
radiofonico, diretto da Nicoletta Maraschio, in 2 DVD ed è
pubblicato dall'Accademia della Crusca."I due DVD
contengono due corpora di italiano radiofonico raccolti a
quasi dieci anni di di-stanza, una prima volta nel 1995 e
poi nel 2003. Il corpus del LIR1 (1995) raccoglie circa 64
ore di parlato radiofonico, trascritto e in voce, registrato da
nove radio a diffusione nazionale [...] può essere
interrogato grazie a un potente motore di ricerca come il
DBT di Eugenio Picchi" (Maraschio, Stefanelli)
PdE LM - Chiari, Scrittura accademica 2010
Corpora di parlato (5)
36

Corpora di LABLITA

LABLITA dal 1973 si occupa della raccolta e gestione di corpora
con lo standard di trascrizione chat (cfr. Childes). Si tratta di un
insieme di corpora composto da: 1) un corpus di italiano parlato
spontaneo adulto che raccoglie circa 120 testi che riguardano
situazioni comunicative diafasiche diverse per un totale di 60 ore;
2) un corpus della lingua dei media (cinema, radio e televisione);
3) un corpus di 100 ore di italiano registrato nella fase del primo
apprendimento (in bambini di 18-36 mesi). In questo corpus i testi
sono trascritti, ma l'audio è disponibile in formato digitalizzato
(wav). Indicazioni e materiali si trovano nei due volumi
accompagnati da cd-rom multimediale: Emanuela Cresti (2000),
Corpus di italiano Parlato , Accademia della Crusca.

http://lablita.dit.unifi.it/
PdE LM - Chiari, Scrittura accademica 2010
18
16/04/2010
Annotazioni e distribuzione
37
Audio
• In questi corpora i testi sono trascritti, ma l‟audio è
disponibile in formato digitalizzato (.wav).
Trascrizioni
• Le trascrizioni sono in formato CHAT (cfr. Childes)
Distribuzione
• A richiesta
• Non interrogabili online
Fakulteta za humanistične študije Koper, Univerza na Primorskem,
Capodistria, Slovenia, 5 aprile 2007 - Isabella Chiari
38
C-ORAL-ROM
Integrated reference corpora for spoken
romance languages
E. Cresti - M. Moneglia
2005
comparable set of corpora of spontaneous spoken language for the
main romance languages, namely French, Italian, Portuguese and
Spanish
300,000 words for each language
Fakulteta za humanistične študije Koper, Univerza na Primorskem, Capodistria, Slovenia, 5
aprile 2007 - Isabella Chiari
19
16/04/2010
Caratteristiche C-ORAL-ROM
39
Comparabilità tra le quattro lingue romanze
Distribuzione di Audio e trascrizione
Allineamento di audio e trascrizione con software (WinPitch)
tagging prosodico & grammaticale
Fakulteta za humanistične študije Koper, Univerza na Primorskem,
Capodistria, Slovenia, 5 aprile 2007 - Isabella Chiari
C-ORAL-ROM design
40
Fakulteta za humanistične študije Koper, Univerza na Primorskem,
Capodistria, Slovenia, 5 aprile 2007 - Isabella Chiari
20
16/04/2010
Che in C-ORAL-ROM
41
Fakulteta za humanistične študije Koper, Univerza na Primorskem,
Capodistria, Slovenia, 5 aprile 2007 - Isabella Chiari
42
Fakulteta za humanistične študije Koper, Univerza na Primorskem,
Capodistria, Slovenia, 5 aprile 2007 - Isabella Chiari
21
16/04/2010
C-ORAL-ROM in sintesi
43
Pregi
Difetti
Trascrizione e Annotazione
Estensione
• Ortografica
• Annotazione prosodica e grammaticale
• Standardizzata CHAT
• Esportazione di concordanze e liste
selezionate
• Piccola per indagini diverse da
fonetica e prosodica
Interrogazione
Distribuzione
• Non si possono interrogare
sequenze
• Accesso al corpus integrale
• Accesso anche all‟audio
• Software per le analisi gratuiti online
• Documentazione dettagliata
Accesso corpus
• A pagamento su cd-rom
Fakulteta za humanistične študije Koper, Univerza na Primorskem,
Capodistria, Slovenia, 5 aprile 2007 - Isabella Chiari
Corpora di parlato (6)
44

Corpus di italiano televisivo
Corpus di italiano televisivo (CIT) sarà composto da
250.000 parole, e successivamente è programmato un
ampliamento del corpus a 500.000 parole per una
maggiore omogeneità con altri corpora italiani di lingua
scritta (LIF) e parlata (LIP).
 I testi prescelti sono tratti da trasmissioni originali non di
fiction, tratte da diverse categorie di attualità,
intrattenimento, pubblicità, sport e telegiornali. Il Cit è
annotato secondo gli standard della Text Encoding
Initiative (TEI).


http://www.sspina.it/cit/cit.htm
PdE LM - Chiari, Scrittura accademica 2010
22
16/04/2010
Il portale ParlarItaliano
45



PARLARITALIANO.IT è un portale di riferimento per lo studio su
corpora parlati, coordinato da Miriam Voghera. Dalla
presentazione: "è il primo osservatorio nazionale sul parlato italiano
costituito nel 2004 da dieci gruppi di ricerca di otto diversi Atenei
italiani
Parlare italiano ha lo scopo di offrire strumenti teorici e applicativi
per la diffusione e migliore conoscenza della lingua italiana, con
particolare attenzione alla didattica dell‟italiano come lingua
straniera.
Nel sito Parlare italiano potrete trovare un ampio spettro di ricerche
sul parlato che garantiscono la massima pubblicità dei corpora sui
cui si lavora, dei metodi e delle tecniche di analisi"

http://www.parlaritaliano.it/parlare/
PdE LM - Chiari, Scrittura accademica 2010
46
Piccola “guida” all‟uso dei corpora
nella ricerca linguistica
23
16/04/2010
Analisi comparativa
47
LIP
CLIPS
COLFIS
LA
REPUBBLICA

Analisi fonetiche
Analisi
morfosintattiche
CORIS/CODIS
()

Analisi lessicali
C-ORALROM
()
()



Accesso al testo
integrale


Accesso ai
sottocorpora





Gratuito





Accesso online








Le interrogazioni sui quotidiani
48

La Repubblica


Corriere della sera


http://www.repubblica.it/
http://archiviostorico.corriere.it/
La Stampa

http://archivio.lastampa.it/
PdE LM - Chiari, Scrittura accademica 2010
24
16/04/2010
49
PdE LM - Chiari, Scrittura accademica 2010
50
PdE LM - Chiari, Scrittura accademica 2010
25
16/04/2010
PdE LM - Chiari, Scrittura accademica 2010
51
52
Le biblioteche digitali
PdE LM - Chiari, Scrittura accademica 2010
26
16/04/2010
Biblioteche digitali
53

Liber Liber, progetto Manuzio


http://www.liberliber.it/
L'associazione Liber Liber promuove il progetto Manuzio, che ha per scopo la
fondazione di una biblioteca telematica ad accesso gratuito. I libri sono
prelevabili direttamente via Internet, oppure si possono ottenere su CDROM (i
CDROM vengono spediti ai sostenitori di Liber Liber). Disponibili anche alcuni
atti pubblici (come i verbali della Commissione Parlamentare Antimafia), tesi di
laurea, riviste (Studi storici, Spolia), ecc.
Biblioteca della Letteratura Italiana

http://www.letteraturaitaliana.net/
Realizzato da Pianetascuola in collaborazione con l'editore Einaudi, questo sito
Internet si pone come obiettivo quello di rispondere ai bisogni di una scuola che
sta sperimentando nuove tecnologie e nuovi contenuti. Le caratteristiche salienti
sono: materiali forniti gratuitamente; qualità dei testi; semplicità di utilizzo. Ben
fatte le schede sugli autori. Il formato degli e-book è PDF, che - se pure facile
da usare - è un formato proprietario (non standard e non evoluto come l'XML).
PdE LM - Chiari, Scrittura accademica 2010
54

Biblioteca Italiana
 http://www.bibliotecaitaliana.it/
 Una
biblioteca digitale di testi della tradizione
culturale e letteraria italiana, promossa e gestita dal
“Centro interuniversitario Biblioteca italiana telematica”
(CIBIT), per opera della sua unità attiva presso
l‟Università di Roma La Sapienza, e da “Testi Italiani in
Linea”. Si candida a divenire il principale progetto di
biblioteca telematica finanziata pubblicamente.
PdE LM - Chiari, Scrittura accademica 2010
27
16/04/2010
PdE LM - Chiari, Scrittura accademica 2010
55
56
Cd-rom e risorse online di tipo
letterario
TLIO, LIZ, ecc.
PdE LM - Chiari, Scrittura accademica 2010
28
16/04/2010
TLIO Tesoro della lingua italiana delle
origini
57





Tesoro della lingua italiana delle origini (TLIO) è un database testuale
(nato nel 1995 e inaugurato nel 1998) composto da circa 1.780 testi per
circa 20 milioni di parole, tratte da scritti in lingua italiana prima del 1375,
in prosa e in poesia.
Una prima versione della banca dati fu implementata in dbt di Eugenio
Picchi. Il database è interrogabile online con registrazione gratuita al sito
dell'Istituto Opera del Vocabolario Italiano (OVI):
È pubblicato qui in corso di redazione il Tesoro della Lingua Italiana delle
Origini (TLIO), prima sezione cronologica del vocabolario storico italiano.
Una selezione delle stesse voci viene stampata nel Bollettino dell'OVI; la
versione in rete può essere aggiornata rispetto alla versione a stampa.
Nuove voci vengono aggiunte periodicamente, col procedere della
redazione. Alla fine del 2009 è stato raggiunto un totale di circa 20.500
voci
http://tlio.ovi.cnr.it/TLIO/
PdE LM - Chiari, Scrittura accademica 2010
58
PdE LM - Chiari, Scrittura accademica 2010
29
16/04/2010
Le Banche Dati dell'Opera del
Vocabolario Italiano
59



Le Banche Dati sono consultabili con accesso libero e gratuito.
Corpus OVI dell'Italiano antico: è il corpus sul quale si redige
il Tesoro della Lingua Italiana delle Origini. Si può consultare
anche per lemmi.
TLIO
Corpus TLIO aggiuntivo: contiene testi destinati ad entrare
nel Corpus OVI dell'Italiano antico, provvisoriamente non
lemmatizzati.
Aggiuntivo
PdE LM - Chiari, Scrittura accademica 2010
60
PdE LM - Chiari, Scrittura accademica 2010
30
16/04/2010
LIZ Letteratura Italiana Zanichelli
61



LIZ 4.0. LETTERATURA ITALIANA ZANICHELLI CDROM dei testi della letteratura italiana. Quarta
edizione per Windows. A cura di Pasquale
Stoppelli ed Eugenio Picchi.
Sistema di interrogazione DBT in collaborazione con
il Consiglio Nazionale delle Ricerche. Con il volume
Schede di letteratura italiana; 1000 opere, 245
autori, 2001
http://www.zanichelli.it/index.asp
PdE LM - Chiari, Scrittura accademica 2010
31
Scarica

pdf delle slides