16/04/2010 PdE LM - Chiari, Scrittura accademica 2010 1 SCRITTURA ACCADEMICA E RISORSE BIBLIOGRAFICHE ONLINE Isabella Chiari PdE LM - Chiari, Scrittura accademica 2010 2 IL DATO LINGUISTICO E TESTUALE i corpora di riferimento della lingua italiana, corpora specialistici, corpora letterari. 1 16/04/2010 Tipologie di risorse digitali (online) 3 Corpora linguistici Portali ParlarItaliano Testi da varie fonti Corpora di lingua parlata, corpora di lingua scritta, corpora specialistici Repubblica, Corriere della Sera, La Stampa Biblioteche digitali Cd-rom e risorse LIZ Letteratura Italiana Zanichelli, TLIO PdE LM - Chiari, Scrittura accademica 2010 Principali corpora italiani 4 ITALIANO SCRITTO ITALIANO PARLATO LIF - Lessico di frequenza della lingua italiana contemporanea LIP - Lessico di frequenza dell'italiano parlato CORIS / CODIS Corpus Dinamico dell’Italiano scritto CLIPS - Corpora Linguistici per l'Italiano Parlato e Scritto COLFIS - Corpus e Lessico di Frequenza dell'Italiano Scritto LABLITA - Corpus di italiano parlato LA REPUBBLICA CORPUS (giornalistico) Integrated reference corpora for spoken romance languages (C-ORAL-ROM) Fakulteta za humanistične študije Koper, Univerza na Primorskem, Capodistria, Slovenia, 5 aprile 2007 - Isabella Chiari 2 16/04/2010 Altri corpora di italiano 5 ITALIANO SCRITTO ITALIANO PARLATO TLIO - Tesoro della lingua italiana delle origini (lettarario) CIT - Corpus di italiano televisivo LIZ - Letteratura Italiana Zanichelli (lettarario) LIR - Lessico di frequenza dell'italiano radiofonico BOnonia Legal Corpus (BolC) API/AVIP/IPar EUROTRA, EuroWordNet, PAROLE, SIMPLE l‟Italian Reference Corpus Child Language Data Exchange System (CHILDES) - italiano Banca dati di Italiano L2 Osservatorio Linguistico permanente dell'Italiano Diffuso fra Stranieri -Siena Fakulteta za humanistične študije Koper, Univerza na Primorskem, Capodistria, Slovenia, 5 aprile 2007 - Isabella Chiari Corpora di italiano scritto (1) 6 LIF Lessico di frequenza della lingua italiana contemporanea Lessico di frequenza della lingua italiana contemporanea (LIF), elaborato nel 1971 al cnuce (Centro Nazionale Universitario di Calcolo elettronico) di Pisa (cfr. Bortolini et alii , 1971). Si tratta del primo grande progetto di costruzione di un lessico di frequenza per la lingua italiana (non tagliato su un singolo autore o su testi specificatamente letterari). Il lessico contiene circa 5.000 lemmi ordinati per frequenza e secondo l'ordine alfabetico, tratti dallo spoglio di testi per un complesso di 500.000 parole. I testi che sono entrati a far parte del corpus sono datati tra il 1947 e il 1968, sono tutti testi scritti, presi da 5 fonti diverse (teatro, romanzi, cinema, periodici, sussidiari), a rappresentare diverse forme testuali alcune delle quali vicine al parlato. Il corpus non è disponibile per la consultazione né offline né online. PdE LM - Chiari, Scrittura accademica 2010 3 16/04/2010 Corpora di italiano scritto (2) 7 Corpus e Lessico di Frequenza dell'Italiano Scritto Corpus e Lessico di Frequenza dell'Italiano Scritto (ColFIS), costruito da Bertinetto, Burani, Laudanna, Marconi, Ratti, Rolando e Thornthon, è costituito da 3.150.075 occorrenze lessicali tratte da quotidiani, periodici e libri di varia natura bilanciate secondo le letture degli italiani. Al momento sono disponibili gratuitamente online le liste con il lemmario (non il corpus). http://www.istc.cnr.it/material/database/colfis/ PdE LM - Chiari, Scrittura accademica 2010 Progetto COLFIS 8 Rappresentatività italiano “medio” •Letture preferite dagli italiani •1992-1994 •differenziati per tipologia (quotidiani, periodici, libri) e per argomento (politica, letteratura, sport, ecc.). •il bilanciamento delle fonti, che conferisce un carattere di non casualità alle rilevazioni numeriche estraibili dall'archivio lessicale Estensione •3.798.275 parole Fakulteta za humanistične študije Koper, Univerza na Primorskem, Capodistria, Slovenia, 5 aprile 2007 - Isabella Chiari 4 16/04/2010 Bilanciamento Il corriere della sera La Repubblica 9 La Stampa altro arte scienza e tecnica auto e nautica bambini e ragazzi casa e hobby femminili LIBRI QUOTIDIANI • Circa 655.000 occorrenze • 13 generi letterari • Circa 1.800.000 occorrenze QUOTIDIANI economia cronaca locale fotoromanzi cronaca mondana informazione generale PERIODICI cronaca nera cronaca mondana • Circa 1.306.000 occorrenze politica estera radio e televisione politica interna sport scienza viaggi e ecologia spettacolo sport Fakulteta za humanistične študije Koper, Univerza na Primorskem, Capodistria, Slovenia, 5 aprile 2007 - Isabella Chiari Ricerca nel corpus 10 Fakulteta za humanistične študije Koper, Univerza na Primorskem, Capodistria, Slovenia, 5 aprile 2007 - Isabella Chiari 5 16/04/2010 “sai” nel COLFIS 11 Corpora di italiano scritto (2) 12 CORIS/CODIS Corpus di Italiano Scritto contemporaneo Corpus di Italiano Scritto contemporaneo (CORIS/CODIS): COrpus di Riferimento dell'Italiano Scritto (CORIS) elaborato e coordinato da R. Rossini Favretti, dal 1998. Formato da due corpus distinti. Il COrpus di Riferimento dell'Italiano Scritto ( Coris ) è stato elaborato con lo scopo di costruire un corpus generale dell'italiano scritto. Il corpus contiene 100 milioni di parole, e verrà aggiornato ogni due anni con nuovo materiale di controllo. I testi ivi contenuti sono prevalentemente di narrativa prodotta negli anni Ottanta e Novanta. Il corpus è elaborato con criteri linguistici molto rigorosi ed è per sua natura dinamico. Dal corpus generale si distinguono alcuni sottocorpora, rappresentanti delle diverse varietà dell'italiano scritto. Accanto al Coris si aggiunge il COrpus Dinamico dell'Italiano Scritto ( Codis ) che permette la selezione ed eventuale esclusione di sottocorpora considerati non rilevanti per specifiche ricerche. Il corpus è disponibile su cd-rom e per consultazione online. http://corpora.dslo.unibo.it/coris_ita.html PdE LM - Chiari, Scrittura accademica 2010 6 16/04/2010 CODIS Chiari, I. (2007), Introduzione alla linguistica computazionale, Laterza, Roma-Bari. Risultati in concordanza 14 Fakulteta za humanistične študije Koper, Univerza na Primorskem, Capodistria, Slovenia, 5 aprile 2007 - Isabella Chiari 7 16/04/2010 Corpora di italiano scritto (3) 15 ItWac ItWac, corpus di lingua italiana costituito da circa 1.909.535.984 parole (occorrenze). Il corpus è parzialmente bilanciato attraverso una serie di procedure di Web crawling, lemmatizzato con un lemmatizzatore di impianto statistico TreeTagger, interrogato attraverso il Corpus Query System di Sketch Engine. M. Baroni, A. Kilgarriff, Large linguistically-processed Web corpora for multiple languages, in Proceedings of the Eleventh Conference of the European Chapter of the Association for Computational Linguistics, Association for Computational Linguistics, 2006, pp. 87-90. http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/ http://ca.sketchengine.co.uk/auth/corpora/ PdE LM - Chiari, Scrittura accademica 2010 Il corpus di Repubblica 16 Corpus di Repubblica (SSLMIT, Baroni) Corpus delle 10 annate pubblicate fino al 1999 Annotato con Treetagger Circa 380 milioni di occorrenze http://dev.sslmit.unibo.it/corpora/ PdE LM - Chiari, Scrittura accademica 2010 8 16/04/2010 Tipologie testuali 17 La Repubblica news church, culture, economics, education, news, politics, commento science, society, sport, weather Fakulteta za humanistične študije Koper, Univerza na Primorskem, Capodistria, Slovenia, 5 aprile 2007 - Isabella Chiari Risultati in concordanza 18 Fakulteta za humanistične študije Koper, Univerza na Primorskem, Capodistria, Slovenia, 5 aprile 2007 - Isabella Chiari 9 16/04/2010 LA REPUBBLICA in sintesi 19 Pregi Difetti Trattamento Disegno • Lemmatizzato e analizzato morfologicamente (in modo automatico, Treetagger) • Non è un corpus di riferimento Interrogazione • Sintassi di interrogazione molto ricca (un po‟ complessa) Estensione • 380 milioni (grande per gli standard attuali) Distribuzione • Online gratuita Accesso corpus • Senza esportazione delle concordanze • Nessun accesso al testo integrale • Liste di frequenza non esportabili nella totalità Fakulteta za humanistične študije Koper, Univerza na Primorskem, Capodistria, Slovenia, 5 aprile 2007 - Isabella Chiari Corpora di parlato 20 LIP Lessico di frequenza dell'italiano parlato Lessico di frequenza dell'italiano parlato (LIP), curato da De Mauro, Mancini, Vedovelli e Voghera (1993) costituisce la controparte del lif per l'italiano parlato. Il corpus da cui è tratto è costituito da circa 500.000 parole grafiche, trascrizioni di registrazioni effettuate a Milano, Firenze, Roma e Napoli, pari a quasi 57 ore di parlato. Le tipologie del parlato rappresentate sono dialoghi faccia a faccia e non, a presa di parola libera e non, monologhi faccia a faccia e non. I lemmi sono consultabili secondo frequenza e secondo ordine alfabetico, vi è anche una lista di frequenza dei fonosimboli e delle polirematiche. Il volume del lessico è corredato da due dischetti che contengono le trascrizioni di tutti i testi del corpus, permettendo dunque a chi voglia svolgere ulteriori analisi l'accesso diretto ai materiali. http://languageserver.uni-graz.at/badip/badip/20_corpusLip.php PdE LM - Chiari, Scrittura accademica 2010 10 16/04/2010 Il lessico di frequenza del LIP 21 Fakulteta za humanistične študije Koper, Univerza na Primorskem, Capodistria, Slovenia, 5 aprile 2007 - Isabella Chiari Esempio: il testo RA1 (formato grezzo) 22 Fakulteta za humanistične študije Koper, Univerza na Primorskem, Capodistria, Slovenia, 5 aprile 2007 - Isabella Chiari 11 16/04/2010 Interrogazione BADIP Chiari, I. (2007), Introduzione alla linguistica computazionale, Laterza, Roma-Bari. Interrogazione BADIP 24 Fakulteta za humanistične študije Koper, Univerza na Primorskem, Capodistria, Slovenia, 5 aprile 2007 - Isabella Chiari 12 16/04/2010 Risultati 25 Fakulteta za humanistične študije Koper, Univerza na Primorskem, Capodistria, Slovenia, 5 aprile 2007 - Isabella Chiari Osservare le concordanze 26 Fakulteta za humanistične študije Koper, Univerza na Primorskem, Capodistria, Slovenia, 5 aprile 2007 - Isabella Chiari 13 16/04/2010 Usare i testi integrali 27 Fakulteta za humanistične študije Koper, Univerza na Primorskem, Capodistria, Slovenia, 5 aprile 2007 - Isabella Chiari Corpora di parlato (2) 28 API/AVIP/IPar API/AVIP/IPar sono progetti di raccolta di materiale fonico spontaneo di lingua italiana, cui hanno partecipato variamente il laboratorio di linguistica della Scuola Normale di Pisa, il CIRASS e l‟Orientale di Napoli, il Politecnico di Bari e l‟Università del Piemonte Orientale. I progetti sono conformi alle specifiche di codifica e annotazione di Eagles. Il materiale dei corpora (files e software) è disponibile su cd-rom, distribuiti dal CIRASS e via ftp sempre dal sito del CIRASS. Corpus LIPS – Italiano di stranieri "Il corpus LIPS raccoglie le trascrizioni dei testi tratti dall‟archivio delle prove d‟esame CILS - Certificazione di Italiano come Lingua Straniera dell‟Università per Stranieri di Siena. Dall‟archivio, che comprende tutte le prove dei candidati agli esami CILS a partire dalla prima sessione del 1993, sono state estratte circa 2000 prove di diversi candidati accomunati dal fatto di avere svolto almeno due prove in successione delle sei prove CILS. Al momento attuale, il corpus selezionato comprende circa 70 ore di parlato, che, una volta trascritto, ha raggiunto le 530.000 occorrenze di forme di unità lessicali." PdE LM - Chiari, Scrittura accademica 2010 14 16/04/2010 Corpora di parlato (3) 29 CLIPS - Corpora Linguistici per l'Italiano Parlato e Scritto Corpora Linguistici per l'Italiano Parlato e Scritto (CLIPS) (audio, etichettatura e documentazione) è pubblico, l‟accesso e il download completo del materiale per finalità scientifiche sono gratuiti. CLIPS consiste di circa 100 ore di parlato, equamente ripartito tra voci maschili e voci femminili, in parte trascritto ortograficamente e etichettato foneticamente. Le registrazioni sono state effettuate in 15 località italiane scelte in base a criteri di rappresentatività linguistica e socioeconomica: Bari, Bergamo, Bologna, Cagliari, Catanzaro, Firenze, Genova, Lecce, Milano, Napoli, Palermo, Parma, Perugia, Roma, Venezia. La documentazione, i protocolli di raccolta e di annotazione del materiale tengono conto delle direttive del progetto EAGLES. PdE LM - Chiari, Scrittura accademica 2010 CLIPS 30 Progetto • diretto da Federico Albano Leoni • 1999-2004 • voci maschili e voci femminili, in parte trascritto ortograficamente e etichettato foneticamente Struttura • 100 ore di parlato • Distribuzione sia dell‟audio sia delle trascrizioni Località • 15 località italiane • Bari, Bergamo, Bologna, Cagliari, Catanzaro, Firenze, Genova, Lecce, Milano, Napoli, Palermo, Parma, Perugia, Roma, Venezia Fakulteta za humanistične študije Koper, Univerza na Primorskem, Capodistria, Slovenia, 5 aprile 2007 - Isabella Chiari 15 16/04/2010 Tipologie testuali 31 a) parlato radiotelevisivo • (notiziari, interviste, talk shows); b) parlato dialogico • (240 dialoghi raccolti secondo le modalità del map task e del „gioco delle differenze‟, dei quali 30 etichettati foneticamente, 90 trascritti ortograficamente, studenti universitari); c) parlato letto da parlanti non professionisti • (20 frasi atte a garantire la copertura delle frequenze medio-alte del lessico italiano); d) parlato telefonico • (conversazioni tra circa 300 parlatori e un portiere d‟albergo simulato) e) parlato letto da 20 parlanti professionisti Fakulteta za humanistične študije Koper, Univerza na Primorskem, Capodistria, Slovenia, 5 aprile 2007 - Isabella Chiari www.clips.unina.it 32 Fakulteta za humanistične študije Koper, Univerza na Primorskem, Capodistria, Slovenia, 5 aprile 2007 - Isabella Chiari 16 16/04/2010 <inspiration> in realtà la cultura svedese , è come se in qualche modo un po' ha sempre un po<oo>' <inspiration> <eh> subito una<aa> <inspiration> una un po' una mancanza di fiducia in se stessa e quindi si è sempre nutrita di modelli , che in negli anni sessanta principalmente erano fondamentalmente l'America <inspiration> Fakulteta za humanistične študije Koper, Univerza na Primorskem, Capodistria, Slovenia, 5 aprile 2007 - Isabella Chiari 33 CLIPS in sintesi 34 Pregi Difetti Trascrizione e Annotazione Estensione • Ortografica, fonetica e fonologica • Standardizzata Eagles • Grande per indagini fonetiche, ma piccolo per gli altri livelli Distribuzione Interrogazione e annotazione • Online gratuita • Accesso al corpus integrale (scaricabile) • Accesso anche all‟audio • Software per le analisi gratuiti online • Documentazione dettagliata • Nessuna annotazione grammaticale (attualmente) Accesso corpus • Mediante Ftp (un po‟ lento) Fakulteta za humanistične študije Koper, Univerza na Primorskem, Capodistria, Slovenia, 5 aprile 2007 - Isabella Chiari 17 16/04/2010 Corpora di parlato (4) 35 Lessico di frequenza dell'italiano radiofonico (LIR) Lessico di frequenza dell'italiano radiofonico (LIR) è un progetto di analisi del lessico e del corpus del parlato radiofonico, diretto da Nicoletta Maraschio, in 2 DVD ed è pubblicato dall'Accademia della Crusca."I due DVD contengono due corpora di italiano radiofonico raccolti a quasi dieci anni di di-stanza, una prima volta nel 1995 e poi nel 2003. Il corpus del LIR1 (1995) raccoglie circa 64 ore di parlato radiofonico, trascritto e in voce, registrato da nove radio a diffusione nazionale [...] può essere interrogato grazie a un potente motore di ricerca come il DBT di Eugenio Picchi" (Maraschio, Stefanelli) PdE LM - Chiari, Scrittura accademica 2010 Corpora di parlato (5) 36 Corpora di LABLITA LABLITA dal 1973 si occupa della raccolta e gestione di corpora con lo standard di trascrizione chat (cfr. Childes). Si tratta di un insieme di corpora composto da: 1) un corpus di italiano parlato spontaneo adulto che raccoglie circa 120 testi che riguardano situazioni comunicative diafasiche diverse per un totale di 60 ore; 2) un corpus della lingua dei media (cinema, radio e televisione); 3) un corpus di 100 ore di italiano registrato nella fase del primo apprendimento (in bambini di 18-36 mesi). In questo corpus i testi sono trascritti, ma l'audio è disponibile in formato digitalizzato (wav). Indicazioni e materiali si trovano nei due volumi accompagnati da cd-rom multimediale: Emanuela Cresti (2000), Corpus di italiano Parlato , Accademia della Crusca. http://lablita.dit.unifi.it/ PdE LM - Chiari, Scrittura accademica 2010 18 16/04/2010 Annotazioni e distribuzione 37 Audio • In questi corpora i testi sono trascritti, ma l‟audio è disponibile in formato digitalizzato (.wav). Trascrizioni • Le trascrizioni sono in formato CHAT (cfr. Childes) Distribuzione • A richiesta • Non interrogabili online Fakulteta za humanistične študije Koper, Univerza na Primorskem, Capodistria, Slovenia, 5 aprile 2007 - Isabella Chiari 38 C-ORAL-ROM Integrated reference corpora for spoken romance languages E. Cresti - M. Moneglia 2005 comparable set of corpora of spontaneous spoken language for the main romance languages, namely French, Italian, Portuguese and Spanish 300,000 words for each language Fakulteta za humanistične študije Koper, Univerza na Primorskem, Capodistria, Slovenia, 5 aprile 2007 - Isabella Chiari 19 16/04/2010 Caratteristiche C-ORAL-ROM 39 Comparabilità tra le quattro lingue romanze Distribuzione di Audio e trascrizione Allineamento di audio e trascrizione con software (WinPitch) tagging prosodico & grammaticale Fakulteta za humanistične študije Koper, Univerza na Primorskem, Capodistria, Slovenia, 5 aprile 2007 - Isabella Chiari C-ORAL-ROM design 40 Fakulteta za humanistične študije Koper, Univerza na Primorskem, Capodistria, Slovenia, 5 aprile 2007 - Isabella Chiari 20 16/04/2010 Che in C-ORAL-ROM 41 Fakulteta za humanistične študije Koper, Univerza na Primorskem, Capodistria, Slovenia, 5 aprile 2007 - Isabella Chiari 42 Fakulteta za humanistične študije Koper, Univerza na Primorskem, Capodistria, Slovenia, 5 aprile 2007 - Isabella Chiari 21 16/04/2010 C-ORAL-ROM in sintesi 43 Pregi Difetti Trascrizione e Annotazione Estensione • Ortografica • Annotazione prosodica e grammaticale • Standardizzata CHAT • Esportazione di concordanze e liste selezionate • Piccola per indagini diverse da fonetica e prosodica Interrogazione Distribuzione • Non si possono interrogare sequenze • Accesso al corpus integrale • Accesso anche all‟audio • Software per le analisi gratuiti online • Documentazione dettagliata Accesso corpus • A pagamento su cd-rom Fakulteta za humanistične študije Koper, Univerza na Primorskem, Capodistria, Slovenia, 5 aprile 2007 - Isabella Chiari Corpora di parlato (6) 44 Corpus di italiano televisivo Corpus di italiano televisivo (CIT) sarà composto da 250.000 parole, e successivamente è programmato un ampliamento del corpus a 500.000 parole per una maggiore omogeneità con altri corpora italiani di lingua scritta (LIF) e parlata (LIP). I testi prescelti sono tratti da trasmissioni originali non di fiction, tratte da diverse categorie di attualità, intrattenimento, pubblicità, sport e telegiornali. Il Cit è annotato secondo gli standard della Text Encoding Initiative (TEI). http://www.sspina.it/cit/cit.htm PdE LM - Chiari, Scrittura accademica 2010 22 16/04/2010 Il portale ParlarItaliano 45 PARLARITALIANO.IT è un portale di riferimento per lo studio su corpora parlati, coordinato da Miriam Voghera. Dalla presentazione: "è il primo osservatorio nazionale sul parlato italiano costituito nel 2004 da dieci gruppi di ricerca di otto diversi Atenei italiani Parlare italiano ha lo scopo di offrire strumenti teorici e applicativi per la diffusione e migliore conoscenza della lingua italiana, con particolare attenzione alla didattica dell‟italiano come lingua straniera. Nel sito Parlare italiano potrete trovare un ampio spettro di ricerche sul parlato che garantiscono la massima pubblicità dei corpora sui cui si lavora, dei metodi e delle tecniche di analisi" http://www.parlaritaliano.it/parlare/ PdE LM - Chiari, Scrittura accademica 2010 46 Piccola “guida” all‟uso dei corpora nella ricerca linguistica 23 16/04/2010 Analisi comparativa 47 LIP CLIPS COLFIS LA REPUBBLICA Analisi fonetiche Analisi morfosintattiche CORIS/CODIS () Analisi lessicali C-ORALROM () () Accesso al testo integrale Accesso ai sottocorpora Gratuito Accesso online Le interrogazioni sui quotidiani 48 La Repubblica Corriere della sera http://www.repubblica.it/ http://archiviostorico.corriere.it/ La Stampa http://archivio.lastampa.it/ PdE LM - Chiari, Scrittura accademica 2010 24 16/04/2010 49 PdE LM - Chiari, Scrittura accademica 2010 50 PdE LM - Chiari, Scrittura accademica 2010 25 16/04/2010 PdE LM - Chiari, Scrittura accademica 2010 51 52 Le biblioteche digitali PdE LM - Chiari, Scrittura accademica 2010 26 16/04/2010 Biblioteche digitali 53 Liber Liber, progetto Manuzio http://www.liberliber.it/ L'associazione Liber Liber promuove il progetto Manuzio, che ha per scopo la fondazione di una biblioteca telematica ad accesso gratuito. I libri sono prelevabili direttamente via Internet, oppure si possono ottenere su CDROM (i CDROM vengono spediti ai sostenitori di Liber Liber). Disponibili anche alcuni atti pubblici (come i verbali della Commissione Parlamentare Antimafia), tesi di laurea, riviste (Studi storici, Spolia), ecc. Biblioteca della Letteratura Italiana http://www.letteraturaitaliana.net/ Realizzato da Pianetascuola in collaborazione con l'editore Einaudi, questo sito Internet si pone come obiettivo quello di rispondere ai bisogni di una scuola che sta sperimentando nuove tecnologie e nuovi contenuti. Le caratteristiche salienti sono: materiali forniti gratuitamente; qualità dei testi; semplicità di utilizzo. Ben fatte le schede sugli autori. Il formato degli e-book è PDF, che - se pure facile da usare - è un formato proprietario (non standard e non evoluto come l'XML). PdE LM - Chiari, Scrittura accademica 2010 54 Biblioteca Italiana http://www.bibliotecaitaliana.it/ Una biblioteca digitale di testi della tradizione culturale e letteraria italiana, promossa e gestita dal “Centro interuniversitario Biblioteca italiana telematica” (CIBIT), per opera della sua unità attiva presso l‟Università di Roma La Sapienza, e da “Testi Italiani in Linea”. Si candida a divenire il principale progetto di biblioteca telematica finanziata pubblicamente. PdE LM - Chiari, Scrittura accademica 2010 27 16/04/2010 PdE LM - Chiari, Scrittura accademica 2010 55 56 Cd-rom e risorse online di tipo letterario TLIO, LIZ, ecc. PdE LM - Chiari, Scrittura accademica 2010 28 16/04/2010 TLIO Tesoro della lingua italiana delle origini 57 Tesoro della lingua italiana delle origini (TLIO) è un database testuale (nato nel 1995 e inaugurato nel 1998) composto da circa 1.780 testi per circa 20 milioni di parole, tratte da scritti in lingua italiana prima del 1375, in prosa e in poesia. Una prima versione della banca dati fu implementata in dbt di Eugenio Picchi. Il database è interrogabile online con registrazione gratuita al sito dell'Istituto Opera del Vocabolario Italiano (OVI): È pubblicato qui in corso di redazione il Tesoro della Lingua Italiana delle Origini (TLIO), prima sezione cronologica del vocabolario storico italiano. Una selezione delle stesse voci viene stampata nel Bollettino dell'OVI; la versione in rete può essere aggiornata rispetto alla versione a stampa. Nuove voci vengono aggiunte periodicamente, col procedere della redazione. Alla fine del 2009 è stato raggiunto un totale di circa 20.500 voci http://tlio.ovi.cnr.it/TLIO/ PdE LM - Chiari, Scrittura accademica 2010 58 PdE LM - Chiari, Scrittura accademica 2010 29 16/04/2010 Le Banche Dati dell'Opera del Vocabolario Italiano 59 Le Banche Dati sono consultabili con accesso libero e gratuito. Corpus OVI dell'Italiano antico: è il corpus sul quale si redige il Tesoro della Lingua Italiana delle Origini. Si può consultare anche per lemmi. TLIO Corpus TLIO aggiuntivo: contiene testi destinati ad entrare nel Corpus OVI dell'Italiano antico, provvisoriamente non lemmatizzati. Aggiuntivo PdE LM - Chiari, Scrittura accademica 2010 60 PdE LM - Chiari, Scrittura accademica 2010 30 16/04/2010 LIZ Letteratura Italiana Zanichelli 61 LIZ 4.0. LETTERATURA ITALIANA ZANICHELLI CDROM dei testi della letteratura italiana. Quarta edizione per Windows. A cura di Pasquale Stoppelli ed Eugenio Picchi. Sistema di interrogazione DBT in collaborazione con il Consiglio Nazionale delle Ricerche. Con il volume Schede di letteratura italiana; 1000 opere, 245 autori, 2001 http://www.zanichelli.it/index.asp PdE LM - Chiari, Scrittura accademica 2010 31