Facoltà di Scienze Statistiche - Università di Roma “La Sapienza” Giornata di studio su Applicazioni di analisi testuale Roma - 16 dicembre 2003 L'analisi statistica dei dati testuali: intrecci problematici e prospettive Sergio Bolasco (Univ. di Roma "La Sapienza") La statistica testuale nasce nel mezzo degli sviluppi dell'analisi automatica dei testi (Text Analysis): questa circostanza condiziona non poco la sua evoluzione, come cercherò di evidenziare nel seguito. Per brevità, ricostruisco qui la storia di tali sviluppi intrecciati, procedendo schematicamente per punti, con gli opportuni rimandi ai principali riferimenti in letteratura. 1. G.K. Zipf1 [1935, 1949], G.U. Yule [1944], P. Guiraud [1954], G. Herdan [1956-64] sono fra i pionieri della moderna analisi quantitativa in ambito linguistico e delle sue proprietà e applicazioni statistiche. 2. J.P. Benzecri [1963_Leçons; 1973_LaTaxinomie-Correspondances; 1981_PAD_Lexicologie; 1986_ PAD_Medicine] fonda sullo studio di dati linguistici le sue prime sperimentazioni di quella che sarà l'analyse des données [1982_Histoire & Prehistoire], contrapponendosi alle tesi di N. Chomsky2 e inseguendo Z.S. Harris3, che rappresenta, quanto a formalizzazione di strutture linguistiche della scomposizione sintagmatica della frase, un riferimento assai vicino ad un approccio statistico sul trattamento del linguaggio naturale. 3. Ch. Muller [1973, 1977], M. Tournier [1980] e P. Lafon [1980, 1984], sviluppano indici e misurazioni divenute classiche nella statistica linguistica e nella statistica lessicale. Sviluppi analoghi sono proposti da R. Busa [1987] riguardo l'informatica linguistica. 4. In parallelo, in Italia A. Zampolli e T. De Mauro, attraverso il loro interesse per le misure di frequenza d'uso delle parole (a livello di lemmi), mettono le basi per una linguistica quantitativa, sviluppando le prime risorse statistico-linguistiche (lessici di frequenza: LIF: Bortolini & Zampolli [1971]; VdB, VELI, LIP, De Mauro [1980, 1989, 1993]). 5. Via via dall'interesse per i testi veri e propri (ad esempio i classici della letteratura, vedi gli studi stilometrici sull'opera di un Autore come quelli di R. Busa [1974-1980], di E. Brunet [1981, 1986, 1988] o di D. Labbé [1990, 20034]) si passa allo studio di testi "artificiali" (non testi) o, per dirla 1 Cfr. il sito http://linkage.rockefeller.edu/wli/zipf/ . 2 Chomsky sostiene che la linguistica non può essere induttiva, nel senso che la grammatica non può essere dedotta da regole trovate di fatto su un insieme di testi (corpus), ma solo deduttiva, quindi solo partendo da assiomi essa genera dei modelli delle lingue concrete (H&P, p.102). Come noto, Chomsky tende a creare una teoria grammaticale completa ed organica, la cosiddetta grammatica generativa con relative teorie trasformazionali (Syntactic structures, 1957). 3 In Elementary transformations (1954), Harris chiama distribuzione di una parola l'insieme dei suoi possibili contesti locali. In Le strutture matematiche del linguaggio (1968), egli sostiene che il discorso si presta ad una analisi distributiva indipendentemente dal senso; egli propone di determinare le regole combinatorie della lingua allo scopo di rivelare le relazioni elementari fra differenti classi di concetti presenti in un corpus. A tal fine, "occorre integrare al trattamento quantitativo del corpus un'analisi morfo-sintattica dei dati testuali, ossia introdurre algoritmi di descrizione delle frasi che consentono di segmentare gli enunciati del testo nei loro costituenti sintagmatici, poi di identificarli e infine di esplicitare i loro rapporti interni" (Martinez, 2003, p. 275). 4 " … Nous avons la preuve que Corneille a probablement écrit beaucoup des pièces de Molière …" [da Le Monde, 11/6/03] è ciò che afferma Labbé in un articolo del Journal of Quantitative Linguistics (JQL) del dicembre 2001 a partire da una prossimità eccezionale del vocabolario tra una commedia di Corneille, Le Menteur, scritta nel 1644, e sedici pièces di Molière [Labbé, 2003]. 1 meglio, all'interesse verso i dati espressi in linguaggio naturale provenienti dalle fonti più diverse: indagini sul campo (domande aperte o interviste); analisi di frammenti o testi corti (abstract, bibliografie, manifesti, messaggi), raccolti in una collezione di documenti costituente un corpus di dati testuali. 6. Alla fine degli anni '80, L. Lebart e A. Salem [1988, 1994, 1998] definiscono i confini della statistica testuale basata sull'analisi per forme grafiche (non più per lemmi) ed in parallelo sviluppano software per l'analisi dei dati testuali (Spad_T: metodi multidimensionali, analisi di matrici sparse con calcolo degli autovalori in lettura diretta [Lebart, 1982]; Lexico: individuazione nel corpus dei segmenti ripetuti; analisi delle specificità, anche cronologiche, basate sulla legge ipergeometrica). 7. Le analisi di dati testuali centrate sulle forme grafiche sono indipendenti dalla lingua. Si tratta di un approccio puramente formale che privilegia i segni (significanti) per arrivare al senso (in quanto insieme di significati) come rappresentazione del contenuto/discorso. Il segno linguistico, come noto, è composto di un significante distinto dal punto di vista "fonico" (parlato) e/o "grafico" (scritto) e di un significato a sua volta distinto dal punto di vista della "forma" (come classe "sintattica": grammatica, morfologia e sintassi) e della "sostanza" (come classe "semantica"). L'analisi statistica, secondo i cosiddetti formalisti, è condotta a prescindere dal significato delle unità di testo. Il senso (significato/accezione) di una parola è determinato dalle parole che la circondano (asse sintagmatico), dalla selezione delle altre parole che possono rimpiazzarla nella stessa frase (asse paradigmatico); ossia è determinato dalla capacità di una parola di combinarsi con altre parole, dall'insieme delle parole che possono essere sostituite fra loro nel sintagma, senza modificare la struttura dell'enunciato, poiché "funzionano" in maniera equivalente [Martinez, 2003]. Il senso sottostante un testo/discorso, di cui s'intende dare una rappresentazione con metodi statistici, è costituito dal sistema dei significati che "si tiene" (come una sorta di un ecosistema) sulla base dell'insieme delle co-occorrenze nell'intero corpus di dati testuali. 8. J.P. Benzécri [Addad, 1981], A. Salem [Lexicloud, 1985] e M. Reinert [Alceste, 1986, 2003] mostrano che partendo da un'analisi puramente formale si arriva a cogliere la struttura del senso presente nel corpus di testi. Da un'analisi di tipo paradigmatico si può ottenere una rappresentazione della struttura sintagmatica presente nel testo (è il caso dei sintagmi latenti o "frasi modali" ottenibili attraverso un'analisi fattoriale [Bolasco, 1999], utilizzabili come modelli di senso del contenuto/discorso). L'ambiguità insita nel linguaggio naturale viene risolta attraverso l'analisi complessa di grandi matrici di dati testuali grazie ai metodi e alle tecniche di analisi multidimensionale (analisi delle corrispondenze, cluster analysis, analisi discriminante, multidimensional scaling). Tali analisi, misurando la similarità di profili lessicali, producono rappresentazioni contestuali dell'informazione testuale. Tali rappresentazioni si traducono in visualizzazioni nelle quali vale il principio gestaltico "vicinanza/somiglianza" delle unità lessicali (sia semplici "parole", sia lessie complesse) che consente di coglierne l'accezione interna al corpus investigato. Esempi di ciò, si trovano più recentemente nell'approccio della Semiometria [L. Lebart et al. 2003] o in quello dell' Analisi emozionale del testo [R. Carli e R.M. Paniccia, 2002] 5. 9. Le matrici di dati testuali mettono in corrispondenza, nel tradizionale ruolo di individui e di variabili, ora parole, ora frammenti di testo (proposizioni, enunciati), ora sub-testi (raggruppamenti 5 Per questi due approcci si vedano rispettivamente i lavori di Camillo & Tosi e di Dolcetti & Battisti in questo volume. 2 di frammenti di testo omogenei da qualche punto di vista, ossia elementi in relazione di equivalenza fra loro). In particolare, si definiscono almeno tre tipi diversi di matrici: frammenti × forme (dati booleani); forme × testi (dati di frequenza); forme × forme (grafi di relazione tra co-occorrenze, con informazione booleana o pesata). Queste matrici inducono analisi assai diverse fra loro. 9.1 Le strategie di analisi statistica che consentono di trasformare i dati in informazione si fondano su: - una scelta di unità d'analisi lessicali che assicurino una copertura del testo adeguata (> 70-75%); - un'analisi di carattere esplorativo per produrre rappresentazioni del testo, mediante: a) visualizzazione -sui piani fattoriali dell'analisi delle corrispondenze binarie- delle principali relazioni di similarità tra profili lessicali (in termini di co-occorrenza fra parole); b) classificazione delle unità di contesto (spesso trattasi delle stesse unità di rilevazione o records, quali risposte/messaggi di individui, documenti/articoli di stampa o altri frammenti di testo/testi corti) in grado di evidenziare differenti universi lessicali o domini terminologici (ciò avviene ad es. in Alceste, mediante un metodo di classificazione gerarchica discendente); - uno studio della variabilità del lessico secondo partizioni a priori del corpus (sulla base di variabili categoriali) in una logica di analisi non simmetrica (ANSC) [Lauro e D'ambra, 1984] o di analisi "discriminante" (analisi fattoriale + clustering ascendente su tabelle di frequenza parole × testi) o di analisi delle specificità (anche cronologiche); - un'interpretazione dei risultati secondo i canoni classici dell'analisi multidimensionale per dati numerici. 10. Negli stessi anni, accanto a questa tradizione statistica di tipo "formalista", i linguisti di tradizione harrisiana sistematizzano la formalizzazione linguistica di particolari classi di parole (ad es. tavole dei verbi [M. Gross, 1968; A. Elia, 1984]), di forme composte (avverbi e preposizioni: L.A.D.L. a Paris VI, Istituto di Linguistica a Salerno) e sviluppano strumenti concreti di lessicografia e linguistica computazionali6, privilegiando i dizionari elettronici e gli automi/trasduttori a stati finiti per la descrizione di grammatiche locali [Intex di M. Silberztein, 1993; C. Fairon, 1999; S. Vietri e A. Elia, 2001]. 11. I linguisti quantitativi, cimentandosi nei primi tentativi di lemmatizzazione automatica, mettono a punto nuovi lessici di frequenza: in Italia, grazie ad un lemmatizzatore dell'IBM, T. De Mauro costruisce un prototipo di vocabolario elettronico della lingua italiana (Veli) [1989] e un lessico dell'italiano parlato (Lip) [1993], e L. Marconi -con altri ricercatori del CNR di Genovamette a punto un lessico dell'italiano scritto e letto dai bambini delle elementari [1993]. Più recentemente, J. Sinclair [1991] e D. Biber [1998], autorevoli esponenti della Corpus Linguistics, propongono un approccio corpus-based, orientato all'analisi di vasti databases di esempi reali di linguaggio memorizzati su computer, dal quale trarre gli usi del linguaggio scritto o parlato. Per la messa a punto di corpora di riferimento annotati si rimanda agli esempi riportati in nota7. 6 Per una panoramica sugli sviluppi più recenti di queste aree di ricerca e relativi strumenti, si veda l'interessante contributo di Isabella Chiari (2004). 7 Per un riferimento generale cf. http://helmer.hit.uib.no/corpora/sites.html; vedi anche WebCorp: http://www.webcorp.org.uk - "Our WebCorp tool allows you to treat the web as a corpus, extracting concordance lines and word lists from it. BNC Indexer is a tool for those who want/need to use the BNC [British National Corpus]". Per l'italiano si veda all'interno del lavoro di tesi di Matteo Negri in http://tcc.itc.it/people/negri/groan/node2.html ; per un esempio di italiano televisivo cf. http://www.sspina.it/cit/annotazione.htm che rispetta gli standard della Text Encoding Initiative (TEI), nata nel 1987 in seno a tre associazioni accademiche che si occupano del rapporto tra studi umanistici e informatica (Association for Computers and the Humanities, Association for Computational Linguistics, e Association for Literary and Linguistic Computing). Nel 1994 la TEI ha pubblicato la prima versione delle sue Guidelines (P3); nel 2000 la TEI si è trasformata in un consorzio ed ha pubblicato la nuova versione delle Guidelines (P4), compatibile con il linguaggio XML. Per l'italiano parlato, infine, si veda anche http://languageserver.uni-graz.at/badip/badip/home.php . 3 12. In parallelo a questi contributi, nell'ambito della statistica testuale, cresce l'attenzione a considerare per lo studio dei testi un' unità di analisi mista: forma testuale [forma/lemma/poliforme Bolasco, 1990], o lessia nel senso di B. Pottier [1992], come particella minimale di senso. La ridondanza dei segmenti ripetuti [Salem, 1987] viene messa in discussione, scorporando le occorrenze delle sequenze lessicalizzate dalle occorrenze delle parole che le hanno generate. Vengono individuate polirematiche8 e altre locuzioni grammaticali (avverbiali, preposizionali, aggettivali ecc.) presenti nel testo, che -una volta isolate- permettono di abbassare drasticamente il livello di ambiguità delle parole, prima della lemmatizzazione. In quest'ottica, viene messo a punto un lessico di frequenza di poliformi [Bolasco & Morrone, 1998], come riferimento per l'italiano standard. 13. Così facendo, si aprono nuovi problemi e conflitti, non già fra scuole di pensiero (come accadde fra i sostenitori dell'analisi per lemmi e quelli per forme), bensì per la difficoltà di poter confrontare efficacemente risultati di analisi diverse, in assenza di standard. Infatti persistono: - 1) differenti criteri di normalizzazione dei testi ["Le Machinal" in Lafon et al. 1985, Labbé 1990], - 2) differenti insiemi/classi di espressioni/forme composte, nel parsing di unità di tipo misto, - 3) criteri diversi nel lemmatizzare (es. participio/aggettivo). La diffusione di corpora di riferimento tende a risolvere alcuni di questi problemi (cf. punto 11). 13.1 Soprattutto in questi ultimi dieci anni, al fine di migliorare l'estrazione di informazione dai testi [Bolasco et al., 2004] si integra la strategia di analisi del punto 9 con la raccolta di metainformazioni sui dati testuali [Bolasco, 1998, 2002], mediante: - un'estrazione di termini del vocabolario del corpus definibili come linguaggio peculiare per contrasto con un lessico di riferimento, le cui frequenze sono da assumersi come valori attesi; - una categorizzazione delle unità lessicali con diversi criteri (liste di stop words, classi di parole per categorie grammaticali [sostantivi, verbi, aggettivi e avverbi] e/o per classi d'interesse [morfologiche, semantiche] o per funzione sintattica [soggetto, predicato ecc.], nomi di persone, toponimi, altre_entità [sigle, date, numeri, valute ecc.], tipo di lessico [originale, sovra/sottoutilizzato, banale]); - una descrizione delle costanti del testo, in termini del suo imprinting (incidenza percentuale di classi di parole) in grado di differenziare i testi, di individuarne il tono (discorso astratto/concreto, positivo/negativo) o di selezionare il codice del materiale testuale (lessico parlato/scritto, il genere dell'autore ecc.) [Bolasco & Canzonetti, 2003; Bolasco & della Ratta-Rinaldi, 2004]. 14. L'incessante crescita delle risorse informatiche dimostra che ogni 2-3 anni le dimensioni dei testi analizzabili con un personal computer si decuplica: nel 1995 analizzo corpus di 400mila occorrenze (Tpg) [Bolasco, 1996], nel 1998 di 4 milioni (Polif), nel 2000 di 25 milioni (l'annata di un quotidiano) e nel 2003 di oltre 250 milioni di occorrenze (DB_Rep90 [Bolasco & Canzonetti, 2003]. Quest'ultimo corpus produce un vocabolario di oltre 1 milione di forme grafiche diverse (non tutte necessariamente parole) e un inventario con 4,5 milioni di segmenti ripetuti (non tutti poliformi), a soglia di 20 occorrenze: un'immensa miniera di dati su cui sviluppare la linguistica da corpus). Nel 2006 … dove arriveremo? 14.1 Con queste prospettive di crescita, si deduce che solo lo studio in profondità del significato del testo può dare robustezza all'analisi automatica del testo. Con la crescita delle risorse linguistiche disponibili (oltre ai dizionari elettronici, qui ci si riferisce alla costruzione di basi di conoscenza [wordnet: http://www.cogsci.princeton.edu/~wn/], di thesauri, di ontologie, indispensabili a rappresentare domini particolari; così come all'allineamento di dizionari multilingue per la traduzione automatica 8 cf. Bolasco (1999, p. 196). 4 [eurowordnet: http://www.illc.uva.nl/EuroWordNet/]), questo obiettivo comincia a diventare una realtà praticabile9 e lo sarà sempre di più in futuro. 14.2 In quest'ottica, un ulteriore riferimento è costituito dai lavori sull' Information Extraction di alcuni dipartimenti di Intelligenza Artificiale; fra gli altri, i contributi di M.T. Pazienza [1999, 2003] dell'Università "Tor Vergata" di Roma. 15. In questo contesto, dalla metà degli anni '90, si sviluppano le tecnologie di Text Mining (TM) che servono a far fronte all'eccesso di informazione, di cui tutti oramai "soffriamo" nel nostro agire quotidiano. Si tratta di tecnologie e procedure utili soprattutto alle aziende/istituzioni che mettono in concatenazione azioni di Information Retrieval e di Information Extraction. Tali procedure sono possibili solo dopo un trattamento "in profondità" del linguaggio naturale (NLP) e con l'ausilio di tecniche statistiche tipiche del Data Mining. In generale, un'attività di TM presuppone l'esistenza di un document warehouse (DW) come corpus da analizzare [Sullivan, 2001]. L'interesse di trasformare un insieme di testi non strutturati in un insieme di dati strutturati (spesso allocati in un database tradizionale) dai quali estrarre un'informazione che produca valore per l'azienda/istituzione è sviluppato in una logica di Knowledge Management e di Business Intelligence [Sirmakessis, 2003]. I campi applicativi privilegiati nel TM sono: • CRM: classificazione e indirizzamento automatico delle e-mail, nella gestione dei rapporti con la clientela, mediante integrazione di tecnologie statistiche di classificazione (basate su parole chiave o analisi di concetti) e tecnologie linguistiche di estrazione dell'informazione, basate sulla comprensione del testo contenuto nel messaggio; • Customer Opinion Survey: analisi automatica delle segnalazioni e/o reclami pervenuti per telefono o posta elettronica; monitoraggio costante delle opinioni espresse dai clienti in forum di discussione virtuale, come newsgroup e chat; analisi di domande aperte nelle survey quali/quantitative; • Gestione delle risorse umane: controllo della motivazione aziendale a partire dall'analisi automatica delle opinioni espresse dai dipendenti in occasione di apposite rilevazioni; analisi dei curriculum vitae on-line per l'estrazione di specifici skills professionali; • Osservazioni sulla concorrenza e sull'utenza: monitoraggio della situazione del mercato – sia in termini di potenziali clienti che di concorrenti – mediante il reperimento sul Web di liste di aziende, corredate dalle informazioni desiderate; analisi dell’immagine dell’azienda così come emerge dall’esame automatico di notizie e articoli; • Technology Watch e analisi dei brevetti: ricerca e archiviazione sistematica di informazioni sulle tecnologie esistenti per l’identificazione dei settori in maggiore sviluppo; analisi automatica delle informazioni testuali contenute nei brevetti per identificare settori di ricerca emergenti; • Analisi di basi documentali settoriali (economico-finanziarie, giuridiche, epidemiologiche, medico-farmaceutiche ecc.) con estrazione automatica di contenuti (per parole chiave o per concetti), riconoscimento di argomenti e relativa categorizzazione semantica; • Natural Language Processing: costruzione di risorse linguistiche e di basi di conoscenza specifiche (dizionari, grammatiche, liste di termini tipici di un determinato settore o argomento) e predisposizione di sistemi per la gestione di interrogazioni in linguaggio naturale, ad esempio nell'ambito di sistemi di e-government. 16. Dalle applicazioni di TM finora sviluppate emerge che: 9 Dal centro ricerche IBM di Pisa sono nate negli anni 1980-1990, a livello d'industrializzazione della lingua, società (Synthema, Expert System e Celi) in grado di sviluppare tali risorse, assai costose, per l'elaborazione del linguaggio naturale (NLP). 5 - la messa a punto dei supporti al NLP è fortemente time consuming (le basi di conoscenza, le regole di associazione, le ontologie sono dipendenti dal dominio applicativo e devono essere costruite ad hoc); una volta popolato il database strutturato a partire dal document warehouse non strutturato, non sempre si utilizzano tecniche statistiche di sintesi e di ulteriore estrazione dell'informazione. 17. Il Text Mining è quindi un'applicazione specifica di Text Analysis (TA) ed in sostanza costituisce solo una delle possibili finalizzazioni di un'analisi testuale. La statistica testuale riveste una funzione cruciale nel TM per il successo dell'applicazione, ma dipende dagli sviluppi che, a monte di essa, vengono posti in essere per realizzare l'analisi automatica del testo. 18. Fonti e strumenti. Contributi significativi riguardanti l'intero settore di studi e ricerche in TA e TM sono in riviste quali, fra le altre: Cahiers de Lexicologie, Computers and Humanities, ACM Computing Surveys, Journal of Quantitative Linguistics, Linguisticae Investigationes, Literary and Linguistic Computing, Mots, Semiotica, TAL. Fra le riviste on-line da segnalare: Lexicometrica (http://www.cavi.univ-paris3.fr/lexicometrica/). Nell'ambito delle attività dell'european "Network of Excellence in text MIning and its applications in Statistics", NEMIS (http://nemis.cti.gr), si contano oltre 160 software disponibili per la TA e il TM. A questi devono aggiungersi altri applicativi spesso sviluppati direttamente presso i soggetti istituzionali coinvolti nell'attività di TM. Fra gli strumenti più diffusi per il TM sono da menzionare: i moduli nelle librerie di programmi di SAS (Text Miner), di IBM (Intelligent Miner, DB2 Information Integrator for Content [http://www3.ibm.com/software/data/eip/features_infomining.html]), di SPSS (LexiQuest Mine and Clementine [http://www.spss.it/solutions/lexiquest/default.htm], di TEMIS (On-line Miner). Fra gli strumenti più noti per le analisi lessicometriche di scuola francese (in ordine di centralità dei pacchetti): Lexico3 (http://www.cavi.univ-paris3.fr/ilpga/ilpga/tal/lexicoWWW/), Alceste (http://www.image.cict.fr/), Sphinx (http://www.lesphinx-developpement.fr/), WordMapper (http://www.grimmersoft.com/Fr/index_fichiers/), Hyperbase (http://ancilla.unice.fr/~brunet/pub/hyperbase.html), Spad (http://www.decisia.com/), Tropes (http://www.acetic.fr/). Come strumenti di NLP: Intex (http://www.nyu.edu/pages/linguistics/intex/), Unitex (http://ladl.univ-mlv.fr/), Glossanet (per ottenere concordanze dai principali giornali on line: http://glossa.fltr.ucl.ac.be/). Fra gli strumenti sviluppati in Italia, per l'analisi del contenuto: Taltac (www.taltac.it) e T-Lab (http://www.tlab.it/); per l'NLP: Lexical Studio (http://www.synthema.it/documenti/Prodotti_LexicalStudio_i.pdf), Dbt (http://www.ilc.cnr.it/viewpage.php/sez=ricerca/id=62/vers=ita). 19. Nel panorama di strumenti disponibili per l'italiano, in ambito della Text Analysis, TALTAC [Bolasco (2000, 2002)] costituisce un ambiente integrato di risorse linguistiche e risorse statistiche per il trattamento automatico lessico-testuale di un corpus di testi, con possibilità di: - normalizzare il testo (standardizzazione di grafie, riconoscimento di poliformi ed altre entità); - individuare segmenti ripetuti e non; - lessicalizzare sequenze/poliformi d'interesse e lavorare con unità miste e complesse; - categorizzare il testo in termini sia grammaticali, sia semantici; - effettuare concordanze, anche mediante espressioni regolari, e calcoli per l'estrazione di informazione; - effettuare statistiche sull'imprinting del testo; - estrarre entità significative e il linguaggio peculiare con risorse endogene (analisi delle specificità), esogene (confronto con lessici di frequenza); - importare liste/lessici personalizzati; 6 - esportare matrici <forme × testi> o <frammenti × forme>; esportare il corpus categorizzato/selezionato da elaborare anche con altri software di TA. 20. Nell'analisi automatica dei testi, le prospettive future riguardano: a) sul versante linguistico, il progredire della lemmatizzazione semantica e del tagging tematico rispetto a tassonomie generaliste e/o settoriali; lo sviluppare basi di conoscenza e reti semantiche (anche multilingue, come eurowordnet) per consentire l'analisi in profondità del senso di ogni termine (e quindi della frase) mediante parser morfo-sintattici (lemmatizzatori automatici), ai fini dell'estrazione di informazione e della categorizzazione automatica; b) sul versante statistico, lo sviluppare applicazioni "mirate"; fra queste, ad esempio, quelle legate ad analisi di tipo discriminante, ad analisi di matrici a 3 vie, oppure alla sperimentazione dell'analisi non simmetrica (in cui viene privilegiata una variabile "indipendente" - il linguaggio dipende da elementi quali il sesso, l'età o il tempo -) nella tradizione dell'ANSC, o anche ad analisi delle cooccorrenze lessicali multiple [Martinez, 2003]. La comunità scientifica che lavora in Italia10 in questo ampio settore di ricerca comincia a consolidarsi, come viene illustrato nell'indagine riportata nell'Appendice di questo volume. Riferimenti bibliografici Benzécri J. P. (1963). Cours de linguistique mathématique. Rennes: Université de Rennes. Benzécri J. P. (1973). L'Analyse des Données (2 tomes), Dunod, Paris Benzécri J.P. (1982). Histoire et Préhistoire de l'Analyse des Données, Bordas Dunod, Paris Benzécri J. P. et al. (1981). Pratique de l'Analyse des Données Linguistique et Lexicologie, Paris: Dunod. Benzécri J. P. et coll. (1986). Pratique de l'analyse des données. Medicine. Dunod, Paris Biber D. et al. (1998). Corpus Linguistics. London Bolasco S. (1990). Sur différentes stratégies dans une analyse des formes textuelles: une expérimentation à partir de données d'enquête, in M. Bécue, L. Lebart, N. Rajadell (eds.) JADT 1990 Jornades Internationals D'Analisi de Dades Textuals, Barcellona: UPC, 1982 p. 69-88 Bolasco S. (1996). Il lessico del discorso programmatico di governo in Villone M. Zuliani A. (a cura di) L'attività dei governi della repubblica italiana (1948-1994), Bologna: Il Mulino, p. 163-349. Bolasco S. (1998). Meta-data and Strategies of Textual Data Analysis: Problems and Instruments, , in Hayashi et al. (eds.) Data Science, Classification and Related Methods, (proceedings V IFCS - Kobe, 1996) SpringerVerlag Tokio, pp. 468-479. Bolasco S., Morrone A. (1998), La construction d’un lexique fondamental de polyformes selon leur usage, in S. Mellet (ed.), JADT, Proceedings, Université de Nice, p. 155-66. Bolasco S. (1999). Analisi Multidimensionale dei Dati. Carocci Ed., Roma. Bolasco S. (2000a). TALTAC: un environnement pour l’exploitation de ressources statistiques et linguistiques dans l’analyse textuelle. Un exemple d’application au discours politique. JADT2000, EPFL, Lausanne 9-11 marzo, tome 2, p. 342-353. Bolasco S. (2002). Integrazione statistico-linguistica nell'analisi del contenuto in B. Mazzara (a cura di) Metodi qualitativi in psicologia sociale, Carocci Ed. Roma. Bolasco S., Canzonetti A. (2003). Some insights into the evolution of 1990s' standard Italian using Text Mining techniques and automatic categorisation. CLADAG-2003, Book of Short papers, Università di Bologna, p. 57-60. Bolasco S., Baiocchi F., Canzonetti A., della Ratta F., Feldman A. (2004). Applications, sectors and strategies of Text Mining, a first overall picture, in S. Sirmakessis (ed.) Text Mining and Its applications, Springer Verlag, Heidelberg, p. 37-52. Bolasco S., Bisceglia B., Baiocchi F. (2004). Estrazione di informazione dai testi in Mondo Digitale, III, 1, 2004, p. 2743 Bolasco S., della Ratta-Rinaldi F. (2004). “Experiments on semantic categorisation of texts: analysis of positive and negative dimension”, in Purnelle G., Fairon C., Dister A. (eds), Le poids des mots, Actes des 7es journées 10 E non solo. Fra gli "italiani all'estero" si veda l'interessante contributo di Roberto Franzosi nella ricerca socio-storica, testimoniato in un recente volume (2004), dove l'autore illustra il lavoro di raccolta, organizzazione e analisi dei dati in una prospettiva di moderna analisi del contenuto, facendo uso di story grammars, di database relazionali e di modelli reticolari. 7 Internationales d’Analyse Statistique des Données Textuelles, UCL, Presses Universitaires de Louvain, p. 202-210. Bortolini U., Zampolli A. (1971). Lessico di frequenza della lingua italiana contemporanea: prospettive metodologiche, in Atti del Convegno Internazionale di Studi "L' insegnamento dell'italiano in Italia e all'estero", Vol. 2, Bulzoni, Roma 1971, 639-648. Brunet E. (1981). Le vocabulaire français de 1789 à nos jours, Genève Paris: Slatkine-Champion. Brunet E. (ed.) (1986). Méthodes quantitatives et informatiques dans l'étude des textes (ouvrage collectif en hommage à Charles Muller), Genève - Paris, Slatkine - Champion. Brunet E. (1988) Le vocabulaire de Victor Hugo, Champion Slatkine, Paris. Busa R. (1974-1980). Index Thomisticus: Sancti Thomae Aquinatis operum omnium Indices et Concordantiae, Frommann – Holzboog, Stuttgart, 56 voll. Busa R. (1987). Fondamenti di Informatica Linguistica, Vita e pensiero, Milano. Carli R., Paniccia R.M. (2002). L'analisi emozionale del testo. Franco Angeli, Milano. Chiari I. (2004). Informatica e lingue naturali. Teorie e applicazioni computazionali per la ricerca sulle lingue. Aracne, Roma, pp. 157. Chomsky N. (1957). Syntactic Structures, Mouton. De Mauro T. (1989). I Vocabolari ieri e oggi, in "Il vocabolario del 2000" a cura di IBM Italia, Roma. De Mauro T. (1980). Guida all'uso delle parole. Roma: Editori Riuniti. De Mauro, T., Mancini, F., Vedovelli, M., Voghera, M. (1993). Lessico di frequenza dell'italiano parlato, Milano: EtasLibri. Elia A. (1984). Le verbe italien. Les completives dans les phrases à un complement, Shena-Nizert, Fassano di Puglia Parigi. Fairon C. (ed.) (1999). Analyse lexicale et syntaxique: le système Intex in Linguisticae Investigationes, Tome XXII/1998-1999. Franzosi R. (2004). From Words to Numbers. Narrative, Data and Social Science. Cambridge University Press. Cambridge, pp. 476. Gross M. (1968). Grammaire transformationnelle du français: 1) Syntaxe du verbe. Cantilène, Paris. Guiraud P. (1954). Les caractères statistiques du vocabulaire. Puf, Paris Harris Z.S. (1968). Mathematical structure of language. Wiley & Sons, New York. Herdan G. (1956). Language as choice and chance. Groningen, Noordhoff. Herdan G. (1964). Quantitative Linguistics. London, Butterworth & Co. Publishers (trad. it. 1971, Bologna: Il Mulino). Labbé D. (1990). Normes de saisie et de dépouillement des textes politiques, Cahier du CERAT, Grenoble. Labbé D. (1990). Le vocabulaire de François Mitterand, Presses de la Fondation Nationale de Sciences Politiques, Paris. Labbé D. (2003). Corneille dans l'ombre de Molière. Les Impressions Nuovelles, Paris. Lafon P. (1980). Sur la variabilité de la fréquence des formes dans un corpus. Mots , 1, 127-165. Lafon P. (1984). Dépouillement s et statistique en lexicométrie. Ed. Slatkine et Champion, Genève-Paris. Lafon P., Lefevre J., Salem A., Tournier M., (1985). «Le Machinal » Principes d’enregistrement informatiquedes textes, Publ. Inalf, coll. St. Cloud, Klincksieck, Paris. Lauro C., D'Ambra L. (1984). L'analyse non symmétrique des correspondances, Third International Symposium Data Analysis And Informatics, North-Holland. Lebart L. (1982). Exploratory Analysis of Large Sparse Matrices, with Application to Textual Data. COMPSTAT, Physica Verlag, Vienna p. 67-76. Lebart L., Salem A. (1988). Analyse statistique des données textuelles. Dunod, Paris. Lebart L., Piron M., Steiner .F. (2003). La sémiométrie. Essai de statistique structurale. Dunod, Paris. Lebart L., Salem A. (1994). Statistique textuelle. Dunod, Paris. Lebart L., Salem A., Berry L. (1998). Exploring textual data, Kluwer Academic Publishers. Mani I., Maybury M.T. (2001). Advances in Automatic Text Summarization, The MIT Press, Cambridge (Mass). Marconi L, Ratti D. et al. (1994). Lessico Elementare. Dati statistici sull'Italiano Scritto e Letto dai bambini delle elementari, Bologna: Zanichelli. Martinez W. (2003). Contribution à une méthodologie de l'analyse des cooccurrences lexicales multiples dans les corpus textuels. (Thèse de doctorat) Univ. Paris 3. Muller, Ch. (1973). Initiation aux méthodes de la statistique linguistique. Paris: Hachette. (ristampa Champion 1992). Muller, Ch. (1977). Principes et méthodes de statistique lexicale. Paris: Hachette. (ristampa Champion 1992). Pazienza M.T. (ed.) (1999). Information Extraction. Towards Scalable, Adaptable Systems. Lecture Notes in Artificial Intelligence 1714. Springer-Verlag, Berlin Heidelberg. Pazienza M.T. (ed.) (2003). Information Extraction in the Web Era. Lecture Notes in Artificial Intelligence 2700. Springer-Verlag, Berlin Heidelberg. Poibeau T. (2003). Extraction Automatique d'Information: du texte brut au web semantique, Hermes - Lavoisier, Paris. Pottier B. (1992). Théorie et analyse en linguistique. Hachette, France. Reinert M. (1986). Un logiciel d'analyse lexicale: ALCESTE. Les Cahiers de l'analyse des données, vol. XI, 4, pp.471484. 8 Reinert M., (1990). Alceste, une methodologie d'analyse des données textuelles et une application: Aurélia de Gerard de Nerval, Bull. de Method. Sociol., 26. Reinert, M. (1992). I mondi lessicali di un corpus di 304 racconti di incubi attraverso il metodo “Alceste” in Cipriani R., Bolasco S., Ricerca qualitativa e computer. Milano: Franco Angeli, 1995. Reinert M. (1993). Quelques problèmes méthodologiques posés par l'analyse de tableaux "Enoncés x Vocabulaire". JADT 93, Secondes Journées Internationales d'Analyse Statistique de Données Textuelles - Montpellier 2122 octobre, TELECOM, Paris. Reinert M. (2003). Le rôle de la répétition dans la representation du sens et son approche statistique par la méthode "ALCESTE". Semiotica 147 - 1/4. p. 389-420. Salem A. (1987). Pratique des segments répétés. Essai de statistique textuelle. Klincksieck, Paris. Salton G. (1989) Automatic Text Processing : The Transformation, Analysis and Retrieval of Information by Computer, Addison-Wesley. Sebastiani F. (2002). Machine Learning in Automated Text Categorization, ACM Computing Surveys, Vol. 34, n°1, p. 1-47. Silberztein, M. (1993). Dictionnaires électroniques et analyse automatique de textes.Le système INTEX. Paris: Masson. Sirmakessis S. (ed.) (2004). Text Mining and Its applications, Springer Verlag, Heidelberg. Sullivan, D. (2001). Document Warehousing and Text Mining: Techniques for Improving Business Operations, Marketing, and Sales. Wiley, N.Y. Tournier, M. (1980). D'où viennent les frequences de vocabulaire. Mots, 1, 189-209. Vietri S., Elia A. (2001). Analisi automatica dei testi e dizionari elettronici in E. Burattini e R. Cordeschi (eds.), Intelligenza artificiale, Carocci, Roma. Yule G. U. (1944). A statistical study of vocabulary. Cambridge, Cambridge Univ. Press. Zipf G. K., (1935). The psychobiology of language. An introduction to dynamic philology, Houghton-Mifflin, Boston, (trad. franc. La psychobiologie du language, Paris, RETZ-CEPL, 1974). Zipf G. K. (1949). Human Behaviour and the Principle of Least Effort, Addison-Wesley Press, Boston. 9