6. ANALISI LESSICALE AVANZATA ED ESPORTAZIONE DEI DATI TESTUALI CON TALTAC Il trattamento del testo con TALTAC, l’estrazione del lessico, dei segmenti e le opzioni di modifica del corpus comportano la possibilità – e a volte la necessità - di esportare i file per analisi da condurre successivamente con altri software, come DTM, SPAD, Alceste, WordMapper, ecc. In questo capitolo vedremo come gli strumenti messi a disposizione da TALTAC permettono di esportare tabelle lessicali ricche di informazioni e facilmente elaborabili da fogli elettronici come Excel, oppure di ricostruire il corpus secondo particolari esigenze di ricerca. Con questo scopo l’analisi lessicale può essere condotta con strumenti più raffinati e con modifiche dei testi che possono incidere in modo significativo sulle forme grafiche e anche sul contenuto stesso del corpus. Alcune procedure illustrate in questo capitolo devono essere usate con molta cautela avendo bene in vista le finalità ultime dell’analisi e quindi le ipotesi che la sostengono. 6. 1. IL TAGGING GRAMMATICALE AVANZATO Il riconoscimento di base delle categorie grammaticali lascia inalterate (e quindi non riconosciute) molte forme grafiche. Tra le forme flesse dei verbi, ad esempio, non vengono riconosciute le enclitiche, cioè le forme con i suffissi glielo, gliene, melo, telo, tene, ecc. Come pure non vengono classificate le forme Luca Giuliano – L’analisi automatica dei dati testuali. Software e istruzioni per l’uso http:// www.ledonline.it/ledonline/giulianoanalisi.html 83 Capitolo 6 alterate con suffissi diminutivi, vezzeggiativi, peggiorativi, come gattino, gattaccio, libretto, libriccino, ecc.; o i derivati di sostantivi e aggettivi come decenne, ventenne, tredicenne, assistenziale, adolescenziale. Vi sono poi i prefissi come anti-, super-, a-, ri-, in forme come antinvecchiamento, superlavoro, apolitico, rifare, ecc. Dal menu Moduli, selezioniamo Analisi lessicale – Tagging grammaticale – Vocabolario [TALTAC] e poi, nella finestra di dialogo (fig. 4.8) le fasi di tagging avanzato “Enclitiche verbali”, “Derivati e Alterati”, “Forme con prefissi più comuni”, “Forme con altri Prefissi”. Le forme riconosciute, che nel tagging di base erano 2.914, in seguito a questa procedura sono 3.032 su un totale di 3.145 forme distinte. Le forme flesse dei verbi, che erano 425 nel tagging di base, ora sono 468. Sulla nuova lista “Vocabolario”, dal menu Calcola, selezioniamo il comando Fusioni di – Lemma/Lessia. I lemmi dei verbi individuati sono ora 284 a fronte dei 267 del passaggio di base. Il guadagno di informazione, in questo caso, non è altissimo: le 43 nuove forme flesse appartengono tutte alla classe degli hapax e quindi, in termini di occorrenze, non comportano un guadagno significativo nella copertura del testo. Questo risultato, tuttavia, è condizionato dalla dimensioni del corpus e dalla ricchezza del vocabolario. In genere questo passaggio di raffinamento del tagging rende più efficiente la lemmatizzazione dei verbi che, spesso, è l’unica forma di lemmatizzazione consigliata con una procedura automatica senza dover intervenire con operazioni “manuali”. 6. 2 RICOSTRUZIONE DEL CORPUS Dopo la fase di tagging gramaticale è possibile procedere alla ricostruzione del corpus sulla base delle forme grafiche categorizzate. Questo può essere molto utile per l’esportazione del corpus e per analisi successive. Dal menu Moduli selezioniamo Gestione unità lessicali e poi Ricostruzione del Corpus con forme categorizzate. L’output ci fornisce nuovamente il corpus aggiungendo alle forme un’etichetta che ne permette l’identificazione. Le forme ambigue (J) sono senza etichetta di identificazione (J) con il segno di underline (Regno_); le forme non riconosciute rimangono inalterate (Sardegna, Cipro, Gerusalemme). Luca Giuliano – L’analisi automatica dei dati testuali. Software e istruzioni per l’uso http:// www.ledonline.it/ledonline/giulianoanalisi.html 84 Analisi lessicale avanzata ed esportazione dei dati testuali con TALTAC $P#A_Statuto statuto_N del_PREP Regno_ di_ Sardegna Carlo_Alberto_NM per_PREP la_ grazia_di_Dio_N Re_N di_ Sardegna , di_ Cipro e_ di_ Gerusalemme , Duca_N di_ Savoja , di_ Genova , di_ Monferrato , d'_PREP Aosta , eccetera_AVV con_PREP lealtà_N di_ Re_N e_ con_PREP affetto_ di_ Padre_N Noi_PRON veniamo_V oggi_ a_ compiere_V quanto_ avevamo_V annunziato_ ai_ Nostri_ amatissimi_A sudditi_ col_PREP Nostro_ proclama_ dell'_PREP 8_NUM dell'_PREP ultimo_ scorso_ febbraio_N , con_PREP cui_PRON abbiamo_V voluto_ dimostrare_V , in_mezzo_agli_PREP eventi_N straordinarii_A che_ circondavano_V il_DET paese_N , come_ la_ Nostra_ confidenza_N in_ loro_ crescesse_V colla_ gravità_N delle_PREP circostanze_N , e_ come_ prendendo_V unicamente_AVV consiglio_ dagli_ impulsi_ Il file così generato viene salvato automaticamente nella cartella di lavoro con un nome di file già identificato: LEX1_TT_ricoFG.txt (ricostruzione delle Forme Grafiche). La ricostruzione del corpus può avvenire anche in base alle forme lemmatizzate. Dal menu Moduli selezioniamo Ricostruzione del corpus e poi la voce: Con lemmi. L’output ci fornisce ancora una volta il corpus sostituendo, dove è possibile, alle forme grafiche il lemma corrispondente. Le forme ambigue o non riconosciute restano inalterate. Come si è detto nel par. 4.6, questo tipo di lemmatizzazione automatica effettuata per tutte le categorie grammaticali non dà risultati attendibili. La procedura, per essere davvero efficiente, richiede degli interventi manuali di disambiguazione da parte dell’analista. $P#A_Statuto statuto_N di_PREP Regno_ di_ Sardegna Carlo_Alberto_NM per_PREP la_ grazia_di_Dio_N re_N di_ Sardegna , di_ Cipro e_ di_ Gerusalemme , duca_N di_ Savoja , di_ Genova , di_ Monferrato , di_PREP Aosta , eccetera_AVV con_PREP lealtà_N di_ re_N e_ con_PREP affetto_ di_ padre_N noi_PRON veniamo_V oggi_ a_ compiere_V quanto_ avere_V annunziato_ ai_ nostro_ amato_A suddito_ con_PREP nostro_ proclama_ di_PREP 8_NUM di_PREP ultimo_ scorso_ febbraio_N , con_PREP cui_PRON avere_V voluto_ dimostrare_V , in_mezzo_a_PREP evento_N straordinario_A che_ circondare_V il_DET paese_N , come_ la_ nostro_ confidenza_N in_ loro_ crescere_V colla_ gravità_N di_PREP circostanza_N , e_ come_ prendere_V unicamente_AVV consiglio_ dagli_ impulsi_ di_PREP nostro_ cuore_N fosse_ Luca Giuliano – L’analisi automatica dei dati testuali. Software e istruzioni per l’uso http:// www.ledonline.it/ledonline/giulianoanalisi.html 85 Capitolo 6 Va osservato come la forma amatissimi_A (forma alterata) sia stata trasformata durante la lemmatizzazione in amato_A, la forma avevamo_V in avere_V, ecc. La forma Nostra_ confidenza_N è modificata in nostro_ confidenza_N perché nel vocabolario la forma ambigua Nostra_J (A+N+PRON) può essere inequivocabilmente lemmatizzata in nostro_ anche senza essere stata disambiguata nelle sue categorie grammaticali distinte. Il file così generato viene salvato automaticamente nella cartella di lavoro con il nome: LEX1_TT_ricoLEMMI.txt (ricostruzione delle Forme Grafiche). 6. 3. RICOSTRUZIONE DEL CORPUS CON SELEZIONE DI ALCUNE CATEGORIE Una terza modalità di ricostruzione del corpus ci permette di selezionare quali forme vogliamo lemmatizzare lasciando le altre inalterate. Fig. 6.1. – Selezione delle categorie grammaticali Come si è detto nel par. 6.2, la lemmatizzazione dei verbi in genere porta ad ottimi risultati anche in una procedura del tutto automatizzata. Le forme flesse dei verbi e le enclitiche verbali generano raramente forme ambigue delle quali il programma non sia in grado di decidere la categoria grammaticale di appartenenza. Questo vale, sebbene in misura minore, anche per gli aggettivi che vengono ricondotti alla forma maschile singolare. Ve detto che per gli aggettivi la lemmatizzazione fa perdere questa distinzione di genere che, invece, è Luca Giuliano – L’analisi automatica dei dati testuali. Software e istruzioni per l’uso http:// www.ledonline.it/ledonline/giulianoanalisi.html 86 Analisi lessicale avanzata ed esportazione dei dati testuali con TALTAC fortemente connotata sul piano semantico. In ogni caso queste sono scelte che l’analista può compiere con consapevolezza attraverso la procedura di selezione della categorie grammaticali. Dal menu Moduli selezioniamo Ricostruzione del corpus e poi la voce: Con selezione di alcune categorie. Nella finestra di dialogo (fig. 6.1) possiamo lasciare inalterate le categorie di default oppure de-selezionare aggettivi e preposizioni lasciando esclusivamente i verbi. Il corpus verrà ricostruito con le forme grafiche originali, lemmatizzando esclusivamente le categorie indicate. Il file così generato viene salvato automaticamente nella cartella di lavoro con un nome di file già identificato: LEX1_TT_ricoSELCAT.txt. $P#A_Statuto statuto_N di_PREP Regno_ di_ Sardegna Carlo_Alberto_NM per_PREP la_ grazia_di_Dio_N Re_N di_ Sardegna , di_ Cipro e_ di_ Gerusalemme , Duca_N di_ Savoja , di_ Genova , di_ Monferrato , di_PREP Aosta , eccetera_AVV con_PREP lealtà_N di_ Re_N e_ con_PREP affetto_ di_ Padre_N Noi_PRON veniamo_V oggi_ a_ compiere_V quanto_ avere_V annunziato_ ai_ Nostri_ amato_A sudditi_ con_PREP Nostro_ proclama_ di_PREP 8_NUM di_PREP ultimo_ scorso_ febbraio_N , con_PREP cui_PRON avere_V voluto_ dimostrare_V , in_mezzo_a_PREP eventi_N straordinario_A che_ circondare_V il_DET paese_N , come_ la_ Nostra_ confidenza_N in_ loro_ crescere_V colla_ gravità_N di_PREP circostanze_N , e_ come_ prendere_V unicamente_AVV consiglio_ dagli_ impulsi_ di_PREP Nostro_ cuore_N fosse_ ferma_ Nostra_ intenzione_N di_ conformare_V le_ loro_ sorti_ alla_ ragione_N dei_ tempi_N , agli_ interessi_ ed_CONG alla_ dignità_N di_PREP Nazione_N . In questo caso, avendo scelto di lemmatizzare solo aggettivi, preposizione e verbi (A, PREP, V) le forme ai_ Nostri_ amati_A sudditi sono state stata modificate in ai_ Nostri_ amato_A sudditi. Utilizzando questa procedura è possibile generare un corpus in cui sono state cancellate alcune forme grafiche a scelta dell’analista. Per questo scopo si utilizza la casella in basso a sinistra della finestra di dialogo (fig. 6.1). La procedura è la seguente. 1) Dal menu Moduli selezioniamo Estrazione di informazione e poi la voce Visualizza DataBase di Sessione (la procedura si effettua più rapidamente dal menu Finestra, se i DB di Sessione sono già state aperti in precedenza). 2) Apriamo la lista ”Vocabolario [TALTAC] (con TAG grammaticale” de- Luca Giuliano – L’analisi automatica dei dati testuali. Software e istruzioni per l’uso http:// www.ledonline.it/ledonline/giulianoanalisi.html 87 Capitolo 6 selezionando la casella a destra in basso della finestra di dialogo “Sola lettura” in modo da aprire la lista in modalità “scrittura”. 3) Ora, nella lista delle forme grafiche, in corrispondenza delle forme che desideriamo cancellare nella ricostruzione del corpus, scriviamo DEL (delete) nella colonna “Categoria grammaticale”. Questa procedura può essere compiuta anche per selezione delle categorie con lo strumento “Text/Data Mining” (vedi 6.4). Al termine di questa operazione, tutte le forme che desideriamo eliminare nella ricostruzione del corpus riporteranno il tag DEL nel campo “Categoria grammaticale”. In questo esempio abbiamo marcato con il tag DEL le preposizioni, i determinanti, le congiunzioni e i pronomi. Dal menu Moduli selezioniamo Ricostruzione del corpus e poi la voce: Con selezione di alcune categorie. Nella finestra di dialogo (fig. 6.1) lasciamo inalterate le opzioni di default e marchiamo la casella in basso a sinistra: “Elimina FG classificate con DEL (funzione di pulitura del testo)”. Il risultato sarà il seguente: $P#A_Statuto statuto_N Regno_ di_ Sardegna Carlo_Alberto_NM la_ grazia_di_Dio_N Re_N di_ Sardegna , di_ Cipro e_ di_ Gerusalemme , Duca_N di_ Savoja , di_ Genova , di_ Monferrato , Aosta , eccetera_AVV lealtà_N di_ Re_N e_ affetto_ di_ Padre_N veniamo_V oggi_ a_ compiere_V quanto_ avere_V annunziato_ ai_ Nostri_ amato_A sudditi_ Nostro_ proclama_ 8_NUM ultimo_ scorso_ febbraio_N , avere_V voluto_ dimostrare_V , eventi_N straordinario_A che_ circondare_V paese_N , come_ la_ Nostra_ confidenza_N in_ loro_ crescere_V colla_ gravità_N circostanze_N , e_ come_ prendere_V unicamente_AVV consiglio_ dagli_ impulsi_ cuore_N fosse_ ferma_ Nostra_ intenzione_N di_ conformare_V le_ loro_ sorti_ alla_ ragione_N dei_ tempi_N , agli_ interessi_ alla_ dignità_N Nazione_N . Questa procedura può essere molto utile per la pulitura di testi digitalizzati con un’alta componente di “rumore”, come i messaggi e-mail o i messaggi di forum e newsgroup (Giuliano, 2004), oppure per ridurre le dimensioni di corpora molto grandi alle sole forme ritenute significative per l’analisi, specialmente nell’analisi multimensionale. Luca Giuliano – L’analisi automatica dei dati testuali. Software e istruzioni per l’uso http:// www.ledonline.it/ledonline/giulianoanalisi.html 88 Analisi lessicale avanzata ed esportazione dei dati testuali con TALTAC 6. 4. TEXT/DATA MINING ED ESPORTAZIONE DI MATRICI Lo strumento “Text/Data Mining” è di grande utilità, non solo per l’esplorazione del corpus attraverso le liste generate dal programma, ma anche per selezionare le matrici da esportare per il loro utilizzo in altri software di analisi testuale. Negli esempi che seguono prenderemo come riferimento il “Vocabolario” della sessione, ma le stesse operazioni possono essere compiute sulle altre liste come le liste di fusione delle forme/lessie, le liste dei segmenti, le liste di specificità o le liste di confronto tra lessici (intersezione, unione o forme originali). Con la lista “Vocabolario” aperta nella finestra di lavoro, rendiamo attivo un campo selezionando la colonna sulla quel desideriamo operare; per esempio selezioniamo la colonna “Forma grafica” ponendo il cursore sull’intestazione della colonna stessa. Così facendo la colonna assume un colore e questo indica che è “attiva”. Ora clicchiamo sull’icona “Text/Data Mining” della barra degli strumenti (oppure selezioniamo il comando Text/Data Mining dal menu Record) ed apriamo la finestra di dialogo: Fig. 6.2. – Finestra di dialogo del Text/Data Mining Luca Giuliano – L’analisi automatica dei dati testuali. Software e istruzioni per l’uso http:// www.ledonline.it/ledonline/giulianoanalisi.html 89 Capitolo 6 Come si può osservare (fig. 6.2) il “criterio di selezione del campo” indicato nella casella è quello da noi selezionato: “Forma grafica”. I parametri successivi ci permettono di compiere delle operazioni logiche e delle operazioni di selezione tali da visualizzare esclusivamente i record di nostro interesse. Tali record “visibili” possono essere salvati in matrici da esportare. Per esempio rispetto al campo “Forma Grafica”, per il criterio “Records LIKE” scriviamo “giur*”. L’asterisco * sta per “qualsiasi carattere”. Così facendo otterremo l’elenco delle forme grafiche che iniziano per “giur” (fig. 6.3). Fig. 6.3. – Selezione delle forme grafiche che iniziano con giur-. Oppure, selezionando il campo “Categoria grammaticale”, per il criterio “Records LIKE” scriviamo “V” ottenendo solo le forme grafiche della categoria “Verbi” (fig. 6.4). Fig. 6.4. – Selezione delle forme grafiche: verbi Luca Giuliano – L’analisi automatica dei dati testuali. Software e istruzioni per l’uso http:// www.ledonline.it/ledonline/giulianoanalisi.html 90 Analisi lessicale avanzata ed esportazione dei dati testuali con TALTAC Ciascuna di queste matrici è dotata di tutte le informazioni contenute nelle colonne della lista, compresi i campi “nascosti”, sempre visualizzabili dal menu Formato, voce Scopri campo, e poi selezionando il campo da scoprire (per esempio le sub-occorrenze del corpus). La matrice attiva nella finestra di lavoro è esportabile in un file di testo (perfettamente importabile in Excel) dal menu File, comando Esporta in un file di testo, voce Solo i record visibili. Le operazioni di selezione più interessanti che si possono compiere dalla finestra di dialogo dello strumento Text/Data Mining sono: 1) La selezione dei nomi astratti (non direttamente percepibili dai sensi) come libertà, proprietà, famiglia, maggioranza, sicurezza, dignità, società, ecc. Nel corpus LEX1 sono 172. 2) La selezione secondo il numero delle occorrenze con gli operatori di > < e =. Per esempio una selezione sulla base delle occorrenze maggiori di 5 visualizza una matrice di 393 record (forme grafiche distinte). 3) La selezione “Records LIKE” che, come si è visto, permette di individuare le forme grafiche oppure di selezionare sulla base delle categorie grammaticali. 4) La selezione dei campi vuoti/non vuoti. Il campo vuoto è un campo in cui non vi è alcun carattere. Le forme non riconosciute dal tag grammaticale hanno il campo vuoto. La casella “Applica solo i records visibili” permette le operazioni di affinamento della selezioni: marcando la casella, la selezione successiva avviene solo sulla lista selezionata attiva. Lo strumento “Text/Data Mining” permette di eseguire molte altre operazioni utili per la costruzione di matrici di lavoro. La consultazione del manuale, l’esperienza dell’utente, la sua fantasia e i problemi che si presentano in ogni analisi in modo originale ed imprevisto, possono generare nuove soluzioni e nuovi percorsi. L’analisi dei dati testuali non trova facilmente procedure standardizzate valide una volte per tute e applicabili a tutti i testi. Questo fa parte del suo fascino. L’obiettivo è sempre molto ambizioso: ricavare da una massa enorme di dati le informazioni ritenute essenziali e dotate di senso. E’ una sfida sempre aperta all’innovazione e quindi tale da richiedere approcci nuovi e ancora inesplorati. Luca Giuliano – L’analisi automatica dei dati testuali. Software e istruzioni per l’uso http:// www.ledonline.it/ledonline/giulianoanalisi.html 91 7. ANALISI MULTIMENSIONALE DEI DATI TESTUALI CON DTM DTM (Data and Text Mining) è un software di statistica per l’esplorazione multidimensionale di dati complessi che comprendono dati numerici e testuali. Il software è stato sviluppato sotto la direzione di Ludovic Lebart sulla base della versione per DOS di SPAD-N (Système Portable pour l’Analyse des Données) e SPAD-T. Le applicazioni principali riguardano l’elaborazioni di dati quantitativi tratti da questionari e di risposte aperte (oppure di testi). In particolare, per quanto riguarda l’analisi testuale, DTM permette di effettuare l’analisi delle corrispondenze sulle tabelle di incrocio tra vocabolario e testi (APLUM) e tra parole e risposte (ASPAR), di costruire le tabelle lessicali di contingenza tra parole e testi (MOTEX e TALEX), di effettuare la classificazione gerarchica automatica delle risposte (RECIP). Il programma (aggiornato al 9 settembre 2004), sviluppato per fini didattici, è scaricabile dal sito www.lebart.org e funziona in Windows (qualsiasi versione) principalmente sulla base di esempi di applicazione delle procedure principali. Seguendo le istruzioni è però possibile, con molte limitazioni rispetto al software completo (15.000 soggetti, righe; 1.000 variabili, colonne), far girare il software anche sui propri dati. In generale si tratta di un software di uso “non facilitato” che è rivolto a studiosi e non ad un generico pubblico di utenti. Ne è una testimonianza lo stesso linguaggio utilizzato, una versione mista in francese e in inglese. L’uso del programma richiede l’apprendimento (in gran parte “esecutivo”) di istruzioni e sintassi molto rigide sulle quali operare pochi cambiamenti, trascurando tutto ciò che non è immediatamente utile e lasciando inalterati molti parametri senza entrare nel merito delle loro funzioni. Luca Giuliano – L’analisi automatica dei dati testuali. Software e istruzioni per l’uso http:// www.ledonline.it/ledonline/giulianoanalisi.html 93 Capitolo 7 7. 1. PREPARAZIONE DEL CORPUS Dopo aver installato il programma (seguendo le istruzioni fornite sul sito) prendiamo in esame, prima di tutto, il corpus originale del nostro esempio (LEX1.txt) così come è stato ricostruito da TALTAC in seguito alla fase di tagging grammaticale di base, senza la lessicalizzazione dei segmenti. Chiameremo questo corpus con il nome di LEX1_TT_ricoFG.txt e lo copiamo nella cartella di lavoro LEX1_DTM (la cartella di lavoro può essere posizionata dovunque, anche sul desktop). Tab. 7.1 – Caso A: un individuo / una riga ****Testo 1 questa è la questa è la ... questa è la ... questa è la ****Testo 2 questa è la questa è la ... questa è la ... questa è la ****Testo j .... ****Testo k questa è la questa è la ... questa è la ... questa è la ==== prima riga del testo 1 seconda riga del testo 1 ! Individuo 1 – Testo 1 ! Individuo 2 – Testo 1 i-esima riga del testo 1 ! Individuo i – Testo 1 n-esima riga del testo 1 ! Individuo n – Testo 1 prima riga del testo 2 seconda riga del testo 2 ! Individuo 1 – Testo 2 ! Individuo 2 – Testo 2 i-esima riga del testo 2 ! Individuo i – Testo 2 n-esima riga del testo 1 ! Individuo n – Testo 2 prima riga del testo k seconda riga del testo k ! Individuo 1 – Testo k ! Individuo 2 – Testo k i-esima riga del testo k ! Individuo i – Testo k n-esima riga del testo k ! Individuo n – Testo k Tab. 7.2 – Caso B: un individuo / più righe ****Testo 1 questa è la prima riga del testo 1 questa è la seconda riga del testo 1 Individuo 1 – Testo 1 ---... Luca Giuliano – L’analisi automatica dei dati testuali. Software e istruzioni per l’uso http:// www.ledonline.it/ledonline/giulianoanalisi.html 94 Analisi multidimensionale dei dati testuali con DTM ---questa è la ---... ---questa è la ... ****Testo 2 questa è la questa è la ... questa è la ---... ---questa è la ... ****Testo j .... ****Testo k questa è la questa è la ... questa è la ---... ---questa è la ==== i-esima riga del testo 1 Individuo i – Testo 1 n-esima riga del testo 1 Individuo n – Testo 1 prima riga del testo 2 seconda riga del testo 2 Individuo 1 – Testo 2 i-esima riga del testo 2 n-esima riga del testo 2 prima riga del testo k seconda riga del testo k Individuo n – Testo 2 Individuo 1 – Testo k i-esima riga del testo k n-esima riga del testo k Individuo n – Testo k Il file deve essere preparato per il trattamento in DTM. La strategia generale che adotteremo consiste esclusivamente nell’analisi del corpus secondo la partizione in quattro testi. Pertanto occorre inserire nel file i marcatori adeguati per una corretta decodifica da parte del software. In questo tipo di applicazione, che convenzionalmente si chiama Texte o Text, il corpus può avere una delle due forme indicate in tabella 1 (caso A: un individuo / una riga) o in tabella 2 (caso B: un individuo / più righe). Nel caso A ogni riga (risposta) viene considerata come un individuo. Ogni testo è composto di n individui (risposte). Nel caso B ogni individuo può avere una risposta che continua su più righe. Pertanto la risposta viene considerata come un individuo. Anche in questo caso ogni testo è composto di n individui (risposte). Ogni risposta è delimitata dal marcatore ----. In entrambi i casi (e anche per la redazione di tutti i file di lavoro: parametri, dizionario, dati) la lunghezza delle righe deve obbligatoriamente contenere al massimo 80 colonne (caratteri). Luca Giuliano – L’analisi automatica dei dati testuali. Software e istruzioni per l’uso http:// www.ledonline.it/ledonline/giulianoanalisi.html 95 Capitolo 7 preparazione del testo viene effettuata nell’editor di testi TextPad (cap. 2) per la riduzione della lunghezza delle righe e l’inserimento dei marcatori. In seguito al passaggio in TextPad, il corpus (salvato con il nome LEX1_TT_ricoFG80.txt ) si presenterà come segue: ****A_Statuto statuto_N del_PREP Regno_ di_ Sardegna Carlo_Alberto_NM per_PREP la_ grazia_di_Dio_N Re_N di_ Sardegna , di_ Cipro e_ di_ Gerusalemme , Duca_N di_ Savoja , di_ Genova , di_ Monferrato , d'_PREP Aosta , eccetera_AVV con_PREP lealtà_N di_ Re_N e_ con_PREP affetto_ di_ Padre_N Noi_PRON veniamo_V oggi_ a_ compiere_V quanto_ avevamo_V annunziato_ ai_ Nostri_ amatissimi_A sudditi_ col_PREP Nostro_ proclama_ dell'_PREP 8_NUM dell'_PREP ultimo_ scorso_ febbraio_N , con_PREP cui_PRON abbiamo_V voluto_ dimostrare_V ... ****B_Roma costituzione_N DELLA_PREP REPUBBLICA_N ROMANA_ , 1849_NUM principii_N FONDAMENTALI_ la_ sovranità_N è_V per_diritto_AVV eterno_ nel_PREP popolo_ . il_DET popolo_ dello_PREP Stato_N Romano_NM è_V costituito_ in_ repubblica_N democratica_ . il_DET regime_N democratico_ ha_ per_PREP regola_ l'_DET eguaglianza_N , la_ libertà_N , la_ fraternità_N . non_ riconosce_V titoli_ di_ nobiltà_N , ... ****C_Italia costituzione_N della_PREP Repubblica_N italiana_ edizione_N del_PREP 1_NUM gennaio_N 1948_NUM principî fondamentali_ l'_DET Italia_N è_V una_ Repubblica_N democratica_ , fondata_ sul_lavoro_AVV ... ****D_ONU dichiarazione_N UNIVERSALE_ DEI_ DIRITTI_ DELL'_PREP UOMO_N preambolo_N considerato_ che_ il_DET riconoscimento_N della_PREP dignità_N inerente_ a_ tutti_ i_ membri_ della_PREP famiglia_N umana_ , i_ loro_ diritti_ , uguali_ ed_CONG inalienabili_A , costituisce_V il_DET fondamento_N della_PREP libertà_N , della_PREP giustizia_ e_ della_PREP pace_N nel_PREP mondo_ ; ... un_DET atto_ mirante_V alla_ distruzione_N dei_ diritti_ e_ delle_PREP libertà_N in_ essa_ enunciati_ . 10_NUM dicembre_N 1948_NUM ==== Luca Giuliano – L’analisi automatica dei dati testuali. Software e istruzioni per l’uso http:// www.ledonline.it/ledonline/giulianoanalisi.html 96 Analisi multidimensionale dei dati testuali con DTM 7. 2. ANALISI DELLE CORRISPONDENZE BINARIE: PREPARAZIONE DEL FILE DEI PARAMETRI PER LA PROCEDURA APLUM DTM esegue il programma in fasi che devono essere sequenziali in base alle istruzioni contenute nel file dei parametri. ARTEX SELOX NUMER MOTEX MOCAR APLUM Fig. 7.1. – Fasi della procedura APLUM Nella nomenclatura dei parametri illustrati qui di seguito, con: • individuo (individu/individual) si intende l’entità in cui viene ripartito il testo (ogni individuo può fornire una o più domande/risposte); • risposte (réponses/responses) sono i testi attribuiti a ciascun individuo a seconda delle domande (questions); • stampa si intende la modalità di visualizzazione nel file di output dei risultati dall’analisi (imp.txt). I termini domande aperte e risposte derivano dal fatto che il software è utilizzato soprattutto per l’elaborazione delle risposte alle domande aperte dei questionari. Il file di output dei risultati viene ricoperto ad ogni analisi successiva. Se si desidera salvare il risultato per ogni fase occorre rinominare il file imp.txt prima di procedere con l’esecuzione della fase successiva. ARTEX è la fase in cui viene costruito l’archivio dei dati testuali. Parametri: ityp: ncol: lirep: tipo di dati testuali nel file ntexz (text = 1, enquire = 2). lunghezza dei record delle risposte. indica la fine implicita della risposta (1 = 1 riga/1 risposta). Luca Giuliano – L’analisi automatica dei dati testuali. Software e istruzioni per l’uso http:// www.ledonline.it/ledonline/giulianoanalisi.html 97 Capitolo 7 SELOX è la fase in cui vengono scelte le domande aperte da trattare. Parametri: numq: indice delle domande selezionate; se numq = -1 o numq = list allora ci saranno insieme diverse domande (nella riga successiva saranno elencate le domande secondo il n. d’ordine). Se si tratta di un corpus suddiviso in testi (come nel caso in esempio), allora nella fase ARTEX ityp = 1, ne consegue che nella fase SELOX numq = 1, cioè si istruisce il programma ad elaborare una sola domanda. NUMER è la fase di codifica numerica dei testi. Parametri: valore di default 1; da 2 a 10 per corpora più grandi). Si tratta di un coefficiente tecnico che indica al programma la frequenza delle forme grafiche per lunghezza; in alcuni casi può essere sostituito da histo (vedi sotto). nseu: numero che indica la soglia di frequenza delle forme grafiche da trattare. nxlet: numero massimo di lettere per forma. nxmax: numero massimo di forme distinte. ledit: stampa delle parole (0 = no, 1 ordine alfabetico, 2 ordine di frequenza, 3 = tutto). nmomi: numero che indica la soglia di lunghezza delle parole. weak '"-+ (separatori deboli). strong .;:()!?, (separatori forti). histo 40 110 220 430 550 550 600 530 450 300 210 110 75 60 > 50 25 10 10 05 05 (parametri di default che possono essere modificati secondo le necessità). end (fine della fase). coef: Con il parametro coef il comando histo non è necessario. La sequenza di valori inserita qui come esempio è semplicemente la sequenza di default che viene attivata da coef = 1. Con coef = 2 i valori della sequenza saranno moltiplicati per 2: 80 220 440 860 1100 1100 1200 1060 900 600 420 220 150 120 > 100 50 20 20 10 10 Questi valori indicano che il programma si attende che ci siano 80 forme grafi- Luca Giuliano – L’analisi automatica dei dati testuali. Software e istruzioni per l’uso http:// www.ledonline.it/ledonline/giulianoanalisi.html 98 Analisi multidimensionale dei dati testuali con DTM che distinte con una lunghezza di 1 carattere; 220 con lunghezza 2, 440 con lunghezza 3; e così via fino a 10 con lunghezza 20. Non è previsto che vi siano parole più lunghe di 20 caratteri. Per quanto riguarda le parole di una lingua questo è quasi sempre vero (benché la parola più lunga del vocabolario italiano sia di 26 lettere). Se vi sono parole più lunghe il programma le legge, ma le tronca al ventesimo carattere. Questo non è un grosso problema perché le forme sono quasi sempre riconoscibili con venti caratteri (cioè è piuttosto raro che due forme con 21 o più caratteri abbiano i primi 20 caratteri nella stessa sequenza). Invece si tratta di un errore grave se le forme massime previste per una certa lunghezza di caratteri sono inferiori a quelle effettive. Se accade questo, il programma ignora le forme eccedenti. Nell’output questo è segnalato dal fatto che alcuni valori della distribuzione delle forme per lunghezza sono identici sia per le forme previste che per le forme effettive riscontrate. La procedura è corretta solo se per tutti e venti i valori la forme previste eccedono di almeno 1 le forme effettive. Se questo non si verifica allora bisogna inserire, al posto del parametro coef che può essere ignorato, il comando histo (senza il segno di = ) seguito da una sequenza di valori secondo le necessità. La sequenza di valori corretta si ottiene attraverso prove successive fino a quando tutti i valori previsti sono maggiori dei valori effettivi. Per l’esempio in corso dovremo preparare il seguente il file dei parametri (denominato LEX1par1.txt) da salvare nella cartella di lavoro LEX1_DTM che conterrà già il file con il corpus. Tra gli esempi contenuti nel software non c’è un file parametri da seguire come traccia per questa procedura. Occorre sottolineare anche che i nomi dei parametri e dei comandi in alcuni esempi sono in inglese (weak, strong) mentre nell’help sono riportati in francese (faible, fort). Funzionano in entrambe le dizioni. Anche le modalità dei parametri sono utilizzate in forma diversa (pur essendo identiche); per esempio, nel seguente file di parametri, nella fase NUMER, il parametro LEDIT può essere indicato come =3 oppure =tot. Anche l’uso delle lettere maiuscole o minuscole è indifferente. #****** Il programma richiede 2 file in formato txt # ------------------------------------------#****** 1) Il presente file di parametri (LEX1_par1.txt) # 2) Il file di testo (NTEXZ = 'LEX1_TT_ricoFG80.txt') #****** Il programma produce il file di output IMP.txt (risultati) #****** Sintassi: ">"= continuazione, "#"= commenti LISTP = no, LISTF = no # (lascia questo così com’è) NTEXZ = 'LEX1_TT_ricoFG80.txt' # nome file di testo (nome libero) Luca Giuliano – L’analisi automatica dei dati testuali. Software e istruzioni per l’uso http:// www.ledonline.it/ledonline/giulianoanalisi.html 99 Capitolo 7 STEP ARTEX ==== Archive - Texts or responses to open ended questions ITYP=1 LIREP=1 NCOL=80 STEP SELOX ==== Selection of open questions and of individuals NUMQ = 1 STEP NUMER ==== Numerical coding of words NSEU=0 NMOMI=0 LEDIT=3 NXLET =20 NXMAX=5000 weak "-+ strong .;:()!?, histo 40 110 220 430 550 550 600 530 450 400 400 300 200 150 > 150 100 100 100 100 100 end STOP Tra i separatori deboli è stato eliminato l’apostrofo per evitare che le forme create da TALTAC come: DELL'_PREP al_principio_d'_PREP all'_PREP vengano spezzate nelle forme distinte: DELL PREP al_principio_d PREP all PREP Il corpus ricostruito da TALTAC contiene sempre forme molto più lunghe delle parole in lingua italiana, in quanto ogni parola riconosciuta è stata classificata in una forma grammaticale e quindi identificata da una tag. Inoltre vi sono molti poliformi o segmenti lessicalizzati (creati dall’analista) che portano la lunghezza delle forme ad eccedere il numero massimo di 20 caratteri (il poliforme dell’esempio qui sotto è costituito da 37 caratteri). Questo comporta un innalzamento della frequenza di forme grafiche attese nelle classi di lunghezza 15-20. Purtroppo, in questi casi, accade anche che le forme abbiano i primi 20 caratteri in comune, per cui le forme vengono troncate e conteggiate come se Luca Giuliano – L’analisi automatica dei dati testuali. Software e istruzioni per l’uso http:// www.ledonline.it/ledonline/giulianoanalisi.html 100 Analisi multidimensionale dei dati testuali con DTM appartenessero ad una forma unica. Per esempio: presidente_del_Consiglio_dei_ministri presidente_del_Consiglio occorr. 5 occorr. 1 Le due forme vengono riconosciute come: presidente_del_Consi occorr. 6 L’unico modo per distinguere le due forme (se fosse ritenuto necessario per l’analisi) è di modificarle con un codice come prefisso. Per esempio: 1presidente_del_Cons (iglio_dei_ministri) 2presidente_del_Cons (iglio) A questo punto, con il file del corpus LEX1_TT_ricoFG80.txt e con il file dei parametri LEX1par1.txt nella stessa cartella di lavoro possiamo aprire il programma cliccando sull’icona DTM per accedere alla barra dei menu: Fig. 7.2. – Barra dei menu di DTM Dalla menu Parameters selezioniamo la voce Open e apriamo il file parametri LEX1_par1.txt nella cartella di lavoro. Se necessario, possiamo modificare i parametri, ricordandoci però di salvare il nuovo file dal menu File – Save o Save as... Se non sono necessarie modifiche, clicchiamo sul comando Return e ritorniamo sulla barra del menu principale. Clicchiamo su Execute per avviare l’esecuzione del programma. Dopo qualche secondo appare una finestra di controllo delle fasi (step) eseguite. Luca Giuliano – L’analisi automatica dei dati testuali. Software e istruzioni per l’uso http:// www.ledonline.it/ledonline/giulianoanalisi.html 101 Capitolo 7 Fig. 7.3. – Finestra di controllo delle fasi eseguite Se non ci sono errori di scrittura della sintassi (segnalati da una interruzione del programma) possiamo esaminare l’output cliccando sul menu Results – Open. L’output va esaminato con estrema attenzione anche nel caso in cui tutte le fasi vengano eseguite perché possono esserci ugualmente degli errori, sebbene non così decisivi da bloccare l’esecuzione del programma. L’output (file imp.txt nella cartella di lavoro) è sempre piuttosto “pesante” e dovremo esaminarlo, per quanto è possibile, da monitor, stampando solo le parti essenziali quando riterremo di aver completato l’analisi. L’output illustra tutte le fasi eseguite e i rispettivi parametri, fornendo le tabelle e gli eventuali grafici richiesti (che però sono visualizzabili in modo più efficace sul “visualizzatore grafico”, come vedremo). Nella fase NUMER dovremo fare attenzione ad alcune informazioni: • number of responses per class: ci dice quante righe (individui) ci sono per ogni testo. In questo caso la partizione in righe è solo una partizione di comodo che non ha alcun significato per l’analisi, che verrà condotta sulla tabella di contingenza delle forme × testi; in altri casi però può essere un dato di controllo essenziale. • frequency according to the number of letters: occorre prestare attenzione (come si è detto) al valore delle frequenze osservate in corrispondenza delle frequenze massime previste per ciascuna classe di lunghezza delle forme. Se la frequenza massima è uguale alla frequenza osservata è possibile che qualche forma sia stata scartata in quanto eccedente il valore massimo indicato. In questo caso sarà necessario aumentare il valore della frequenza massima prevista nel comando histo ed eseguire di nuovo il programma. Di seguito abbiamo i risultati principali del conteggio delle occorrenze: Luca Giuliano – L’analisi automatica dei dati testuali. Software e istruzioni per l’uso http:// www.ledonline.it/ledonline/giulianoanalisi.html 102 Analisi multidimensionale dei dati testuali con DTM Tab. 7.3. – Sommario dei risultati del corpus LEX1_TT a soglia 0 Summary of results ------------------total number of responses total number of words number of distinct words percent.of distinct words = = = = selection of words -----------------frequency threshold = kept words = distinct kept word = 2147 14709 3149 21.4 0 14709 3149 I risultati non possono essere identici tra TALTAC (tab. 4.3) e DTM. Le piccole differenze nel conteggio delle occorrenze e delle forme grafiche distinte (dell’ordine di qualche decina) derivano dalla diversa gestione delle forme e da alcuni interventi (per esempio la lessicalizzazione dei segmenti) apportati sul corpus durante il trattamento in TALTAC. L’output prosegue con l’elenco delle forme in ordine alfabetico e in ordine di frequenza. Nel passaggio successivo modifichiamo il parametro nseu (soglia di frequenza delle forme da conservare per l’analisi) portando il valore di soglia a 5, cioè al valore consigliato da TALTAC (fig. 4.5). Con questo valore la frequenza minima delle forme da conservare sarà 6. Inoltre, per selezionare le forme ai fini dell’analisi delle corrispondenze, elaboriamo il file LEX1_TT_Lemmi_sv80.txt che contiene il corpus ricostruito con il tag grammaticale e la lemmatizzazione dei verbi, aggettivi e sostantivi ma senza le parole vuote. Questo nuovo corpus è stato ottenuto attraverso la procedura di ricostruzione del corpus con selezione di alcune categorie (vedi 6.3) utilizzando la funzione DEL per le forme forzatamente marcate come “vuote” (congiunzioni, articoli, preposizioni). Ancora una volta dobbiamo ricordare che questa lemmatizzazione “grezza” può essere utile, in questa fase, solo per un’esplorazione descrittiva ed esemplificativa dell’associazione tra forme e testi. Il nuovo file dei parametri LEX1_par2.txt sarà: #****** Il programma richiede 2 file in formato txt # ------------------------------------------#****** 1) Il presente file di parametri (LEX1_par2.txt) Luca Giuliano – L’analisi automatica dei dati testuali. Software e istruzioni per l’uso http:// www.ledonline.it/ledonline/giulianoanalisi.html 103 Capitolo 7 # 2) Il file di testo (NTEXZ = 'LEX1_TT_Lemmi_sv80.txt'). #****** Il programma produce il file di output IMP.txt (risultati #****** Sintassi: ">"= continuazione, "#"= commenti LISTP = no, LISTF = no # (lascia questo così com’è) NTEXZ = 'LEX1_TT_Lemmi_sv80.txt' # nome file di testo (nome libero) STEP ARTEX ==== Archive - Texts or responses to open ended questions ITYP=1 LIREP=1 NCOL=80 STEP SELOX ==== Selection of open questions and of individuals NUMQ = 1 STEP NUMER ==== Numerical coding of words NSEU=5 NMOMI=0 LEDIT=3 NXLET =20 NXMAX=5000 weak "-+ strong .;:()!?, histo 40 110 220 430 550 550 600 530 450 400 400 300 200 150 > 150 100 100 100 100 100 end STOP L’output, per la sola parte relativa al conteggio delle forme grafiche, ci offre le seguenti informazioni. Tab. 7.4. – Sommario dei risultati del corpus LEX1_TT a soglia 5 Summary of results ------------------total number of responses total number of words number of distinct words percent.of distinct words = = = = selection of words -----------------frequency threshold = kept words = distinct kept word = 1671 8693 2500 28.8 5 5019 318 Al termine di questa fase conserviamo 318 parole distinte sulle quali possiamo effettuare una analisi di specificità, come già si è fatto con Lexico3 e TALTAC. Per eseguire questa procedura abbiamo bisogno di altre due fasi: Luca Giuliano – L’analisi automatica dei dati testuali. Software e istruzioni per l’uso http:// www.ledonline.it/ledonline/giulianoanalisi.html 104 Analisi multidimensionale dei dati testuali con DTM MOTEX e MOCAR. MOTEX è la fase di costruzione della tabella parole × testi (mots/textes). Parametri: nvsel: ledit: numero di variabile categoriale di raggruppamento delle risposte (valori >0 o <0 a seconda dell’archivio; 0 se non vi sono dati associati). parametro per la stampa della tabella parole × testi (0 = no, 1 = si). MOCAR è la fase di estrazione delle parole caratteristiche (mots caracteristiques). Parametri: nomot: norep: numero delle parole caratteristiche visualizzate per ciascun testo. numero delle risposte caratteristiche visualizzate per ciascun testo. Il file dei parametri LEX1_par3.txt sarà: #****** Il programma richiede 2 file in formato txt # ------------------------------------------#****** 1) Il presente file di parametri (LEX1_par3.txt) # 2) Il file di testo (NTEXZ = 'LEX1_TT_Lemmi_sv80.txt'). #****** Il programma produce il file di output IMP.txt (risultati #****** Sintassi: ">"= continuazione, "#"= commenti LISTP = no, LISTF = no # (lascia questo così com’è) NTEXZ = 'LEX1_TT_Lemmi_sv80.txt' # nome file di testo (nome libero) STEP ARTEX ==== Archive - Texts or responses to open ended questions ITYP=1 LIREP=1 NCOL=80 STEP SELOX ==== Selection of open questions and of individuals NUMQ = 1 STEP NUMER ==== Numerical coding of words NSEU=5 NMOMI=0 LEDIT=3 NXLET =20 NXMAX=5000 weak "-+ strong .;:()!?, histo 40 110 220 430 550 550 600 530 450 400 400 300 200 150 > 150 100 100 100 100 100 end STEP MOTEX Luca Giuliano – L’analisi automatica dei dati testuali. Software e istruzioni per l’uso http:// www.ledonline.it/ledonline/giulianoanalisi.html 105 Capitolo 7 ==== crosstabulating words and texts NVSEL=0 LEDIT = 1 STEP MOCAR ==== caracteristics words NOMOT=30 NOREP=20 STOP L’output per ogni testo fornisce la frequenza normalizzata e la frequenza assoluta della forma all’interno del testo (% within), la frequenza normalizzata e la frequenza assoluta sul corpus (global), il valore del test V e la probabilità α di ottenere uno scarto positivo (o negativo) tra frequenza attesa e frequenza osservata. Tab. 7.5. – Parole caratteristiche del testo A_Statuto Selection of characteristic words --------------------------------------------------------------------------spelling of --- percentage--frequency test.v proba word within global within global --------------------------------------------------------------------------text number 1 A_St ---------------1 re_N 2 dopo_ 3 Deputati_ 4 anno_N 5 sessione_N 6 senato_N 7 Deputato_ 8 Ministri_ 9 statuto_N 10 camera_N 11 essere_V 12 Camera_dei_Deputati_ 13 disposizione_N 14 magistrato_N 15 Stato_N 16 esecuzione_N 17 solo_ 18 piú 19 membri_ 20 età_N 21 giudicare_V 22 sette_ 23 cinque_N 24 avere_V 25 prima_ = atuto 4.84 1.99 .99 2.61 .87 1.61 .74 1.24 1.24 3.47 6.33 .99 .87 .99 2.11 .50 .62 .62 1.12 .50 .50 .50 .74 2.36 .50 .82 .46 .16 .92 .14 .46 .12 .34 .38 1.83 4.06 .34 .28 .36 1.14 .12 .18 .18 .50 .14 .14 .14 .30 1.51 .18 39. 16. 8. 21. 7. 13. 6. 10. 10. 28. 51. 8. 7. 8. 17. 4. 5. 5. 9. 4. 4. 4. 6. 19. 4. 41. 23. 8. 46. 7. 23. 6. 17. 19. 92. 204. 17. 14. 18. 57. 6. 9. 9. 25. 7. 7. 7. 15. 76. 9. 11.172 5.557 4.921 4.608 4.549 4.260 4.146 3.804 3.482 3.371 3.277 2.785 2.721 2.640 2.488 2.430 2.430 2.430 2.250 2.160 2.160 2.160 1.997 1.902 1.724 Luca Giuliano – L’analisi automatica dei dati testuali. Software e istruzioni per l’uso http:// www.ledonline.it/ledonline/giulianoanalisi.html 106 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .001 .003 .003 .004 .006 .008 .008 .008 .012 .015 .015 .015 .023 .029 .042 Analisi multidimensionale dei dati testuali con DTM 26 fare_V .50 .18 4. 9. 1.724 .042 27 presente_ .62 .26 5. 13. 1.704 .044 -----------------------------17 costituzionale_A .00 .36 0. 18. -1.722 .043 16 regionale_A .00 .36 0. 18. -1.722 .043 15 lavoro_ .00 .38 0. 19. -1.803 .036 14 ordinamento_N .00 .38 0. 19. -1.803 .036 13 legge_ 2.11 3.19 17. 160. -1.856 .032 12 componenti_ .00 .40 0. 20. -1.882 .030 11 stabiliti_ .00 .42 0. 21. -1.958 .025 10 Parlamento_ .00 .46 0. 23. -2.104 .018 9 cittadini_ .00 .46 0. 23. -2.104 .018 8 libertà_N .12 .74 1. 37. -2.251 .012 7 norma_N .00 .54 0. 27. -2.376 .009 6 presidente_della_Rep .00 .62 0. 31. -2.626 .004 5 individuo_ .00 .78 0. 39. -3.075 .001 4 assemblea_N .00 .80 0. 40. -3.127 .001 3 costituzione_N .00 .82 0. 41. -3.179 .001 2 regione_N .00 1.14 0. 57. -3.934 .000 1 repubblica_N .00 1.59 0. 80. -4.826 .000 --------------------------------------------------------------------------- Le parole con il valore negativo del test V sono le parole “anti-caratteristiche”, presenti significativamente nel testo in misura minore rispetto al corpus. Al termine di questa procedura, oltre al file imp.txt con i risultati dell’analisi, nella cartella di lavoro troveremo due nuovi file: a) ncharword.txt che contiene l’elenco delle parole caratteristiche. b) nchartex.txt che contiene l’elenco delle risposte caratteristiche. In questo caso, come si è detto, le “risposte” corrispondono alle righe e si tratta di una suddivisione di comodo non particolarmente interessante ai fini dell’analisi. APLUM è la fase di Analisi delle Corrispondenze sulla tabella lessicale forme grafiche × testi. Parametri: naxe: ledit: ngraf: npage: nrows: numero degli assi fattoriali parametro di stampa delle forme (0 = no, 1 = si). numero di grafici da visualizzare. numero di pagine dei grafici. numero di righe dei grafici. Il file dei parametri LEX1_par4.txt sarà pertanto: #****** Il programma richiede 2 file in formato txt # ------------------------------------------#****** 1) Il presente file di parametri (LEX1_par4.txt) Luca Giuliano – L’analisi automatica dei dati testuali. Software e istruzioni per l’uso http:// www.ledonline.it/ledonline/giulianoanalisi.html 107 Capitolo 7 # 2) Il file di testo (NTEXZ = 'LEX1_TT_Lemmi_sv80.txt'). #****** Il programma produce il file di output IMP.txt (risultati #****** Sintassi: ">"= continuazione, "#"= commenti LISTP = no, LISTF = no # (lascia questo così com’è) NTEXZ = 'LEX1_TT_Lemmi_sv80.txt' # nome file di testo (nome libero) STEP ARTEX ==== Archive - Texts or responses to open ended questions ITYP=1 LIREP=1 NCOL=80 STEP SELOX ==== Selection of open questions and of individuals NUMQ = 1 STEP NUMER ==== Numerical coding of words NSEU=5 NMOMI=0 LEDIT=3 NXLET =20 NXMAX=5000 weak "-+ strong .;:()!?, histo 40 110 220 430 550 550 600 530 450 400 400 300 200 150 > 150 100 100 100 100 100 end STEP MOTEX ==== crosstabulating words and texts NVSEL=0 LEDIT = 1 STEP APLUM ==== correspondence analysis table (words x texts) NAXE=3 LEDIT=1 NGRAF=2 STOP Per l’esecuzione della fase APLUM la fase MOCAR non è più necessaria. Mentre invece è assolutamente necessaria la fase MOTEX che crea la tabella parole × testi. L’output della fase APLUM è molto esteso e di difficile lettura. Ne riportiamo solo una piccola parte iniziale, tralasciando i grafici che possono essere visualizzati in DTM con un’altra procedura. L’analisi delle corrispondenze trasforma lo spazio generato dalle variabili di partenza in uno spazio euclideo generato da nuove variabili (assi) che permettono di sostituire le vecchie coordinate con le nuove coordinate ortogonali (ottenute per combinazione lineare delle vecchie variabili). Il numero di dimensioni del nuovo spazio sarà pari al minimo tra righe (forme) e colonne (te- Luca Giuliano – L’analisi automatica dei dati testuali. Software e istruzioni per l’uso http:// www.ledonline.it/ledonline/giulianoanalisi.html 108 Analisi multidimensionale dei dati testuali con DTM sti) -1. In questo caso, con 4 testi ci saranno al massimo tre dimensioni. L’inerzia totale riprodotta (detta anche traccia) è la somma degli autovalori, pari a 0,78 (il massimo è 1). Il primo asse (la migliore approssimazione alla matrice dei dati di partenza) riproduce il 46,88% dell’inerzia estratta (tab. 7.6). In generale per una trattazione completa dell’analisi multidimensionale dei dati e per una corretta interpretazione dei risultati si dovranno consultare testi specialistici di statistica. In particolare si consiglia il manuale di S. Bolasco (1999, 2004 - 2a edizione), con un’ampia bibliografia di riferimento. Per una trattazione più agile alla portata di un utente privo di una conoscenza statistico-matematica di base, si consiglia il cap. 5 del testo di A. Tuzzi (2003), oppure il cap. 5 del manuale di Ercolani, Areni, Mannetti (1966). Nella tab. 7.6 è riportata la somma dell’inerzia totale spiegata e la quota di inerzia (eigenvalue; autovalore o valore proprio) spiegata da ciascun fattore. Tab. 7.6. – Analisi delle corrispondenze: inerzia spiegata e autovalori --------------------------------------------Accuracy of computation : trace before diagonalisation .7779 sum of eigenvalues .7779 +--------+------------+----------+----------+ ! number ! Eigen ! percent. ! cumulat. ! ! ! value ! ! percent. ! +--------+------------+----------+----------+ ! 1 ! .3646 ! 46.88 ! 46.88 ! ! 2 ! .2311 ! 29.70 ! 76.58 ! ! 3 ! .1822 ! 23.42 ! 100.00 ! +--------+------------+----------+----------+ Nella tab. 7.7 vediamo l’output della procedura APLUM di analisi delle corrispondenze binarie con riferimento alle coordinate e ai contributi delle colonne della matrice (testi). Tab. 7.7. – Analisi delle corrispondenze: coordinate e contributi delle colonne *--------------------------------------------------------------------* name weight disto2 * coordinates * absolute con. * squared cos. * ********************************************************************** * f1 f2 f3 * f1 f2 f3 * f1 f2 f3 * ********************************************************************** * A_St .161 1.10 * .24 -.74 .70 * 2.5 37.7 43.8 * .05 49 .45 * * B_Ro .114 1.58 * .24 -.79 -.95 * 1.8 30.7 56.2 * .04 39 .57 * * C_It .610 .16 * .21 .35 -.01 * 7.4 31.6 .0 * .27 73 .00 * * D_ON .116 2.78 *-1.67 -.03 .00 * 88.4 .0 .0 * 1.00 00 .00 * *--------------------------------------------------------------------- Gli indicatori più rilevanti per la lettura dell’output e che quindi offrono maggiori informazioni per l’interpretazione degli assi fattoriali sono: Luca Giuliano – L’analisi automatica dei dati testuali. Software e istruzioni per l’uso http:// www.ledonline.it/ledonline/giulianoanalisi.html 109 Capitolo 7 • • • • • La massa (weigh): è il “peso relativo” di ciascuna modalità (testo) rispetto al complesso della variabile (corpus). Per le forme grafiche (righe) il peso è sempre piuttosto piccolo. L’indice di distorsione (disto2): è la “distanza dall’origine” di ciascuna modalità; dà indicazioni sul carattere periferico di certe modalità; un indice di distorsione molto alto si associa spesso ad una massa ridotta, il che dovrebbe indurre ad una certa cautela nel dare rilevanza a quella modalità nell’interpretazione. Le coordinate fattoriali (coordinates): indicano la posizione della modalità sull’asse sia in termini di distanza dall’origine che in termini di “versante” (positivo o negativo) dell’asse. Il contributo assoluto (absolute contributions): è il contributo che ciascuna modalità dà alla formazione dell’asse ed è proporzionale alla massa e al quadrato della coordinata fattoriale; rappresenta la parte di inerzia totale del fattore che è spiegata dalla modalità. Per ogni asse fattoriale la somma dei contributi assoluti è uguale a 100. Il contributo relativo (squared cosines): è un valore che rappresenta il contributo che un certo fattore Fi fornisce alla variabilità della modalità. Se il valore è basso vuol dire che la modalità non è ben rappresentata sull’asse fattoriale Fi e che quindi la sua variabilità è spiegata da altri fattori. Per ragioni di brevità non si riporta l’output relativo alla matrice parole × testi che è identico alla tabella 7.7 con l’unica differenza che sulle righe anziché i testi della partizione vi sono le parole. Per una valutazione dell’importanza dei contributi assoluti alla formazione degli assi fattoriali, si può calcolare il contributo medio pari a 100/V (dove V rappresenta il numero di parole-righe della matrice). In questo caso il contributo medio assoluto è pari a 0,31 (le parole in analisi sono 318). Pertanto potranno essere considerati “significativi” i contributi assoluti superiori a 0,3. Le coordinate fattoriali delle modalità sono visualizzabili anche dal Menu cliccando su Axes View. Da questa finestra è possibile ottenere un primo ordinamento delle forme grafiche in base al valore delle coordinate (cliccando axis nella intestazione della tabella). I grafici si apprezzano meglio con il visualizzatore grafico, cliccando dal Menu su Plane View - Active elements, selezionando il piano che si intende visualizzare e poi confermando su Display. Luca Giuliano – L’analisi automatica dei dati testuali. Software e istruzioni per l’uso http:// www.ledonline.it/ledonline/giulianoanalisi.html 110 Analisi multidimensionale dei dati testuali con DTM Fig. 7.4. – Piano fattoriale degli assi 1 (ascissa) e 2 (ordinata) Luca Giuliano – L’analisi automatica dei dati testuali. Software e istruzioni per l’uso http:// www.ledonline.it/ledonline/giulianoanalisi.html 111 Capitolo 7 Il grafico (fig. 7.4) – come capita spesso nell’analisi delle corrispondenze di una matrice di dati testuali – è denso di punti rappresentati e quindi non sempre leggibile agevolmente. Una opzione molto utile permette di visualizzare i punti attraverso una selezione delle forme. Cliccando su Manual selection point dalla finestra di selezione degli assi (fig. 7.5) è possibile scegliere quali modalità (forme grafiche) si vogliono rappresentare sul grafico. Fig. 7.5. – Finestra di dialogo per la selezione dei punti da rappresentare sul piano Per esempio, in questo caso, verranno selezionate le forme grafiche classificate con il tag grammaticale come verbi (V). Il grafico che ne risulta è molto più leggibile (fig. 7.6). Dal grafico si osserva una netta contrapposizione sull’asse dell’ascissa tra verbi che sono riferiti in massima parte ad atti compiuti da persone (godere, dovere, promuovere, assicurare, favorire) e verbi che si riferiscono ad atti legati a ruoli istituzionali (stabilire, giudicare, emanare, promulgare, esercitare, potere). Sull’asse dell’ordinata la polarità è meno chiara, ma sembrerebbe propendere sul semiasse positivo verso verbi che associano ai ruoli istituzionali funzioni di garanzia (stabilire, promuovere, promulgare, istituire) contro verbi, sul semiasse negativo, che denotano funzioni di esercizio del potere (venire, giudicare, ricevere, restare, riunire). Questa interpretazione è solo esemplificativa perché non ci sono elementi sufficienti per sostenere una vera e propria ipotesi di strutturazione del tessuto semantico, tuttavia appare interessante notare (fig. 7.4) come il testo della Dichiarazione dei Diritti dell’Uomo (D_ONU) si collochi sull’estremità sinistra del grafico (semiasse negativo dell’ascissa), il testo della Costituzione Luca Giuliano – L’analisi automatica dei dati testuali. Software e istruzioni per l’uso http:// www.ledonline.it/ledonline/giulianoanalisi.html 112 Analisi multidimensionale dei dati testuali con DTM Italiana (C_Italia) si collochi sul quadrante positivo (+/+) del piano, mentre lo Statuto Albertino (A_Statuto) e il testo della Costituzione della Repubblica Romana (B_Romana) si collochino entrambi sul quadrante negativo-positivo (-/+). L’analisi ha permesso di discriminare bene (e in modo automatico) tra il testo ultra-garantista ed etico dell’ONU, riferito alla persona, e gli altri tre testi prettamente giuridici. Tra questi è emersa una distinzione netta tra la costituzione moderna della Repubblica e le leggi costituzionali dell’Ottocento. Fig. 7.6. – Rappresentazione dei verbi sul piano fattoriale 1 e 2 Luca Giuliano – L’analisi automatica dei dati testuali. Software e istruzioni per l’uso http:// www.ledonline.it/ledonline/giulianoanalisi.html 113 Capitolo 7 7. 3. ANALISI DELLE CORRISPONDENZE BINARIE: PREPARAZIONE DELLA TABELLA LESSICALE PER LA PROCEDURA AFCOR L’analisi delle corrispondenze binarie (su due variabili) può essere effettuata anche direttamente sulla tabella lessicale forme × testi. La procedura è diversa, ma il risultato, con una stessa tabella lessicale, sarà identico. L’interesse di questa procedura sta nella possibilità di costruire una tabella lessicale ad hoc che contiene solo le forme grafiche ritenute interessanti per l’analisi. La tabella lessicale che metteremo in analisi è LEX1_TT_Fusioni_di_ Lemma.txt che è stata salvata in TALTAC e contiene le forme lemmatizzate secondo la partizione nei quattro testi. Possiamo acquisire il file in Excel per la prima fase di preparazione in DTM. Eliminiamo le colonne che non interessano per l’analisi come Numero di unità lessicali che sono state fuse in un’unica forma, Dispersione, Uso e Informazioni aggiuntive. Eliminiamo le righe (forme) che non ci interessano per l’analisi: le parole con frequenza inferiore a 11 (assumiamo una soglia di frequenza più alta che nel caso precedente), le forme ambigue e le parole “vuote” (Congiunzioni, Pronomi, Determinanti, Numeri, ecc.). Rimangono 121 forme: Aggettivi, Avverbi, Sostantivi, Verbi. A questo punto possiamo eliminare anche le colonne Categoria grammaticale e Occorrenze nel corpus che ci sono servite per la selezione delle forme da conservare. Il file, salvato come LEX1_TT_Fusioni_di_ Lemma121.txt, sarà aperto in TextPad per la seconda fase di preparazione. Il formato del file “dati” Motex121.txt in tabella per DTM deve essere il seguente: 'essere' 'potere' 'avere' 'dovere' 'esercitare' 'promuovere' '..........' '..........' 51 29 19 4 2 0 .. .. 33 20 6 5 3 1 .. .. 108 94 39 17 13 11 .. .. 12 13 12 11 1 4 .. .. Il file “dati” deve contenere una colonna di “etichette” tra gli apici che identificano le righe della tabella, cioè le forme grafiche. Gli apici possono essere aggiunti con la procedura illustrata nel par. 2.3.12. Il formato del file “dizionario” AC_dic.txt deve essere il seguente: Luca Giuliano – L’analisi automatica dei dati testuali. Software e istruzioni per l’uso http:// www.ledonline.it/ledonline/giulianoanalisi.html 114 Analisi multidimensionale dei dati testuali con DTM A_Statuto B_Romana C_Costituzione D_ONU Il file “dizionario” deve contenere le “etichette” di identificazione delle colonne della tabella, la partizione del corpus. Occorre fare attenzione alla modalità di posizione di queste etichette che devono sempre iniziare da “colonna” 6 nella visualizzazione della pagina, cioè ogni etichetta deve essere preceduta da 5 spazi bianchi. 7. 4. ANALISI DELLE CORRISPONDENZE BINARIE: PREPARAZIONE DEL FILE DEI PARAMETRI PER LA PROCEDURA AFCOR Durante la procedura vengono eseguite le seguenti fasi ARDAT SELEC AFCOR Fig. 7.7. – Fasi della procedura AFCOR Nella cartella di lavoro AC_Motex_LEX_121 copieremo tre file: • AC_dic.txt – il file dizionario • Motex121.txt – il file dati • AC_par.txt– il file parametri ARDAT è la fase in cui viene costruito l’archivio dei dati testuali. Parametri: nqexa: niexa: nidi: numero di variabili nel dizionario ndicz numero di individui (forme) nel file ndonz numero di gruppi di 4 caratteri che identificano gli individui (0=no; però è raccomandata la presenza di almeno un gruppo di 4 caratteri). SELEC è la fase di selezione delle variabili (attive e illustrative) e degli individui. Luca Giuliano – L’analisi automatica dei dati testuali. Software e istruzioni per l’uso http:// www.ledonline.it/ledonline/giulianoanalisi.html 115 Capitolo 7 Parametri: modalità di selezione degli individui (0 = tutti). indice delle variabile “peso degli individui” (0 = peso uniforme). ledit: stampa del dizionario delle variabili selezionate (0=no; 1=abbreviato; 2=esteso). act ill nomi cont freq end lseli: imass: Il comando di selezione (prima di end) utilizza le seguenti parole chiave: act per le variabili attive ill per le variabili illustrative nomi per le variabili nominali cont per le variabili continue freq per le frequenze Ciascun comando deve essere seguito dall’elenco delle variabili corrispondenti. AFCOR è la fase analisi delle corrispondenze. Parametri: naxe: ledin: naxed: numero stampa (0=no; numero degli assi richiesti. delle coordinate degli individui 1=attive; 2=tutte). di coordinate stampate. Il file parametri AC_par.txt sarà il seguente: # Example of simple correspondence analysis # continuation symbol = ">" (not necessary here), # Comments symbol = "#" #---------------------------------------------------------------LISTP = yes, LISTF=no # Global Parameters (leave as it is) #---------------------------------------------------------------NDICZ = 'AC_dic.txt' NDONZ = 'MOTEX121.txt' # name of dictionary file # name of data file STEP ARDAT ========== builds the Archive Dictionary and the Archive data file NQEXA = 4, NIEXA = 121, NIDI = 1 #---------------------- Comments about step ARDAT --------------# NQEXA = ... number of questions (or variables) in both # the dictionary and the data file # NIEXA = ... number of "individuals" (or rows) in the data file. # NIDI = ... indicate the presence of an identifier (recommended) #---------------------------------------------------------------- Luca Giuliano – L’analisi automatica dei dati testuali. Software e istruzioni per l’uso http:// www.ledonline.it/ledonline/giulianoanalisi.html 116 Analisi multidimensionale dei dati testuali con DTM STEP SELEC ========== Selects active, supplementary variables and observations LSELI = 0, IMASS = 0, LEDIT = 1 FREQ ACT 1 2 3 4 end STEP AFCOR ========== two way correspondence analysis NAXE = 3, LEDIN = 2 STOP # End of parameter file. L’output non è molto diverso da quelli ottenuti nella procedura APLUM. La tabella lessicale sulla quale viene applicata l’analisi delle corrispondenze è generata in modo diverso e le forme grafiche, in questo caso sono molto più selezionate (121 a fronte della 318 selezionate in base alla soglia di frequenza 5). Tuttavia il risultato complessivo si conforma all’interpretazione già data in precedenza. Nella tab. 7.8 è riportata la somma dell’inerzia totale spiegata e la quota di inerzia spiegata da ciascun fattore: Tab. 7.8. – Analisi delle corrispondenze: inerzia spiegata e autovalori --------------------------------------------Accuracy of computation : trace before diagonalisation .7258 sum of eigenvalues .7258 +--------+------------+----------+----------+ ! number ! Eigen ! percent. ! cumulat. ! ! ! value ! ! percent. ! +--------+------------+----------+----------+ ! 1 ! .3365 ! 46.36 ! 46.36 ! ! 2 ! .2102 ! 28.96 ! 75.32 ! ! 3 ! .1791 ! 24.68 ! 100.00 ! +--------+------------+----------+----------+ Nella tab. 7.9 vediamo l’output della procedura AFCOR di analisi delle corrispondenze binarie con riferimento alle coordinate e ai contributi delle frequenze attive (testi). Luca Giuliano – L’analisi automatica dei dati testuali. Software e istruzioni per l’uso http:// www.ledonline.it/ledonline/giulianoanalisi.html 117 Capitolo 7 Tab. 7.9. – Analisi delle corrispondenze: coordinate e contributi delle frequenze *---------------------------------------------------------------------* * iden weight disto * coordinates * absolute con. * squared cos. * *********************************************************************** * * f1 f2 f3 * f1 f2 f3 * f1 f2 f3 * *********************************************************************** * A_St 16.02 .98 * .21 -.34 .90 * 2.1 8.9 72.9 * .05 .12 .83 * * B_Ro 11.71 1.55 * .25 -1.08 -.58 * 2.1 64.5 21.7 * .04 .75 .21 * * C_Co 61.40 .14 * .19 .30 -.12 * 6.7 26.5 5.3 * .26 .63 .11 * * D_ON 10.87 2.76 *-1.66 -.04 .00 * 89.0 .1 .0 * 1.00 .00 .00 * *********************************************************************** Anche in questo caso non si riporta l’output relativo alla matrice parole × testi ma solo il grafico del piano fattoriale rappresentato dall’incrocio tra l’asse dell’ascissa (F1) e l’asse dell’ordinata (F2). Dal Menu cliccando su Plane View - Active elements richiamiamo il visualizzatore grafico e selezioniamo l’asse 1 (orizzontale) e l’asse 2 (verticale) confermando su Display. Fig. 7.8. – Rappresentazione delle frequenze attive sul piano fattoriale 1 e 2 Il grafico (fig. 7.8) ci mostra soltanto la proiezione delle frequenze attive, cioè dei profili colonna che rappresentano la partizione del corpus. Ancora una volta abbiamo la conferma della netta contrapposizione sull’asse dell’ascissa tra il testo della Dichiarazione dei Diritti dell’Uomo (semiasse negativo) e le Costituzioni Luca Giuliano – L’analisi automatica dei dati testuali. Software e istruzioni per l’uso http:// www.ledonline.it/ledonline/giulianoanalisi.html 118 Analisi multidimensionale dei dati testuali con DTM (semiasse positivo). Sull’asse dell’ordinata vediamo invece la conferma di una differente collocazione della Costituzione Italiana (semiasse positivo) rispetto ai due testi delle Costituzioni dell’Ottocento (semiasse negativo). Per ottenere una rappresentazione delle parole sul piano dobbiamo ripetere l’operazione di visualizzazione del grafico chiudendo la finestra del grafico, cliccando su Return nella finestra successiva e poi dal Menu selezionando Plane View – Individuals/rows. Tuttavia, per esemplificare meglio le possibiità di gestione dei grafici che DTM offre all’utente, eseguiamo questa procedura selezionando dal Menu la voce Plane View2. Questo secondo visualizzatore grafico è dotato di meno opzioni rispetto al precedente ma permette di generare un’immagine sulla quale è possibile intervenire direttamente (trascinando le forme grafiche con il mouse) per disallineare le forme sovrapposte al fine di ottenere una rappresentazione più leggibile, sebbene meno precisa. Dopo aver effettuato le necessarie modifiche il grafico è salvabile in formato bitmap (fig. 7.9). La procedura richiede il passaggio attraverso una serie di finestre di dialogo di facile gestione nelle quali si istruisce il software sui punti che si vogliono rappresentare (in questo caso: Individuals/rows) e sugli assi per la formazione del piano (Horizontal axis 1 / Vertical axis 2). All’apparire della finestra con il piano fattoriale, cliccare su View (in alto a sinistra del monitor) per visualizzare i punti. L’interpretazione, basata questa volta sull’insieme delle forme grafiche anziché solo sui verbi, è immediata e agevole. L’addensamento dei punti sul semiasse positivo dell’ascissa (F1) non permette comunque di evitare la sovrapposizione delle forme. Sul semiasse negativo del primo fattore troviamo parole come individuo, uomo, libertà, istituzione, eguale, diritto, persona che rappresentano bene il senso fondamentale della Dichiarazione dei Diritti dell’Uomo. Sul semiasse positivo troviamo le parole con un riferimento più propriamente giuridico. Sul semiasse positivo del secondo fattore troviamo parole come norme, giurisdizione, tutela, ordinamento, regionale che identificano i contenuti della Costituzione Italiana; mentre sulla parte estrema del semiasse negativo troviamo parole come potere, rappresentanti, popolo, assemblea, ministri che identificano una costituzione con vocazione “rivoluzionaria” fortemente ancorata al potere della rappresentanza assembleare come la Costituzione della Repubblica Romana. Lo Statuto Albertino, da questo punto di vista, si pone come punto di equilibrio tra gli altri due testi. Luca Giuliano – L’analisi automatica dei dati testuali. Software e istruzioni per l’uso http:// www.ledonline.it/ledonline/giulianoanalisi.html 119 Capitolo 7 Fig. 7.9. – Rappresentazione delle forme grafiche sul piano fattoriale 1 e 2 Luca Giuliano – L’analisi automatica dei dati testuali. Software e istruzioni per l’uso http:// www.ledonline.it/ledonline/giulianoanalisi.html 120 8. CONCLUSIONE Questa guida introduttiva all’analisi automatica dei dati testuali, dal punto di vista metodologico, si inserisce all’interno del dibattito sempre attuale tra “qualità” e “quantità” nelle scienze sociali. Nonostante i richiami anche recenti alla “fallace opposizione qualitativo-quantitativo” (De Nigris, 2003, p. 46), pienamente condivisibili e ampiamente documentati nella letteratura internazionale (Creswell, 1994; Silverman 2002; Trochim, 2001; Miles e Huberman, 2003) i due approcci sono solidamente ancorati a due differenti paradigmi epistemologici: l’interpretativismo sul versante delle tecniche qualitative e il positivismo (nella sue varianti moderne di neo e post-positivismo) sul versante delle tecniche quantitative. Senza addentrarci in una discussione lunga e complessa di questi problemi metodologici, sinteticamente si può dire che ciò che viene messo in evidenza di solito è il modo in cui il ricercatore si pone rispetto alla realtà oggetto del suo processo conoscitivo (Corbetta, 1999, pp. 21 sg.). Se l’accento viene posto su un mondo sociale conoscibile in modo imperfetto ma sostanzialmente indipendente dall’agire degli individui, allora il ricercatore si pone all’interno di una scelta di campo positivista; se invece l’accento viene posto sul significato che gli individui attribuiscono alla realtà sociale e sulla interpretazione che essi ne danno, allora il ricercatore si pone in un ambito interpretativista. Questo modo di porre la questione è utile per definire e leggere didatticamente le grandi strategie di ricerca che hanno caratterizzato più di un secolo di sviluppo delle scienze sociali, ma oggi appare del tutto superato nella pratica della ricerca che invece deve interrogarsi più propriamente sulle strategie di costruzione della base empirica piuttosto che sulle strategie di analisi dei dati (De Nigris, 2003, p. 108). Il recupero di una dimensione metodologica all’interno delle logiche della scoperta e non solo delle logiche della giustificazione (Giuliano, 2003) si inserisce in questo quadro di sviluppo. Luca Giuliano – L’analisi automatica dei dati testuali. Software e istruzioni per l’uso http:// www.ledonline.it/ledonline/giulianoanalisi.html 121 Capitolo 8 Volendo parafrasare una provocazione famosa come quella di Feyerabend quando sosteneva che tutte le scienze sono umane perché lo sguardo conoscente è sempre espressione di un essere umano (Feyerabend, 1993, p. 134), potremmo dire che tutti i dati sono qualitativi perché sono il risultato di esperienze sensoriali tradotte in due linguaggi: il linguaggio delle parole (“Carlo sta piangendo”, “Antonio è ubriaco”) oppure nel linguaggio dei numeri (il termometro segna 24 gradi centigradi, su 100 persone 51 hanno a votato no, 39 hanno votato sì e 10 si sono astenute). Come abbiamo potuto verificare nell’applicazione delle tecniche di analisi testuale, con la stessa modalità provocatoria potremmo affermare però che tutti i dati sono quantitativi perché è sempre possibile convertire il linguaggio delle parole nel linguaggio dei numeri attraverso un processo di codifica e poi, a sua volta, riportare i numeri (o meglio le misure) e le relazioni individuate tra i numeri in interpretazioni e spiegazioni che non possono essere altro che sequenze ordinate di parole dotate di senso. E così ritorniamo al tema di partenza: dall’oralità come esperienza al testo come trascrizione del discorso e come interpretazione dell’esperienza. Con l’analisi automatica dei dati testuali quello che cerchiamo di ottenere è uno schema interpretativo che soggiace alla lettura diretta del testo; una forma di gestione della conoscenza particolarmente adeguata per masse crescenti di informazioni che si accumulano soprattutto attraverso la digitalizzazione dei testi in Internet (Poibeau, 2003; Emirkanian et al., 2004; Mokrane et al., 2004; Quatrain et al., 2004). Naturalmente nessun automatismo può supplire da solo alla conoscenza tacita che si esprime nel con-testo e nell’extratesto. Sarebbe assurdo pensare di individuare uno schema interpretativo nel corpus del teatro di Shakespeare attraverso un’analisi automatica senza conoscere la mitologia classica, la storia dell’Inghilterra del XIV-XVI secolo e la poetica del teatro elisabettiano. Dobbiamo dare per scontato che nessun ricercatore si avventurerà ingenuamente nell’analisi automatica dei dati testuali senza una ricognizione della complessità cognitiva che i testi esprimono sia che si tratti di testi finzionali che di testi empirici. D’altra parte l’approccio automatico all’analisi del contenuto non è in grado di aggirare il problema del rapporto tra teoria e osservazione imposto da Popper (Mohler e Zuell, 2000). I software di computer-aided text analysis (Duriau e Reger, 2004) non sono in grado di offrire una soluzione generalizzata valida per tutti i tipi di dati testuali e non permettono di far nascere la teoria interpretativa dall’analisi dei dati come Atena dalla testa di Zeus. La teoria precede l’osservazione così come l’apprendimento dei segni linguistici di base precede la comprensione della lingua e apre la strada a nuovi percorsi di apprendimento (Boyatzis, 1998). Luca Giuliano – L’analisi automatica dei dati testuali. Software e istruzioni per l’uso http:// www.ledonline.it/ledonline/giulianoanalisi.html 122 Conclusione La ricerca su basi empiriche qualitative, comunque la si voglia intendere, è fortemente condizionata da processi decisionali del ricercatore e il ricercatore deve dunque essere consapevole che la sua è una ricerca soggettiva, o comunque più soggettiva di un approccio che sceglie di muoversi sul piano strettamente quantitativo. Non tragga in inganno il fatto che i dati testuali assumono una codifica numerica e – attraverso le occorrenze – le parole vengono trattate come frequenze e quindi come misure. Ciò che le occorrenze e le relazioni tra occorrenze tentano di misurare è il significato. Le occorrenze delle forme grafiche sono soltanto gli elementi microscopici che compongono le unità di senso, sono come coriandoli colorati che si dispongono in modo ordinato fino a costituire delle forme riconoscibili. Tuttavia è il ricercatore con le sue ipotesi di lavoro e con le sue scelte che imprime una certa direzione all’osservazione della nuvola di coriandoli e la lettura delle forme è guidata dai modelli statistici, dalle sue intuizioni e dal rigore delle sue argomentazioni. Allo stato attuale della conoscenza e dello sviluppo delle tecniche di analisi statistica dei dati testuali, il problema principale non è rappresentato dalla applicazione dei modelli statistici: questa fase è stata già affrontata soprattutto dagli studiosi della scuola francese dell’analyse des données come Benzécri, Lebart, Salem, Reinert, a partire dai primi anni ’70 fino alla metà degli anni ’80 del secolo scorso (Bolasco, 2003). Il vero problema di ricerca dell’analisi automatica dei dati testuali è quello della strategia di individuazione dell’informazione essenziale all’interno del testo e quindi quello della selezione delle unità di informazione ritenute più rilevanti per la ricostruzione del significato (Bolasco e della Ratta-Rinaldi, 2004; Poibeau, 2004). La prime tappe di questa strategia di analisi sono già in parte codificate ed implementate in software come TALTAC: • la normalizzazione preliminare del corpus; • le misure lessicometriche di base; • l’identificazione dei poliformi; • l’individuazione dei segmenti ripetuti; • la disambiguazione; • a lemmatizzazione; • l confronto con i lessici di frequenza per l’estrazione del linguaggio peculiare. Le altre tappe sono rappresentate dalla classificazione delle forme dal punto di vista grammaticale e semantico, dalla soluzione delle difficoltà dovute alla polisemia sintattica di tutte le categorie (Gross, 2004), oppure da problemi che vengono posti in essere dalla disponibilità di testi che non sono sequenziali ma vengono prodotti in interazione e in rapporto tra di loro come le trascrizioni Luca Giuliano – L’analisi automatica dei dati testuali. Software e istruzioni per l’uso http:// www.ledonline.it/ledonline/giulianoanalisi.html 123 Capitolo 8 di focus groups, di dibattiti, di testi tratti da newgroups, da forum in Internet o da mailing lists. Testi che presentano quella che André Salem ha chiamato “risonanza testuale”: frammenti di testo che sono in corrispondenza tra loro in due o più partizioni del testo: frasi ripetute, citazioni reciproche, utilizzazione delle stesse forme grafiche con connotazioni diverse, sovraccariche di significati che non sono immediatamente decodificabili se non attraverso la lettura del contesto (Salem, 2004). La risonanza testuale mette profondamente in crisi il concetto di frequenza come criterio principale di selezione delle parole e apre prospettive completamente nuove di analisi. Ogni strategia richiede una tattica, cioè una scelta che deve essere effettuata su aspetti singolari, decisioni che vengono prese in riferimento a problemi specifici che si impongono di volta in volta in modo diverso. La tattica, come in ogni metodo di ricerca che si rispetti, non viene improvvisata ma ha le sue regole (Miles e Huberman, 1994): • osservare con attenzione gli aspetti quantitativi per rintracciare uniformità e cambiamenti; • classificare, raggruppare ciò che è simile e operare delle distinzioni; • stabilire dei confronti, delle opposizioni, marcare differenze, far emergere le interdipendenze; • rarre profitto dai fatti sorprendenti, inattesi, da ciò che eccede le nostre attese o da ciò che non appare nonostante le previsioni; • mettere alla prova le interpretazioni con congetture atte a creare ipotesi alternative: se... allora; • trovare le linee di sintesi delle relazioni individuate, le componenti di base, le tipologie, le risposte provvisorie alle domande che hanno dato luogo alla costruzione del corpus analizzato. Un manuale introduttivo come questo può soltanto suggerire o adombrare questi problemi e queste strategie. L’analisi automatica dei dati testuali non è più un metodo pionieristico ma è ancora – e forse lo sarà sempre – un metodo di frontiera. Non offre una soluzione unica e valida per tutti i problemi di ricerca. Il ricercatore è costretto a muoversi con agilità e perizia tra diversi software e discipline cercando un percorso adeguato agli scopi che si prefigge. Spesso il suo scopo principale è l’esplorazione preliminare, la navigazione nel corpus in cerca di un approdo alle proprie idee o di un punto di appoggio alle proprie convinzioni. E’ una frontiera affascinante proprio perché ogni volta si pone come una sfida, la sfida di chi tenta di raccogliere gli indizi per sciogliere l’intreccio, l’enigma del significato, l’interpretazione del testo. Luca Giuliano – L’analisi automatica dei dati testuali. Software e istruzioni per l’uso http:// www.ledonline.it/ledonline/giulianoanalisi.html 124 BIBLIOGRAFIA Amaturo, E. (1993), Messaggio, simbolo, comunicazione, Roma, La Nuova Italia Scientifica. Bolasco, S. (1996), «Il lessico del discorso programmatico di governo», in M. Villone, A. Zuliani (a cura di), L’attività dei governi della repubblica italiana (19471994), Bologna, Il Mulino, pp. 163-349. Bolasco, S. (1997), «L’analisi informatica dei testi», in Ricolfi (1997), pp. 165-203. Bolasco, S. (1999), Analisi multidimensionale dei dati. Metodi, strategie e criteri d’interpretazione, Roma, Carocci (II ed. 2004). Bolasco, S. (2003), «L’analisi statistica dei dati testuali: intrecci problematici e prospettive», Giornata di studio su Applicazioni di analisi testuale, Roma – 16 dicembre 2003. Bolasco, S., Lebart, L., Salem, L. (a cura di) (1995), JADT 1995. Analisi statistica dei dati testuali, Roma, CISU. Bolasco, S., della Ratta Rinaldi, F. (2004), «Experiments on semantic categorisation of texts: analysis of positive and negative dimension», in Purnelle et al. (2004), I, pp. 202-210. Boyatzis, R.E. (1998), Transforming qualitative information. Thousand Oaks (CA), Sage. Brunet, E. (1978), Vocabulaire de Jean Giraudoux: Structure et Evolution. Genève, Slatkine. Chiari, I. (2004), Informatica e lingue naturali. Teorie e applicazioni computazionali per la ricerca sulle lingue, Roma, Aracne. Cipriani, R., Bolasco, S. (a cura di) (1995), Ricerca qualitativa e computer. Teorie, metodi e applicazioni, Milano, Franco Angeli. Corbetta, P. (1999), Metodologia e tecniche della ricerca sociale, Bologna, Il Mulino. Cossette, A. (1994), La richesse lexicale et sa mesure, Paris, Honoré Champion. Creswell, J.W. (1994), Research design: Qualitative and Quantitative approaches, Thousand Oaks (CA), Sage. De Mauro, T. (1970), Introduzione alla semantica, Bari, Laterza. De Nigris, D. (2003), Standard e non-standard nella ricerca sociale. Riflessioni metodologiche, Milano, Franco Angeli. Devoto, G. (1979), Avviamento alla etimologia italiana, Milano, Mondadori. Duriau, V.J., Reger, R.K. (2004), «Choice of Text Analysis Software in Organization Research: Insight from a Multi-dimensional Scaling (MDS) Analysis», in in Purnelle et al. (2004), I, pp. 382-389. Luca Giuliano – L’analisi automatica dei dati testuali. Software e istruzioni per l’uso http:// www.ledonline.it/ledonline/giulianoanalisi.html 125 Bibliografia Emirkanian, L., Fouqueré, C., Issac, F. (2004), «Corpus issus du Web: analyse des pertinences thématique et informationelle», in Purnelle et al. (2004), I, pp. 390398. Ercolani, A.P., Areni, A., Mannetti, L. (1999), La ricerca in psicologia, Roma, Carocci. Feyerabend, P.K. (1993), Dialogo sul metodo, Bari, Laterza. Ghiglione, R., Landré A., Bromber, M., Molette, P. (1998), L’analyse automatique des contenus, Paris, Dunod. Gianni, A. (a cura di) (1988), Dizionario italiano ragionato, Firenze, G. D’Anna – Sintesi. Giuliano, L. (2002), «G8-2001: la rivolta nel monitor. Analisi testuale dei messaggi nel newsgroup <it.eventi.g8-genova> durante gli scontri di piazza», in Morin et al. (2002), pp. 301-311. Giuliano, L. (2003), La logica della scoperta nelle scienze sociali, Milano, LED. Giuliano, L. (2004), «Il lessico della guerra nei newsgroups della categoria it.politica durante la guerra in Iraq», in Purnelle et al. (2004), I, pp. 504-514 Habert, B., Fabre, C., Issac, F. (1998), De l’écrit au numérique. Constituer, normaliser et exploiter les corpus électroniques, Paris, InterEdition – Masson. Hjelmslev, L. (1970), Il linguaggio, Torino, Einaudi. Labbé, D. (1995), «La structure du vocabulaire du Général De Gaulle», in Bolasco et al., 1995, II, pp. 165-176. Lepschy, G.C. (1979), «Lessico», in Enciclopedia, vol. VIII, Torino, Einaudi, pp. 129151. Marchese, A. (1978), Dizionario di retorica e stilistica, Milano, Mondadori. Miles, B.M., Huberman, A.M. (2003), Analyse des données qualitatives, (rev. de J.J. Bonniol), Paris, De Boeck. Mokrane, A., Arezki, R., Dray, G., Poncelet, P. (2004), «Cartographie automatique du contenu d’un corpus de documents textuels», in Purnelle et al. (2004), II, pp. 816-823. Mohler, Ph.P., Zuell, C. (2000), «Observe! A Popperian Critique of Automatic Content Analysis», in Rajman et al. (2004), II, pp. 389-395 Morin, A., Sébillot, P. (a cura di) (2002), Actes des 6es JADT, Saint-Malo, IRISAINRIA. Palmer, F. (1982), Introduzione alla semantica. Milano, Mondadori. Poibeau, T. (2003), Extraction d’information, du texte brut au web sémantique, Paris, Hermès. Poibeau, T. (2004), «Pré-analyse de corpus», in Purnelle et al. (2004), II, pp. 897-903. Purnelle, G., Fairon, C., Dister, A. (a cura di) (2004), Les poids des mots. Actes des 7es JADT, Louvain-la-Neuve, Presses Universitaires de Louvain. Quatrain, Y., Nugier, S., Peradotto, A., Garrouste, D. (2004), «Évaluation d’outils de Text Mining», in Purnelle et al. (2004), II, pp. 916-925. Ricolfi, L. (1997), La ricerca qualitativa, Roma, La Nuova Italia Scientifica. Rizzi, A. (1992), “Orientamenti attuali della statistica linguistica”, in Statistica, 4, pp. 487-505. Rizzi, A. (2001), Alcune analisi statistiche delle encicliche papali (in coll. con Bruno Bisceglia), Roma, Libreria Editrice Vaticana. Rajman, M., Chappelier, J.-C. (a cura di), (2000), Actes des 5es JADT, Lousanne, École Polytechnique Fédérale de Lousanne. Luca Giuliano – L’analisi automatica dei dati testuali. Software e istruzioni per l’uso http:// www.ledonline.it/ledonline/giulianoanalisi.html 126 Bibliografia Rorty, R. (1979), Philosophy and the Mirror of Nature, Princeton (N.J.), Princeton University Press. Salem, A. (2004), «Introduction à la résonance textuelle», in Purnelle et al. (2004), II, pp. 987-992. Segre, C. (1981), «Testo», in Enciclopedia, vol. XIV, Torino, Einaudi, pp. 269-291. Silverman, D. (2002), Come fare ricerca qualitativa, Roma, Carocci. Trochim, W.M.K. (2001), The Research Methods Knowledge Base, Cincinnati (OH), Cornell University. Tuzzi, A. (2003), L’analisi del contenuto. Introduzione ai metodi e alle tecniche di ricerca, Roma, Carocci. Yule, G. (1997), Introduzione alla linguistica. Bologna, Il Mulino Luca Giuliano – L’analisi automatica dei dati testuali. Software e istruzioni per l’uso http:// www.ledonline.it/ledonline/giulianoanalisi.html 127