informatica di base per le discipline umanistiche vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università di Pavia lezione 5 quinta lezione: la matematica delle parole vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università di Pavia lezione 5 livelli di analisi del testo Le LE#PQ@FP3@FS3# LO#RD@FP# LE#SP@NN# ricerche RICERCA#S@FP# di DI#E@# Gabriella GABRIELLA#SP@FS@MS# GABRIELLA#SP@NN# sono ESSERE#V@P3IP@S1IP# SONARE#V@S1IP# proseguite PROSEGUIRE#V@FPPR# PROSEGUIRE#V@P2IP@P2MP# per PER#E@# tutta TUTTO#A@FS# TUTTO#D@FS# TUTTO#P@FS# la LO#RD@FS# LA#PQ@FS3# LA#S@MP@MS# mattinata MATTINARE#V@FSPR# MATTINATA#S@FS# , ,#@@# con CON#E@# Le ricerche di Gabriella sono proseguite elicotteri ELICOTTERO#S@MP# tutta la mattinata con elicotteri, posti , ,#@@# posti PORRE#V@MPPR# POSTO#S@MP# POSTARE#V@S1CP@S2CP@S2IP@S3CP# blocco e perquisizioni. di DI#E@# blocco BLOCCARE#V@S1IP# BLOCCO#S@MS# e E#CC@# E#S@FP@FS# perquisizioni PERQUISIZIONE#S@FP# . .#@@# lezione 5 per di ascii e unicode lezione 5 ascii e unicode consente la codifica di tutti i caratteri scritti esistenti al mondo; non ricorre a combinazioni di più tasti battuti in sequenza; tratta tutti i caratteri, siano essi alfabetici che ideografici, allo stesso modo; per identificare ciascun carattere Unicode usa una sequenza di 16 bit; in questo modo si possono codificare direttamente più di 65.000 caratteri diversi lezione 5 ascii e unicode universale semplice e diretto univoco uniforme (codifica a numero fisso di bit) in questo modo si possono codificare direttamente più di 65.000 caratteri diversi Unicode si occupa di caratteri in quanto entità astratte (ad es. lettera latina maiuscola), ma non si occupa della loro resa grafica sullo schermo Unicode codifica anche simboli diacritici (tilde, umlaut, cediglia etc.) ed è in grado di combinare caratteri e simboli diacritici, così da poter codificare oltre un milione di grafemi distinti lezione 5 la struttura di una parola a d r i a t 97 100 114 105 97 i c 116 105 99 codifica ASCII lezione 5 o 111 ordinamento alfabetico ionio adriatico adriatico ionio tirreno mediterraneo mediterraneo tirreno lezione 5 ordinamento alfabetico (II) a <? i a d <? o d r <? n r i i a o min i a t t i i c c o o la stringa che “precede” alfabeticamente è il risultato di una “funzione di minino” lezione 5 diagramma di ordinamento inizializzazione lista non ordinata di N stringhe i = 0; NO test i = N-1? SI’ lista ordinata metti all’i-esimo posto la stringa più piccola tra le ultime N-i stringhe istruzione i = i+1; (per saperne di più clicca sul box “istruzione”!) lezione 5 (fai click per far apparire gli altri passi) passo di ordinamento k = i; incremento k = k+1; NO test 1 inizializzazione k = N? stringa i-esima < stringa kesima? SI’ SI’ NO istruzioni lista nuova test 2 stringa “temp” = stringa i-esima; stringa i-esima = stringa k-esima; stringa k-esima = stringa temp; lezione 5 (fai click per far apparire gli altri passi) esempio ionio i = adriatico adriatico k = adriatico adriatico ionio tirreno tirreno tirreno mediterraneo mediterraneo mediterraneo 0 1 stringa i-esima < stringa kesima? NO stringa “temp” = stringa i-esima; stringa i-esima = stringa k-esima; stringa k-esima = stringa temp; temp = ionio stringa i-esima = stringa k-esima stringa k-esima = temp lezione 5 (fai click per far apparire gli altri passi) esempio ionio i = adriatico adriatico adriatico adriatico ionio tirreno tirreno k = tirreno mediterraneo mediterraneo mediterraneo 0 stringa i-esima < stringa kesima? SI’ NO 2 stringa “temp” = stringa i-esima; stringa i-esima = stringa k-esima; stringa k-esima = stringa i-esima; NO temp = ionio k = k+1 lezione 5 k = N? esempio ionio i = adriatico adriatico adriatico adriatico ionio tirreno tirreno tirreno mediterraneo mediterraneo mediterraneo stringa i-esima < stringa kesima? 0 SI’ NO stringa “temp” = stringa i-esima; stringa i-esima = stringa k-esima; stringa k-esima = stringa i-esima; k = 3 NO temp = ionio k = k+1 lezione 5 k = N? SI’ esempio Le ricerche di Gabriella proseguite per tutta la serata con elicotteri, posti di blocco e perquisizioni. Una prima segnalazione e' stata inviata alla Procura della Repubblica, poi il caso e' passato nelle mani del giudici di viale delle Milizie. lunghezza frase 1: 14 “parole” lunghezza frase 2: 25 “parole” lunghezza media: (14+25)/2 = 19.5 “parole” deviazione standard: 7.78 lezione 5 quant’è ricco il lessico di un testo? il rapporto “type/token” Le ricerche di Gabriella proseguite per tutta la serata con elicotteri, posti di blocco e perquisizioni. Una prima segnalazione e' stata inviata alla Procura della Repubblica, poi il caso e' passato nelle mani del giudici di viale delle Milizie. “type/token ratio”: rapporto tra cardinalità del lessico e frequenza globale del testo |V| / N 39/44 = 0.89 0 < ( |V| / N )< 1 lezione 5 quant’è ricco il lessico di un testo? il numero di “hapax legomena” Le ricerche di Gabriella proseguite per tutta la serata con elicotteri, posti di blocco e perquisizioni. Una prima segnalazione e' stata inviata alla Procura della Repubblica, poi il caso e' passato nelle mani del giudici di viale delle Milizie. un hapax legomenon è una parola con frequenza 1, cioè un membro della classe di frequenza V1 |V1|/ N 40/44 = 0.91 lezione 5 laboratorio in linea http://foxdrake.ilc.cnr.it/webtools/ lezione 5 quinta lezione la matematica delle parole fine quinta lezione (lezione 6) lezione 5