informatica di base
per le discipline umanistiche
vito pirrelli
Istituto di Linguistica
Computazionale CNR Pisa
Dipartimento di linguistica
Università di Pavia
lezione 5
quinta lezione:
la matematica delle parole
vito pirrelli
Istituto di Linguistica
Computazionale CNR Pisa
Dipartimento di linguistica
Università di Pavia
lezione 5
livelli di analisi del testo
Le LE#PQ@FP3@FS3# LO#RD@FP# LE#SP@NN#
ricerche RICERCA#S@FP#
di DI#E@#
Gabriella GABRIELLA#SP@FS@MS# GABRIELLA#SP@NN#
sono ESSERE#V@P3IP@S1IP# SONARE#V@S1IP#
proseguite PROSEGUIRE#V@FPPR# PROSEGUIRE#V@P2IP@P2MP#
per PER#E@#
tutta TUTTO#A@FS# TUTTO#D@FS# TUTTO#P@FS#
la LO#RD@FS# LA#PQ@FS3# LA#S@MP@MS#
mattinata MATTINARE#V@FSPR# MATTINATA#S@FS#
, ,#@@#
con CON#E@#
Le ricerche di Gabriella sono proseguite
elicotteri ELICOTTERO#S@MP#
tutta la mattinata con elicotteri, posti
, ,#@@#
posti PORRE#V@MPPR# POSTO#S@MP# POSTARE#V@S1CP@S2CP@S2IP@S3CP#
blocco e perquisizioni.
di DI#E@#
blocco BLOCCARE#V@S1IP# BLOCCO#S@MS#
e E#CC@# E#S@FP@FS#
perquisizioni PERQUISIZIONE#S@FP#
. .#@@#
lezione 5
per
di
ascii e unicode
lezione 5
ascii e unicode





consente la codifica di tutti i
caratteri scritti esistenti al
mondo;
non ricorre a combinazioni di
più tasti battuti in sequenza;
tratta tutti i caratteri, siano
essi alfabetici che ideografici,
allo stesso modo;
per identificare ciascun
carattere Unicode usa una
sequenza di 16 bit;
in questo modo si possono
codificare direttamente più di
65.000 caratteri diversi
lezione 5
ascii e unicode







universale
semplice e diretto
univoco
uniforme (codifica a numero fisso di bit)
in questo modo si possono codificare
direttamente più di 65.000 caratteri diversi
Unicode si occupa di caratteri in quanto entità
astratte (ad es. lettera latina maiuscola), ma non
si occupa della loro resa grafica sullo schermo
Unicode codifica anche simboli diacritici (tilde,
umlaut, cediglia etc.) ed è in grado di combinare
caratteri e simboli diacritici, così da poter
codificare oltre un milione di grafemi distinti
lezione 5
la struttura di una parola
a
d
r
i
a
t
97
100 114 105 97
i
c
116 105 99
codifica ASCII
lezione 5
o
111
ordinamento alfabetico
ionio
adriatico
adriatico
ionio
tirreno
mediterraneo
mediterraneo
tirreno
lezione 5
ordinamento alfabetico (II)
a
<?
i
a
d
<?
o
d
r
<?
n
r
i
i
a
o
min
i
a
t
t
i
i
c
c
o
o
la stringa che “precede” alfabeticamente è
il risultato di una “funzione di minino”
lezione 5
diagramma di ordinamento
inizializzazione
lista non ordinata
di N stringhe
i = 0;
NO
test
i = N-1?
SI’
lista ordinata
metti all’i-esimo posto
la stringa più piccola
tra le ultime N-i stringhe
istruzione
i = i+1;
(per saperne di più clicca sul box “istruzione”!)
lezione 5
(fai click per far apparire gli altri passi)
passo di ordinamento
k = i;
incremento
k = k+1;
NO
test 1
inizializzazione
k = N?
stringa i-esima
< stringa kesima?
SI’
SI’
NO
istruzioni
lista nuova
test 2
stringa “temp” = stringa i-esima;
stringa i-esima = stringa k-esima;
stringa k-esima = stringa temp;
lezione 5
(fai click per far apparire gli altri passi)
esempio
ionio
i =
adriatico
adriatico
k =
adriatico
adriatico
ionio
tirreno
tirreno
tirreno
mediterraneo
mediterraneo
mediterraneo
0
1
stringa i-esima
< stringa kesima?
NO
stringa “temp” = stringa i-esima;
stringa i-esima = stringa k-esima;
stringa k-esima = stringa temp;
temp = ionio
stringa i-esima = stringa k-esima
stringa k-esima = temp
lezione 5
(fai click per far apparire gli altri passi)
esempio
ionio
i =
adriatico
adriatico
adriatico
adriatico
ionio
tirreno
tirreno
k =
tirreno
mediterraneo
mediterraneo
mediterraneo
0
stringa i-esima
< stringa kesima?
SI’
NO
2
stringa “temp” = stringa i-esima;
stringa i-esima = stringa k-esima;
stringa k-esima = stringa i-esima;
NO
temp = ionio
k = k+1
lezione 5
k = N?
esempio
ionio
i =
adriatico
adriatico
adriatico
adriatico
ionio
tirreno
tirreno
tirreno
mediterraneo
mediterraneo
mediterraneo
stringa i-esima
< stringa kesima?
0
SI’
NO
stringa “temp” = stringa i-esima;
stringa i-esima = stringa k-esima;
stringa k-esima = stringa i-esima;
k = 3
NO
temp = ionio
k = k+1
lezione 5
k = N?
SI’
esempio
Le ricerche di Gabriella proseguite per
tutta la serata con elicotteri, posti di
blocco e perquisizioni. Una prima
segnalazione e' stata inviata alla Procura
della Repubblica, poi il caso e' passato
nelle mani del giudici di viale delle
Milizie.




lunghezza frase 1: 14 “parole”
lunghezza frase 2: 25 “parole”
lunghezza media:
(14+25)/2 = 19.5 “parole”
deviazione standard: 7.78
lezione 5
quant’è ricco il lessico di un testo?
il rapporto “type/token”
Le ricerche di Gabriella proseguite per
tutta la serata con elicotteri, posti di
blocco e perquisizioni. Una prima
segnalazione e' stata inviata alla Procura
della Repubblica, poi il caso e' passato
nelle mani del giudici di viale delle
Milizie.

“type/token ratio”: rapporto tra cardinalità del lessico
e frequenza globale del testo
 |V| / N
 39/44 = 0.89
 0 < ( |V| / N )< 1
lezione 5
quant’è ricco il lessico di un testo?
il numero di “hapax legomena”
Le ricerche di Gabriella proseguite per
tutta la serata con elicotteri, posti di
blocco e perquisizioni. Una prima
segnalazione e' stata inviata alla Procura
della Repubblica, poi il caso e' passato
nelle mani del giudici di viale delle
Milizie.



un hapax legomenon è una parola con frequenza 1,
cioè un membro della classe di frequenza V1
|V1|/ N
40/44 = 0.91
lezione 5
laboratorio in linea

http://foxdrake.ilc.cnr.it/webtools/
lezione 5
quinta lezione
la matematica delle parole
fine quinta lezione
(lezione 6)
lezione 5
Scarica

lezione 5 - Istituto di Linguistica Computazionale "Antonio