ESERCITAZIONE R
12,19 marzo 2012
Mario Mastrangelo
email: [email protected]
Preparazione R
1 –
Installazione software e pacchetti
Il software R è liberamente scaricabile dal sito http://cran.r-project.org/ .
R è un software che utilizza pacchetti; una volta installato sul proprio pc, esso
è dotato di alcune funzionalità base che possono essere ampliate aggiungendo
appositi pacchetti. I pacchetti vanno installati sul proprio pc scaricandoli da
appositi server. Se ad esempio volessimo installare il pacchetto Rcmdr, ovvero
l’interfaccia grafica di R, dovremmo seguire la procedura seguente:
1
Preparazione R
2
2 –
3
Installazione pacchetti
Preparazione R
3 –
Caricamento pacchetti
I pacchetti a questo punto sono installati sul pc ma NON
sono ancora disponibili, perché vanno caricati sul software.
Tale caricamento può avvenire secondo la seguente
procedura :
2
1
Preparazione R
4 –
Caricamento pacchetti, apertura/chiusura
Oppure con la seguente istruzione
tramite linea di comando:
Il pacchetto e tutte le sue funzionalità sono ora effettivamente utilizzabili da R.
Quando si chiude una sessione di lavoro, i pacchetti caricati vengono “persi”, nel
senso che all’avvio di una nuova sessione, se necessario, dovranno essere
ricaricati. Non dovranno essere invece reinstallati, perché dopo la prima
installazione sono ormai in locale, cioè sono presenti sul pc.
Quando si chiude una sessione di lavoro, cliccando sulla X in alto a destra, R
chiede se l’area di lavoro deve essere salvata o meno. Salvare un’ area di lavoro
significa salvare tutti gli oggetti contenuti in tale area al momento del
salvataggio. Solo in questo caso, aprendo una nuova sessione di lavoro tali
oggetti saranno disponibili per ulteriori elaborazioni.
Preparazione R
5 –
Apertura/chiusura, salvataggio istruzioni
R consente anche di salvare una sessione di lavoro dandogli un nome specifico
A partire dal menù File. Come si vede da tale menù, in
ogni momento la sessione salvata potrà essere ricaricata.
La voce Salva cronologia permette invece di salvare in un
file txt tutti i comandi eseguiti nel corso dell’attuale
sessione di lavoro, e può essere molto utile per avere
sempre traccia delle elaborazioni svolte.
Gestione dati 1 –
Caricamento dati
Si suppone che il file txt contenente il
dataset sia nella directory di interfaccia
sist. Operativo-R, che è quella fornita
dal comando getwd().
Altrimenti nel comando read.table va
indicato il path assoluto del file (es.
“C:/Users/Mario/Desktop/Base.txt”). Il
comando read.table importa il file e
costruisce un oggetto R chiamato
dataframe, costituito da un insieme di
variabili. Scrivendo header=T diciamo
ad R che la prima riga contiene i nomi
delle variabili, mentre con sep=“\t”
indichiamo il separatore adeguato per
questo tipo di file (nel caso di file .csv, si
avrebbe sep=“;” ). Il comando
str(Dati) mostra il contenuto del
dataframe.
7
Gestione dati 2
– Conversione variabili quantitative in fattori
Le variabili del dataframe sono tutte numeriche perché abbiamo importato in
effetti solo numeri.
Di fatto la sola variabile ETA’ è quantitativa, le altre sono qualitative codificate
con numeri per comodità di creazione e gestione del dataset.
Occorre dunque operare la conversione , variabile per variabile.
Con l’espressione Dati$SESSO si indica la variabile SESSO del dataframe
Dati. La riga di comando di questa slide è interpretabile così: la variabile SESSO
del dataframe Dati viene sostituita con l’output del comando factor applicato
alla stessa variabile. All’interno di tale comando indichiamo nell’ordine le
etichette che vanno assegnate ai numeri che sono in partenza le modalità delle
variabili, per cui in questo caso ad 1 sarà associata la lettera “M”, a 2 la lettera
“F”.
Gestione dati 3
– Conversione variabili quantitative in fattori
Il risultato è visualizzabile ancora
con il comando str(Dati).
All’interno del dataframe la
variabile SESSO è ora un fattore
(una variabile qualitativa) a 2
livelli, ovvero a 2 modalità, M ed
F . Come si può osservare il
contenuto della variabile è
ancora una sequenza di 1 e 2, ma
ora R sa che tali numeri
corrispondono in effetti alle due
modalità suddette.
Gestione dati 4
– Conversione variabili quantitative in fattori
La precedente operazione si può fare anche
tramite interfaccia grafica. Il comando
library(Rcmdr) apre l’interfaccia. Successivamente
occorre
selezionare il
dataframe su cui
lavorare,
seguendo la
procedura indicata
Gestione dati 5
– Conversione variabili quantitative in fattori
Come si vede in basso, il rettangolo a fianco della
scritta Set di dati: contiene il nome del dataframe
selezionato, scritto in blu. Ciò significa che esso è
il dataset attivo.
Gestione dati 6
1
2
– Conversione variabili quantitative in fattori
La conversione di una
variabile quantitativa
in un fattore si opera
seguendo la
procedura a fianco
Gestione dati 7
3
– Conversione variabili quantitative in fattori
Il risultato è visibile mediante il comando str(Dati):
4
La precedente procedura è del tutto equivalente
all’istruzione tramite riga di comando:
Scarica

Conversione variabili quantitative in fattori