ESERCITAZIONE R Statistica Per La Valutazione Dei Servizi Turistici 1 Gestione dati 1 – Caricamento dati > Dati<-read.table("Dataset_2202311.txt", header=TRUE, sep=“\t") > str(Dati) 'data.frame': 42 obs. of 6 variables: $ SESSO: int 2 1 2 2 2 2 1 1 1 2 ... $ ETA : int 26 29 30 28 37 51 24 35 43 17 ... $ REG : int 1 1 1 1 2 2 2 3 3 3 ... $ TIT : int 3 3 4 3 3 3 4 3 2 2 ... $ GV : int 10 14 14 7 14 21 14 16 20 15 ... $ RED : int 900 1200 1200 1000 1400 2000 800 2300 1700 0 ... 2 Gestione dati 2 – Conversione variabili quantitative in fattori > Dati$SESSO<-factor(Dati$SESSO, labels=c("M","F")) > str(Dati) 'data.frame': 42 obs. of 6 variables: $ SESSO: Factor w/ 2 levels "M","F": 2 1 2 2 2 2 1 1 1 2 ... $ ETA : int 26 29 30 28 37 51 24 35 43 17 ... $ REG : int 1 1 1 1 2 2 2 3 3 3 ... $ TIT : int 3 3 4 3 3 3 4 3 2 2 ... $ GV : int 10 14 14 7 14 21 14 16 20 15 ... $ RED : int 900 1200 1200 1000 1400 2000 800 2300 1700 0 ... 3 Gestione dati 3 – Conversione variabili quantitative in fattori > library(Rcmdr) ………. > str(Dati) 'data.frame': 42 obs. of 6 variables: $ SESSO: Factor w/ 2 levels "M","F": 2 1 2 2 2 2 1 1 1 2 ... $ ETA : int 26 29 30 28 37 51 24 35 43 17 ... $ REG : Factor w/ 5 levels "Lazio","Campania",..: 1 1 1 1 2 2 2 3 3 3 ... $ TIT : Factor w/ 4 levels "L. elementare",..: 3 3 4 3 3 3 4 3 2 2 ... $ GV : int 10 14 14 7 14 21 14 16 20 15 ... $ RED : int 900 1200 1200 1000 1400 2000 800 2300 1700 0 ... 4 Gestione dati 4 > names(Dati) [1] "SESSO" "ETA" – Rinominare una variabile e salvare il file di dati attivo "REG" "TIT" "GV" "RED" > names(Dati)[c(5)]<-c("GI_VAC") > str(Dati) 'data.frame': 42 obs. of 6 variables: $ SESSO : Factor w/ 2 levels "M","F": 2 1 2 2 2 2 1 1 1 2 ... $ ETA : int 26 29 30 28 37 51 24 35 43 17 ... $ REG : Factor w/ 5 levels "Lazio","Campania",..: 1 1 1 1 2 2 2 3 3 3 ... $ TIT : Factor w/ 4 levels "Lic. elementare",..: 3 3 4 3 3 3 4 3 2 2 ... $ GI_VAC: int 10 14 14 7 14 21 14 16 20 15 ... $ RED : int 900 1200 1200 1000 1400 2000 800 2300 1700 0 ... > save("Dati", file="C:/Users/Mario/Documents/Dati.rda") (> load("C:/Users/Mario/Documents/Dati.rda")) 5 Analisi monovariata 1 – Distribuzioni di frequenza attach(Dati) > table(REG) REG Lazio Campania Toscana Sicilia Lombardia 11 8 8 7 8 > table(REG)/length(REG) REG Lazio Campania Toscana Sicilia Lombardia 0.2619048 0.1904762 0.1904762 0.1666667 0.1904762 6 Analisi monovariata 2 – Distribuzioni di frequenza e rappresentazioni grafiche > (table(REG)/length(REG))*100 REG Lazio Campania Toscana Sicilia Lombardia 26.19048 19.04762 19.04762 16.66667 19.04762 > pie(table(REG)) 7 Analisi monovariata 3 – Rappresentazioni grafiche > colori=c("red","blue","yellow","green","orange") > pie(table(REG), col=colori, main="Diagramma a torta delle regioni di provenienza") 8 Analisi monovariata 4 – Rappresentazioni grafiche > slices<-c(26,19,19,17,19) > lbs<-c("Lazio","Campania","Toscana","Sicilia","Lombardia") > lbs<-paste(lbs,slices) > lbs<-paste(lbs,"%",sep="") > pie(slices, labels=lbs, col=colori,main="Diagramma a torta delle regioni di provenienza") 9 Analisi monovariata 5 – Rappresentazioni grafiche 10 Analisi monovariata 6 – Rappresentazioni grafiche > library(plotrix) > pie3D(slices,labels=lbs, col=colori, main="Diagramma a torta delle regioni di provenienza") 11 Analisi monovariata 7 – Rappresentazioni grafiche > plot(REG) > plot(REG, col="dark blue", ylim=c(0,12), main="Grafico a barre delle regioni di provenienza") 12 Analisi monovariata 8 – Variabili quantitative > summary(GI_VAC) Min. 1st Qu. Median Mean 3rd Qu. Max. 3.00 12.00 14.00 15.21 19.75 30.00 > mean(GI_VAC) [1] 15.21429 > median(GI_VAC) [1] 14 > min(GI_VAC) [1] 3 13 Analisi monovariata 9 – Variabili quantitative > max(GI_VAC) [1] 30 > range(GI_VAC) [1] 3 30 > quantile(GI_VAC) 0% 25% 50% 75% 100% 3.00 12.00 14.00 19.75 30.00 14 Analisi monovariata 10 – Variabili quantitative > var(GI_VAC) [1] 32.70906 > sd(GI_VAC) [1] 5.719183 > cv(GI_VAC) [1] 0.3714067 #richiede il pacchetto labstatR 15 Analisi monovariata 11 – Variabili quantitative Boxplot > boxplot(GI_VAC, main="Boxplot distribuzione giorni vacanza") 16 Analisi monovariata 12 – Variabili quantitative: aggregazione delle modalità in classi > table(ETA) ETA 10 17 18 19 21 23 24 25 26 27 28 29 30 31 32 34 35 37 39 41 43 44 45 49 51 52 55 59 65 66 74 1 1 1 1 1 2 1 1 1 2 3 1 1 1 1 1 1 3 1 1 2 2 1 1 1 2 1 2 2 1 1 > table(cut(ETA,breaks=c(0,20,40,60,80))) (0,20] (20,40] (40,60] (60,80] 4 21 13 4 > table(cut(ETA,breaks=c(0,20,40,60,80),right=FALSE)) [0,20) [20,40) [40,60) [60,80) 4 21 13 4 17 Analisi monovariata 13 – Variabili quantitative rappresentazioni grafiche > hist(ETA) > hist(ETA,xlab="Età",col="orange", main="Istogramma delle età") 18