Aspetto di una distribuzione Un altro aspetto che si prende in considerazione in una distribuzione è la sua forma. Per rendersi conto se una distribuzione è simmetrica basta mettere a confronto la media con la mediana: se esse coincidono la distribuzione è simmetrica; inevitabilmente se sono diverse la distribuzione non è simmetrica. Si definisce il coefficiente di asimmetria di Pearson il coefficiente che mette proprio in relazione la media con la mediana. Vien da se che se tale coefficiente è pari a 0 la distribuzione è simmetrica; altrimenti no. In quest'ultimo caso la distribuzione non sarà simmetrica. In generale il coefficiente di Pearson assume valori compresi fra -3 e 3. Dato un insieme di dati con media x e scarto quadratico medio s, risulta che: 1 − il 68% dei dati è compreso fra x − s e x+ s; 2 − il 95% dei dati è compreso fra x − 2s e x + 2s; 3 − il 99.7% dei dati è compreso fra x − 3s e x + 3s; Variabili e correlazione In una analisi statistica ìè doveroso confrontare più indici tra loro che fanno riferimento allo stesso numero di dati. Nasce spontaneo chiedere se esiste un legame quindi una correlazione fra le variabili osservate. La prima mossa da fare è quella di disegnare un grafico relativo, per esempio, a due variabili. Tale diagramma è detto grafico di dispersione. Si riportano sull'asse x i dati relativi alla prima variabile e sull'asse y i dati della seconda variabile. E' evidente che se esiste una correlazione fra le variabili devono risultare nel grafico. La covarianza può essere sia + sia - ed il coefficiente di correlazione ha lo stesso segno della covarianza. La correlazione si dice positiva se Sx y > 0; si dice che c'è La correlazione si dice negativa se S xy< 0; le variabili sono non correlate se Sxy = 0 Il coefficiente di correlazione r è compreso tra −1 e 1; in particolare r = ±1 se i punti sono perfettamente allineati sulla stessa retta. Retta di regressione Ricordando che -1 < r < 1 e che se r = 1 o r = -1 i punti sono allineati sulla stessa retta un modo per calcolare la retta di regressione. Il coefficiente r è vicino a 1 quindi implica una forte correlazione positiva tra le variabili. Regressione non lineare In generale riportando sul grafico di dispersione i dati ottenuti con delle osservazioni (x1 , y1), (x2 , y2), ..., (xn , yn), può accadere che la correlazione tra tali dati non sia lineare, cioè nel grafico stesso i dati non sono disposti su una retta ma bensì su una curva. Inevitabilmente la curva che approssima i dati non sarà più un polinomio di primo grado, la retta, ma ma un polinomio di grado > 1. Considerando un polinomio di secondo grado si otterrà la parabola dei minimi quadrati.