03 novembre 2008

Determinare la correlazione tra dati

La correlazione misura la relazione tra due o più set di dati o variabili.
Per esempio, quale può essere il rapporto tra spese per pubblicità e vendite? Qual è la correlazione tra queste due variabili? Maggiori spese di pubblicità determinano maggiori vendite?
Per rispondere a questa domanda bisogna determinare il coefficiente di correlazione.
Il coefficiente è un numero che rientra nel range -1 e 1:

1) Coefficiente di Correlazione: 1
Interpretazione: Le due variabili sono perfettamente e positivamente correlate.
Per esempio, un aumento del 10% nelle spese di pubblicità determina un incremento della stessa entità nelle vendite.

2) Coefficiente di Correlazione: Tra 0 e 1
Interpretazione: I due sets di dati sono positivamente correlati (un incremento nelle spese di pubblicità determina un incremento nelle vendite).
Tanto più l’indice è vicino ad 1, tanto maggiore è la correlazione positiva.

3) Coefficiente di Correlazione: 0
Interpretazione: Non vi è nessuna correlazione tra le due variabili.

4) Coefficiente di Correlazione:Tra 0 e -1
Interpretazione: I due sets di dati sono negativamente correlati (un incremento della prima variabile determina una riduzione della seconda).
Tanto più l’indice è vicino a -1, tanto più la correlazione è negativa.

5) Coefficiente di Correlazione: -1
Interpretazione: Vi è una perfetta correlazione negativa.
Per esempio, un incremento del 10% in spese di pubblicità determina una riduzione del 10% nelle vendite.

Vi spiego di seguito come si calcola la correlazione con Excel 2007.

1)Cliccare su "Dati", poi su "Analisi dati" per visualizzare la finestra di "Analisi dati";
2)Selezionare il "Tool Correlazione";
3)Selezionare l’intervallo di input da analizzare (Figura 1), con la possibilità di includere nella selezione anche l’intestazione di colonne (in tal caso cliccare su etichette nella prima riga);
4)Selezionare l’intervallo di output;
5)Clicca su "OK".

Figura 1


A questo punto Excel calcola la correlazione e mostra una tabella (Figura 2).
Ho incluso la colonna intitolata "Tea in China" a livello di controllo.
Come potete vedere la correlazione tra advertising o sales e i numeri di Tea in China è quasi nulla.
Vi è, invece, una correlazione alta e positiva tra Advertising e Sales (0,74).

Figura 2

Nota

Puoi anche calcolare la correlazione senza utilizzare il tool, ma semplicemente con la formula CORRELAZIONE(matrice1;matrice2).
Questa funzione restituisce il coefficiente di correlazione per i set di dati.
Se utilizzi la versione inglese di Excel, la formula diventa CORREL(array1,array2), ovviamente con la stessa logica.