REGRESSIONE LINEARE SEMPLICE
CI SONO MOLTI PROBLEMI BIOLOGICI CHE HANNO A CHE FARE CON RELAZIONI TRA DUE O PIU’ VARIABILI
QUAL E' LA RELAZIONE TRA IL RAPPORTO METABOLICO E LA TEMPERATURA, TRA LA DOSE DI UNA MEDICINA E LA PRESSIONE DEL SANGUE, TRA L'ALTITUDINE E L'ALTEZZA A CUI PUO’ PUO' CRESCERE UNA PARTICOLARE SPECIE DI PIANTA?
IN QUESTE RELAZIONI CI SONO DUE COMPONENTI DI BASE:
UNA COMPONENTE DI ERRORE E UNA COMPONENTE DOVUTA AGLI EFFETTI DELLO SPECIFICO FATTORE CHE STIAMO ANALIZZANDO.
LA LETTURA DELLA PRESSIONE DEL SANGUE POTREBBE ESSERE INFLUENZATA DALLA DOSE DI UNA MEDICINA, MA SARA' ANCHE INFLUENZATA DA MOLTI ALTRI FATTORI
( PER ES. ETA', SESSO, COSTITUZIONE GENETICA) CHE UNITI INSIEME, CONTRIBUISCONO ALL'ERRORE.
PRESSIONE DEL SANGUE = COMPONENTI DETERMINISTICI (IN QUESTO CASO LA MEDICINA) + ERRORE CASUALE
L'ANALISI DI REGRESSIONE
STUDIA QUESTA RELAZIONE ED I SUOI COMPONENTI.IL TERMINE REGRESSIONE SI RIFERISCE ALL'IDEA CHE SE SI RIUSCISSE AD ELIMINARE TUTTO L'ERRORE CASUALE, LA RELAZIONE RITORNEREBBE (REGREDIREBBE) ALLA RELAZIONE "VERA" CHE COMPRENDE SOLO IL COMPONENTE DETERMINISTICO.
L'ANALISI DI REGRESSIONE PIU' SEMPLICE COMPRENDE UN COMPONENTE DETERMINISTICO E UNA RELAZIONE LINEARE TRA UNA VARIABILE (AD ES. PRESSIONE DEL SANGUE) E LA COMPONENTE (DOSE DI MEDICINA).
CI SI PUO' RIFERIRE ALLA COMPONENTE DETERMINISTICA ANCHE COME AL TRATTAMENTO O FATTORE.
SUPPONIAMO DI AVER CONDOTTO UNA STUDIO SULLA RELAZIONE TRA IL NUMERO DI "ANELLI DELLA CRESCITA" DI UN ALBERO E L'ETA' DI UN ALBERO. SONO STATI PIANTATI ALCUNI ALBERI E SONO STATI PRESI CAMPIONI CASUALI SEMPLICI DI TRE ALBERI UNA VOLTA ALL'ANNO PER SEI ANNI.
I DATI OTTENUTI SONO RACCOLTI IN TABELLA:
|
ANELLI |
0, 1, 2 |
1, 2, 3 |
2, 3, 4 |
3, 4, 5 |
4, 5, 6 |
5, 6, 7 |
|
ANNI |
1 |
2 |
3 |
4 |
5 |
6 |
m
1. C'E' UNA VARIAZIONE IN CIASCUN CAMPIONE.
2. C'E' UNA RELAZIONE PERFETTAMENTE LINEARE TRA LA MEDIA DI OGNI CAMPIONE E IL LIVELLO DI TRATTAMENTO (IL NUMERO DI ANNI CHE GLI ALBERI SONO STATI FATTI CRESCERE).
CI SONO DUE FONTI DI VARIAZIONE: UNA DOVUTA ALL'ERRORE ( EFFETTI CASUALI) E L'ALTRA DOVUTA AL TRATTAMENTO. E' FACILE SEPARARLI DA QUESTI DATI.
PER OGNI VALORE X SUL GRAFICO LA DISPERSIONE E' DOVUTA ALL'ERRORE, MA LA DIREZIONE VERSO L'ALTO E' DOVUTA AL TRATTAMENTO.

GUARDIAMOLO DA UN ALTRO PUNTO DI VISTA.
|
ANELLI |
0, 1, 2 |
1, 2, 3 |
2, 3, 4 |
3, 4, 5 |
4, 5, 6 |
5, 6, 7 |
|
ANNI |
1 |
2 |
3 |
4 |
5 |
6 |
m
CONSIDERIAMO IL VALORE
7 NELL’ULTIMA COLONNA (5, 6, 7).
E’ IL VALORE ALL’ESTREMO DELLA LINEA BLU.

M
SE 7 FOSSE ESATTAMENTE SULLA LINEA, LA SUA DIFFERENZA DALLA MEDIA SAREBBE DOVUTA SOLO AL TRATTAMENTO E SAREBBE INDICATA SOLO DALLA LINEA ROSSA.
QUINDI 6 - 3.5 = 2.5 E' DOVUTO AL TRATTAMENTO ( LINEA ROSSA)
E IL RIMANENTE O
7 - 6 = 1 E' DOVUTO ALL'ERRORE (LINEA BLU)2.5 + 1 = 3.5 = 7 - 3.5
TUTTI I PUNTI SUL GRAFICO POSSONO ESSERE ANALIZZATI ALLO STESSO MODO IN RELAZIONE ALLA MEDIA.
I PUNTI CHE SI TROVANO ESATTAMENTE SULLA LINEA NON HANNO UNA COMPONENTE DI ERRORE.
ABBIAMO VISTO CHE PER IL PUNTO 7 C'ERANO DUE COMPONENTI:
1. DISTANZA DEL VALORE DALLA MEDIA (6 - 3.5) = 2.5 è COMPONENTE DOVUTA AL TRATTAMENTO
(7 - 6) = 1 LA COMPONENTE DI ERRORE
SE ELEVASSIMO AL QUADRATO LA COMPONENTE DELL'ERRORE PER CIASCUN PUNTO E SOMMASSIMO INSIEME LE COMPONENTI DI ERRORE AL QUADRATO , AVREMMO LA SOOMA DEGLI ERRORI DEI QUADRATI O ERRORE SS.
TRACCIAMO TUTTI I PUNTI RELATIVI ALLA MEDIA DI 3.5.
I QUADRATI DELLE DISTANZE DALLA MEDIA AD OGNI PUNTO SAREBBERO:
|
PUN |
0 |
1 |
2 |
1 |
2 |
3 |
2 |
3 |
4 |
3 |
4 |
5 |
4 |
5 |
6 |
5 |
6 |
7 |
|
ME |
3.5 |
3.5 |
3.5 |
3.5 |
3.5 |
3.5 |
3.5 |
3.5 |
3.5 |
3.5 |
3.5 |
3.5 |
3.5 |
3.5 |
3.5 |
3.5 |
3.5 |
3.5 |
|
(DI)2 |
12.3 |
6.3 |
2.3 |
6.3 |
2.3 |
0.3 |
2.3 |
0.3 |
0.3 |
0.3 |
0.3 |
2.3 |
0.3 |
2.3 |
6.3 |
2.3 |
6.3 |
12.3 |
.
CALCOLIAMO ORA LA SS BASATA SULLA DISTANZA DEI PUNTI
RELATIVA ALLA NOSTRA RETTA ORIGINALE.
AD 1 ANNO AVREMMO (0-1)2 + (1-1)2+ (2-1)2 = 2
A 2 ANNI AVREMMO (1-2)2 + (2-2)2+ (3-2)2 = 2
ETC. ETC.
NELL'ESEMPIO L'ERRORE SS SAREBBE 6 x 2 = 12.
LA LINEA
MAGENTA OVVIAMENTE SI ADATTA MEGLIO AI PUNTI MOLTO MEGLIO DI QUELLA ROSSA CHE AVEVA UN ERRORE SS DI 64.5.LA LINEA CHE "STA" MEGLIO NEI PUNTI E' QUELLA CON IL MINOR SS, C'E' UNA SOLA LINEA CHE DA’ QUESTO
. NEL NOSTRO CASO QUELLA MAGENTASE I DATI FOSSERO COSI':
|
ANELLI |
1, 1, 1 |
2, 2, 2 |
3, 3, 3 |
4, 4, 4 |
5, 5, 5 |
6, 6, 6 |
|
ANNI |
1 |
2 |
3 |
4 |
5 |
6 |
.
M
COSA ACCADREBBE SE I DATI FOSERO COSI'? I DATI PRECEDENTI SONO STATI DISPOSTI CON ORDINE CASUALE.
|
ANELLI |
3, 5, 1 |
0, 6, 2 |
4, 4, 3 |
2, 1, 7 |
4, 5, 5 |
6, 2, 3 |
|
ANNI |
1 |
2 |
3 |
4 |
5 |
6 |
.M
ECCO LA RETTA CHE PIU' SI ADATTA (BEST FIT):

M
UNA "BEST FIT LINE", COME SI VEDE DAL GRAFICO, NON GARANTISCE UNA BUONA RELAZIONE LINEARE TRA LA VARIABILE SULL'ASSE Y E LA VARIABILE SULL'ASSE X.
DIAMO UNO SGUARDO A TUTTO L'INSIEME
M
ANELLI
|
0, 1, 2 |
1, 2, 3 |
2, 3, 4 |
3, 4, 5 |
4, 5, 6 |
5, 6, 7 |
|||||||
|
ANNI |
1 |
2 |
3 |
4 |
5 |
6 |
||||||
ANELLI'
|
ANELLI |
1, 1, 1 |
2, 2, 2 |
3, 3, 3 |
4, 4, 4 |
5, 5, 5 |
6, 6, 6 |
|
ANNI |
1 |
2 |
3 |
4 |
5 |
6 |
M
|
DATI |
TOTALI SS |
ERRORE SS |
|
ANELLI |
64.5 |
12.00 |
|
ANELLI' |
52.5 |
0.00 |
M
POSSIAMO QUANTIFICARLO?
IL TOTALE SS E' 64.5 O 52.5
LA DIFFERENZA TRA SS TOTALE E L'ERRORE SS E' L' SS DOVUTO AL TRATTAMENTO POICHE'
TOTALE SS = ERRORE × SS + TRATTAMENTO × SS.IL RAPPORTO DI QUESTE DIFFERENZE RISPETTO AL TOTALE SS E’ CHIAMATO
COEFFICIENTE DI DETERMINAZIONE ED E’ INDICATO CON R2.M
|
DATI |
TOTALE SS |
ERRORE SS |
TOTALE SS - ERRORE SS |
R2 |
|
ANELLI |
64.5 |
12.00 |
52.5 |
(12.00/64.5) = 0.81 |
|
ANELLI |
52.5 |
0.00 |
52.5 |
(52.5/52.5) =1.00 |
.M
LA TABELLA MOSTRA CHE QUANDO OGNI PUNTO SI TROVA SULLA LINEA, 1 O 100% DELLA VARIAZIONE NEL NUMERO DI ANELLI DIPENDE DAGLI ANNI .
NEI NOSTRI PRIMI DATI QUESTA PERCENTUALE ERA DELL' 81%.
ECCO COME ESEGUIRE UN'ANALISI DI REGRESSIONE CON EXCEL MEDIANTE LA FUNZIONE REGRESSIONE IN STRUMENTI DI ANALISI DATI.
|
Previsto anelli |
Residui |
|
1 |
-1 |
|
1 |
0 |
|
1 |
1 |
|
2 |
-1 |
|
2 |
0 |
|
2 |
1 |
|
3 |
-1 |
|
3 |
0 |
|
3 |
1 |
|
4 |
-1 |
|
4 |
0 |
|
4 |
1 |
|
5 |
-1 |
|
5 |
0 |
|
5 |
1 |
|
6 |
-1 |
|
6 |
0 |
|
6 |
1 |
.
.
|
OUTPUT RIEPILOGO |
||||
|
Statistica della regressione |
||||
|
R multiplo |
0,9022 |
|||
|
R al quadrato |
0,8140 |
|||
|
R al quadrato corretto |
0,7551 |
|||
|
Errore standard |
0,8402 |
|||
|
Osservazioni |
18,0000 |
|||
|
ANALISI VARIANZA |
||||
|
gdl |
SQ |
MQ |
F |
|
|
Regressione |
1,0000 |
52,5000 |
52,5000 |
74,3750 |
|
Residuo |
17,0000 |
12,0000 |
0,7059 |
|
|
Totale |
18,0000 |
64,5000 |
||
|
Coefficienti |
Errore stand. |
Stat t |
Valore di signif |
|
|
Intercetta |
0,0000 |
#N/D |
#N/D |
#N/D |
|
anni |
1,0000 |
0,0508 |
19,6660 |
0,0000 |
.
LA RISPOSTA E' SEMPRE IL VALORE Y E IL "PREVISORE" E' SEMPRE IL VALORE X POICHE' SI STA CERCANDO DI PREVEDERE IL NUMERO DI ANELLI PER GLI ANNI DI CRESCITA
ECCO COSA SI OTTIENE DA QUESTI DATI:
|
ANELLI |
0, 1, 2 |
1, 2, 3 |
2, 3, 4 |
3, 4, 5 |
4, 5, 6 |
5, 6, 7 |
|
ANNI |
1 |
2 |
3 |
4 |
5 |
6 |
M
SCOMPONIAMO
ANELLI = 0+1 ANNI
LA
equazione di regressione E' L'EQUAZIONE PER LA RETTA CHE MEGLIO SI ADATTA AI DATI OSSERVATI.L'EQUAZIONE PER UNA RETTA DI SOLITO HA LA FORMA
Y = MX + B DOVE M E' LA PENDENZA E B L’ INTERCETTA CON Y.
IN QUESTO CASO:
Y = ANELLI M = +1.00
X= ANNI B= -0.00
PER GLI STATISTICI L'EQUAZIONE E'
Y = B + MX (STESSA EQUAZIONE - DISPOSIZIONE DIVERSA).
COME SI CALCOLANO LA PENDENZA E L' INTERCETTA?
PRIMA DI TUTTO LA PENDENZA.
1. CI SONO 18 VALORI X - CIASCUNO ASSOCIATO AD UN VALORE Y.
|
ANELLI Y |
0, 1, 2 |
1, 2, 3 |
2, 3, 4 |
3, 4, 5 |
4, 5, 6 |
5, 6, 7 |
|
ANNI X |
1, 1, 1 |
2, 2, 2 |
3, 3, 3 |
4, 4, 4 |
5, 5, 5 |
6, 6, 6 |
.

2. TROVATE LA SS PER I PRODOTTI
.
(VALORE X - LA SUA MEDIA) × (IL VALORE CORRISPONDENTE DI Y - LA SUA MEDIA):
.

3. IL RAPPORTO CHE SEGUE RAPPRESENTA LA PENDENZA:

ORA PER LA INTERCETTA.
SE SI CONOSCONO Y, M, E X NELLA FUNZIONE Y = MX + B, E' POSSIBILE CALCOLARE B.
.
B = Y - MX
NELLA RETTA DI REGRESSIONE PER MINIMI QUADRATI LA RETTA DEVE PASSARE PER IL PUNTO:
(MEDIA DI X, MEDIA DI Y)
LA MEDIA SIA DI X CHE DI Y E' 3.5 E LA PENDENZA E' 1.
LA INTERCETTA E’ 0.
B = 3.5 -1 x 3.5 = 0
L'ANALISI DI REGRESSIONE E' LEGATA MOLTO DA VICINO ALL'ANALISI DELLA VARIANZA E QUINDI NON C'E' DA MERAVIGLIARSI SE VI SIA INCLUSA NEI CALCOLI COMPONENTE ANOVA. DIAMO PRIMA UNO SGUARDO A QUESTO.
I TotalI E ErroriSS CHE ABBIAMO GIA' CALCOLATO. LA Regressione SS E' LA SS DOVUTA AGLI EFFETTI DEL TRATTAMENTO.
TOTALE SS = ERROR SS + TRATTAMENTO SS
IL VALORE
F DI 74,4 HA UNA PROBABILITA' COSI' BASSA CHE NON COMPARE NEANCHE NEI PRIMI TRE DECIMALI. QUESTO CI CONSENTE DI CONCLUDERE CHE UNA PARTE MOLTO SIGNIFICATIVA NELLA VARIAZIONE NEL NUMERO DI ANELLI PUO' ESSERE SPIEGATA DAGLI ANNI.ECCO I VALORI RESI CASUALI
|
ANELLI |
3, 5, 1 |
0, 6, 2 |
4, 4, 3 |
2, 1, 7 |
4, 5, 5 |
6, 2, 3 |
|
ANNI |
1 |
2 |
3 |
4 |
5 |
6 |
M

M
IL TOTALE SS E' LO STESSO MA L'ERRORE SS E' MOLTO PIU' ALTO.
IL VALORE P DI 0.354 NON CI CONSENTE DI CONCLUDERE CHE GLI ANNI DANNO UN CONTRIBUTO SIGNIFICATIVO ALLA DETERMINAZIONE DEL NUMERO DI ANELLI.


s
E' UNA STIMA DELLA DEVIAZIONE STANDARD PARAMETRICA INTORNO ALLA RETTA DI REGRESSIONE ( NON INTORNO ALLA MEDIA ).L'ERRORE SS = 12
ERRORE SS/ DF = 12/16 = 0.75
0.75 E' UNA STIMA DELLA VARIANZA PARAMETRICA INTORNO ALLA RETTA DI REGRESSIONE.
LA RADICE QUADRATA DI QUESTA VARIANZA E' (0.75)1/2 = 0.8660.
R-sq
E' IL COEFFICIENTE DI DETERMINAZIONE CHE ABBIAMO CONSIDERATO PRECEDENTEMENTE.
L'IPOTESI NULLA CHE VIENE TESTATA E CHE SIA
COSTANTE CHE ANNI SONO 0.E' POSSIBILE ACCETTARE L'IPOTESI NULLA PER LA COSTANTE MA DOBBIAMO RIGETTARLA PER LA PENDENZA.
ECCO COME TRACCIARE UN GRAFICO CON EXCEL DELLA RETTA MIGLIORE RELATIVA AI VALORI:
.
|
Inferiore 95% |
Superiore 95% |
Inferiore 95,0% |
Superiore 95,0% |
|
#N/D |
#N/D |
#N/D |
#N/D |
|
0,8927 |
1,1072 |
0,8927 |
1,1072 |


LA LINE ROSSA PUNTEGGIATA RAPPRESENTA L’ INTERVALLO DI CONFIDENZA DEL 95% PER I VALORI MEDI E LA LINEA BLU
L’ INTERVALLO DI CONFIDENZA DEL 95% IN CUI POSSIAMO PREVEDERE CHE CADRANNO I VALORI DEI NUOVI DATI.
|
IPOTESI PER LA ANALISI DI REGRESSIONE 1. PER OGNI VALORE X C'E' UNA POPOLAZIONE DI VALORI Y NORMALMENTE DISTRIBUITI.
3. LE VARIANZE DELLE POPOLAZIONE DEI VALORI Y SONO UGUALI. 4. LE VARIANZE DELLA COMPONENTE DI ERRORE ASSOCIATE CON I VALORI Y SONO UGUALI. 5. LA (VERA) RELAZIONE DELLE MEDIE PARAMETRICHE DELLE POPOLAZIONI Y CON I VALORI X E' LINEARE. 6. I VALORI DI Y PROVENGONO DA CAMPIONI CASUALI E SONO INDIPENDENTI L'UNO DALL'ALTRO. 7. I VALORI DI X SONO FISSATI E DI ERRORE TRASCURABILE. |
m
LA DISTRIBUZIONE PRESUNTA DEI VALORI Y E’ RAPPRESENTATA IN FIGURA:



???????? DILEMMA!!! MA NON TROPPO
1. I DATI SULLA LUNGHEZZA DELLE ALI DI PASSERI (cm) DI ETA' DIVERSE ( giorni) SONO RIPORTATI IN TABELLA.
FATE UN'ANALISI DI REGRESSIONE DI QUESTI DATI.
|
LUNG. ALI |
1.4 |
1.5 |
2.2 |
2.4 |
3.1 |
3.2 |
3.2 |
3.9 |
4.1 |
4.7 |
4.5 |
5.2 |
5.0 |
|
ETA' |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
11 |
12 |
13 |
14 |
15 |
2. SONO STATI PRELEVATI DEI CAMPIONI DI TERRENO A DIVERSE DISTANZE (METRI) DA UNA MONTAGNA E SONO STATI DETERMINATI I CONTENUTI ORGANICI ( % ). FATE UN'ANALISI DI REGRESSIONE
|
CONTEN. ORGANICI |
4.98 |
3.56 |
2.53 |
2.76 |
1.57 |
1.15 |
1.20 |
0.82 |
0.08 |
0.12 |
|
DISTANZA |
0 |
10 |
20 |
30 |
40 |
50 |
60 |
70 |
80 |
90 |
3. ECCO UN'ANALISI DEI SEGUENTI DATI:
|
Y |
1, 2, 3 |
2, 3, 4 |
3, 4, 5 |
|
X |
1 |
2 |
3 |
.


MOSTRATE COME E' STATO CALCOLATO CIO' CHE E’ MOSTRATO IN REGRESSION ANALYSIS (ESEGUITE I CALCOLI A MANO):
1. L'EQUAZIONE DELLA RETTA DI REGRESSIONE
2. LA DEVIAZIONE STANDARD DEI VALORI INTORNO ALLA RETTA DI REGRESSIONE.
3. IL COEFFICIENTE DI DETERMINAZIONE.
4. I VALORI SS NELLA SEZIONE ANOVA.
5. IL VALORE F NELLA SEZIONE ANOVA.
SIATE IN GRADO DI CONOSCERE IL SIGNIFICATO DEI SEGUENTI VALORI P DALL'ANALISI DI REGRESSIONE:
|
P |
P |
P (SEZIONE ANOVA) |
|
0.260 |
0.033 |
0.033 |
ESERCITATEVI CREANDO UNA PICCOLA TABELLA DI DATI E CONFRONTANDO LA VOSTRA EQUAZIONE CON QUELLA DATA DA EXCEL.