REGRESSIONE LINEARE SEMPLICE 

 
 
 CI SONO MOLTI PROBLEMI BIOLOGICI CHE HANNO A CHE FARE CON RELAZIONI TRA DUE O PIU’ VARIABILI
QUAL E' LA RELAZIONE TRA IL RAPPORTO METABOLICO E LA TEMPERATURA, TRA LA DOSE DI UNA MEDICINA E LA PRESSIONE DEL SANGUE, TRA L'ALTITUDINE E L'ALTEZZA A CUI PUO’ PUO' CRESCERE UNA PARTICOLARE SPECIE DI PIANTA?

IN QUESTE RELAZIONI CI SONO DUE COMPONENTI DI BASE:

UNA COMPONENTE DI ERRORE E UNA COMPONENTE DOVUTA AGLI EFFETTI DELLO SPECIFICO FATTORE CHE STIAMO ANALIZZANDO.

LA LETTURA DELLA PRESSIONE DEL SANGUE POTREBBE ESSERE INFLUENZATA DALLA DOSE DI UNA MEDICINA, MA SARA' ANCHE INFLUENZATA DA MOLTI ALTRI FATTORI

( PER ES. ETA', SESSO, COSTITUZIONE GENETICA) CHE UNITI INSIEME, CONTRIBUISCONO ALL'ERRORE.

PRESSIONE DEL SANGUE = COMPONENTI DETERMINISTICI (IN QUESTO CASO LA MEDICINA) + ERRORE CASUALE

L'ANALISI DI REGRESSIONE STUDIA QUESTA RELAZIONE ED I SUOI COMPONENTI.

IL TERMINE REGRESSIONE SI RIFERISCE ALL'IDEA CHE SE SI RIUSCISSE AD ELIMINARE TUTTO L'ERRORE CASUALE,  LA RELAZIONE RITORNEREBBE (REGREDIREBBE) ALLA RELAZIONE "VERA" CHE COMPRENDE SOLO IL COMPONENTE DETERMINISTICO.

L'ANALISI DI REGRESSIONE PIU' SEMPLICE COMPRENDE UN COMPONENTE DETERMINISTICO E UNA RELAZIONE LINEARE TRA UNA VARIABILE (AD ES. PRESSIONE DEL SANGUE)  E LA COMPONENTE (DOSE DI MEDICINA).

CI SI PUO' RIFERIRE ALLA COMPONENTE DETERMINISTICA ANCHE COME AL TRATTAMENTO O FATTORE.


 

 

SUPPONIAMO DI AVER CONDOTTO UNA STUDIO SULLA RELAZIONE TRA IL NUMERO DI "ANELLI DELLA CRESCITA" DI UN ALBERO E L'ETA' DI UN ALBERO.  SONO STATI PIANTATI ALCUNI ALBERI E SONO STATI PRESI CAMPIONI CASUALI SEMPLICI DI TRE ALBERI UNA VOLTA ALL'ANNO PER SEI ANNI.
 

I DATI OTTENUTI SONO RACCOLTI IN TABELLA:
 
 

ANELLI

0,  1,  2

1,  2,  3

2,  3,  4

3,  4,  5

4,  5,  6

5,  6,  7

ANNI

1

2

3

4

5

6

m

1.  C'E' UNA VARIAZIONE IN CIASCUN CAMPIONE.

2.  C'E' UNA RELAZIONE PERFETTAMENTE LINEARE TRA LA MEDIA DI OGNI CAMPIONE E IL LIVELLO DI TRATTAMENTO (IL NUMERO DI ANNI CHE GLI ALBERI SONO STATI FATTI CRESCERE).

CI SONO DUE FONTI DI VARIAZIONE: UNA DOVUTA ALL'ERRORE ( EFFETTI CASUALI) E L'ALTRA DOVUTA AL TRATTAMENTO. E' FACILE SEPARARLI DA QUESTI DATI.

PER OGNI VALORE X SUL GRAFICO LA DISPERSIONE E' DOVUTA ALL'ERRORE, MA LA DIREZIONE VERSO L'ALTO E' DOVUTA AL TRATTAMENTO.
m


GUARDIAMOLO DA UN ALTRO PUNTO DI VISTA.
 
 

ANELLI

0,  1,  2

1,  2,  3

2,  3,  4

3,  4,  5

4,  5,  6

5,  6,  7

ANNI

1

2

3

4

5

6

m
IL NUMERO MEDIO DI ANELLI E' 3.5.

CONSIDERIAMO IL VALORE 7 NELL’ULTIMA COLONNA (5,  6,  7).

 

 

E’ IL VALORE ALL’ESTREMO DELLA LINEA BLU.
M

M
7 DIFFERISCE DALLA MEDIA DI ( 7 - 3.5 ) =  3.5 COME MOSTRATO DALLE LINEE BLU ROSSE.

SE 7 FOSSE ESATTAMENTE SULLA LINEA,  LA SUA DIFFERENZA DALLA MEDIA SAREBBE DOVUTA SOLO AL TRATTAMENTO E SAREBBE INDICATA SOLO DALLA LINEA ROSSA.

QUINDI  6 - 3.5 = 2.5 E' DOVUTO AL TRATTAMENTO ( LINEA ROSSA)

E IL RIMANENTE O 7 - 6 = 1 E' DOVUTO ALL'ERRORE (LINEA BLU)

2.5 + 1 =  3.5  = 7 - 3.5

TUTTI I PUNTI SUL GRAFICO POSSONO ESSERE ANALIZZATI ALLO STESSO MODO IN RELAZIONE ALLA MEDIA.

I PUNTI CHE SI TROVANO ESATTAMENTE SULLA LINEA NON HANNO UNA COMPONENTE DI ERRORE.

ABBIAMO VISTO CHE PER IL PUNTO 7 C'ERANO DUE COMPONENTI:

1.  DISTANZA DEL VALORE DALLA MEDIA (6 - 3.5) = 2.5  è   COMPONENTE DOVUTA AL TRATTAMENTO

  1. DISTANZA DALLA RETTA AL PUNTO

(7 - 6) = 1  LA COMPONENTE DI ERRORE

SE ELEVASSIMO AL QUADRATO LA COMPONENTE DELL'ERRORE PER CIASCUN PUNTO E SOMMASSIMO INSIEME LE COMPONENTI DI ERRORE AL QUADRATO , AVREMMO LA SOOMA DEGLI ERRORI DEI QUADRATI O ERRORE SS.


TRACCIAMO TUTTI I PUNTI RELATIVI ALLA MEDIA DI 3.5.
M

I QUADRATI DELLE DISTANZE DALLA MEDIA AD OGNI PUNTO SAREBBERO:
M
 

PUN

0

1

2

1

2

3

2

3

4

3

4

5

4

5

6

5

6

7

ME

3.5

3.5

3.5

3.5

3.5

3.5

3.5

3.5

3.5

3.5

3.5

3.5

3.5

3.5

3.5

3.5

3.5

3.5

(DI)2

12.3

6.3

2.3

6.3

2.3

0.3

2.3

0.3

0.3

0.3

0.3

2.3

0.3

2.3

6.3

2.3

6.3

12.3

.
M
LA SOMMA TOTALE DEI QUADRATI
(SS) BASATI SULLA DISTANZA DAI PUNTI ALLE LINEE E' 64.5.

CALCOLIAMO ORA LA SS BASATA SULLA DISTANZA DEI PUNTI RELATIVA ALLA NOSTRA RETTA ORIGINALE.

AD 1 ANNO AVREMMO (0-1)2 + (1-1)2+ (2-1)2 = 2

A 2 ANNI AVREMMO (1-2)2 + (2-2)2+ (3-2)2 = 2

ETC. ETC.

NELL'ESEMPIO L'ERRORE SS SAREBBE 6 x 2 = 12.

LA LINEA MAGENTA OVVIAMENTE SI ADATTA MEGLIO AI PUNTI MOLTO MEGLIO DI QUELLA ROSSA CHE AVEVA UN ERRORE SS DI 64.5.

LA LINEA CHE "STA" MEGLIO NEI PUNTI E' QUELLA CON IL MINOR SS, C'E' UNA SOLA LINEA CHE DA’ QUESTO. NEL NOSTRO CASO QUELLA MAGENTA


SE I DATI FOSSERO COSI':
M
 

ANELLI

1,  1,  1

2,  2,  2

3,  3,  3

4,  4,  4

5,  5,  5

6,  6,  6

ANNI

1

2

3

4

5

6

.
.
OGNI PUNTO SAREBBE SULLA RETTA E SS SAREBBE 0.
M

 

 
 
 

COSA ACCADREBBE SE I DATI FOSERO COSI'? I DATI PRECEDENTI SONO STATI DISPOSTI CON ORDINE CASUALE.
 
 

ANELLI

3,  5,  1

0,  6,  2

4,  4,  3

2,  1,  7

4,  5,  5

6,  2,  3

ANNI

1

2

3

4

5

6

.M

ECCO LA RETTA CHE PIU' SI ADATTA (BEST FIT):
M

M
OGNI GRUPPO DI PUNTI - NON IMPORTA COME DISPOSTI - HA UNA SUA BEST FIT LINE.

UNA "BEST FIT LINE", COME SI VEDE DAL GRAFICO,  NON GARANTISCE UNA BUONA RELAZIONE LINEARE TRA LA VARIABILE SULL'ASSE Y E LA VARIABILE SULL'ASSE X.


DIAMO UNO SGUARDO A TUTTO L'INSIEMEM

 

 

 

ANELLI

ANELLI

0,  1,  2

1,  2,  3

2,  3,  4

3,  4,  5

4,  5,  6

5,  6,  7

ANNI

1

2

3

4

5

6

 

ANELLI'

ANELLI

1,  1,  1

2,  2,  2

3,  3,  3

4,  4,  4

5,  5,  5

6,  6,  6

ANNI

1

2

3

4

5

6

M
 

DATI

TOTALI SS

ERRORE SS

ANELLI 

64.5

12.00

ANELLI' 

52.5

0.00

M
QUANTO PIU' GRANDE E' L'ERRORE SS RELATIVO AL TOTALE SS TANTO PIU' PICCOLA SARA' L'INFLUENZA DEL TRATTAMENTO SUL VALORE DEL NUMERO DI ANELLI E TANTO PIU' GRANDE SARA' L'INFLUENZA RELATIVA DEI FATTORI CASUALI
.

POSSIAMO QUANTIFICARLO?

IL TOTALE SS E' 64.5 O 52.5

LA DIFFERENZA TRA SS TOTALE E L'ERRORE SS E' L' SS DOVUTO AL TRATTAMENTO POICHE' TOTALE SS = ERRORE × SS + TRATTAMENTO × SS.

IL RAPPORTO DI QUESTE DIFFERENZE RISPETTO AL TOTALE SS E’ CHIAMATO COEFFICIENTE DI DETERMINAZIONE ED E’ INDICATO CON R2.

M

DATI

TOTALE SS

ERRORE SS

TOTALE SS - ERRORE SS

R2

ANELLI

64.5

12.00

52.5

(12.00/64.5) = 0.81

ANELLI

52.5

0.00

52.5

(52.5/52.5) =1.00

.M
IL COEFFICIENTE DI DETERMINAZIONE E' LA PROPORZIONE DELLA VARIAZIONE TOTALE NELLA VARIABILE DIPENDENTE ((NUMERO DI ANELLI) CHE E' GIUSTIFICATA ) DALLA SUA RELAZIONE CON LA VARIABILE INDIPENDENTE ( ANNI ).

LA TABELLA MOSTRA CHE QUANDO OGNI PUNTO SI TROVA SULLA LINEA, 1 O 100% DELLA VARIAZIONE NEL NUMERO DI ANELLI DIPENDE DAGLI ANNI .

NEI NOSTRI PRIMI DATI QUESTA PERCENTUALE ERA DELL' 81%.
 


ECCO COME ESEGUIRE UN'ANALISI DI REGRESSIONE CON EXCEL MEDIANTE LA FUNZIONE REGRESSIONE IN STRUMENTI DI ANALISI DATI.

Previsto anelli

Residui

1

-1

1

0

1

1

2

-1

2

0

2

1

3

-1

3

0

3

1

4

-1

4

0

4

1

5

-1

5

0

5

1

6

-1

6

0

6

1

.

 

.

OUTPUT RIEPILOGO

Statistica della regressione

R multiplo

0,9022

R al quadrato

0,8140

R al quadrato corretto

0,7551

Errore standard

0,8402

Osservazioni

18,0000

ANALISI VARIANZA

gdl

SQ

MQ

F

Regressione

1,0000

52,5000

52,5000

74,3750

Residuo

17,0000

12,0000

0,7059

Totale

18,0000

64,5000

Coefficienti

Errore stand.

Stat t

Valore di signif

Intercetta

0,0000

#N/D

#N/D

#N/D

anni

1,0000

0,0508

19,6660

0,0000

.

LA RISPOSTA E' SEMPRE IL VALORE Y E IL "PREVISORE" E' SEMPRE IL VALORE X POICHE' SI STA CERCANDO DI PREVEDERE IL NUMERO DI ANELLI PER GLI ANNI DI CRESCITA

ECCO COSA SI OTTIENE DA QUESTI DATI:
 
 

ANELLI

0,  1,  2

1,  2,  3

2,  3,  4

3,  4,  5

4,  5,  6

5,  6,  7

ANNI

1

2

3

4

5

6

M

 


SCOMPONIAMO
M

ANELLI = 0+1 ANNI

LA equazione di regressione E' L'EQUAZIONE PER LA RETTA CHE MEGLIO SI ADATTA AI DATI OSSERVATI.

L'EQUAZIONE PER UNA RETTA DI SOLITO HA LA FORMA

Y = MX + B  DOVE M E' LA PENDENZA E B L’ INTERCETTA CON Y.

IN QUESTO CASO:            

Y  =  ANELLI            M = +1.00           

X= ANNI             B= -0.00

PER GLI STATISTICI L'EQUAZIONE E'

Y = B + MX (STESSA EQUAZIONE - DISPOSIZIONE DIVERSA).

COME SI CALCOLANO LA PENDENZA E L' INTERCETTA?

PRIMA DI TUTTO LA PENDENZA.

 1. CI SONO 18 VALORI X - CIASCUNO ASSOCIATO AD UN VALORE Y.
   

ANELLI  Y

0,  1,  2

1,  2,  3

2,  3,  4

3,  4,  5

4,  5,  6

5,  6,  7

ANNI X

1,  1,  1

2,  2,  2

3,  3,  3

4,  4,  4

5,  5,  5

6,  6,  6

.
TROVATE LA SS I VALORI DI X:

2.  TROVATE LA SS PER I PRODOTTI
.

(VALORE X - LA SUA MEDIA) × (IL VALORE CORRISPONDENTE DI Y - LA SUA MEDIA):

.

3. IL RAPPORTO CHE SEGUE RAPPRESENTA LA PENDENZA:

ORA PER LA INTERCETTA.

SE SI CONOSCONO Y,  M, E X NELLA FUNZIONE Y = MX + B,  E' POSSIBILE CALCOLARE B.
.

B = Y - MX

NELLA RETTA DI REGRESSIONE PER MINIMI QUADRATI LA RETTA DEVE PASSARE PER IL PUNTO:

(MEDIA DI X, MEDIA DI Y)

LA MEDIA SIA DI X CHE DI Y E' 3.5  E LA PENDENZA E' 1.

LA INTERCETTA E’ 0.

B = 3.5 -1 x 3.5 = 0 
 

L'ANALISI DI REGRESSIONE E' LEGATA MOLTO DA VICINO ALL'ANALISI DELLA VARIANZA E QUINDI NON C'E' DA MERAVIGLIARSI SE VI SIA INCLUSA NEI CALCOLI COMPONENTE ANOVA.  DIAMO PRIMA UNO SGUARDO A QUESTO.

I TotalI E ErroriSS CHE ABBIAMO GIA' CALCOLATO.  LA Regressione SS E' LA SS DOVUTA AGLI EFFETTI DEL TRATTAMENTO.

TOTALE SS = ERROR SS + TRATTAMENTO SS

IL VALORE F DI 74,4 HA UNA PROBABILITA' COSI' BASSA CHE NON COMPARE NEANCHE NEI PRIMI TRE DECIMALI.  QUESTO CI CONSENTE DI CONCLUDERE CHE UNA PARTE MOLTO SIGNIFICATIVA NELLA VARIAZIONE NEL NUMERO DI ANELLI PUO' ESSERE SPIEGATA DAGLI ANNI.

ECCO I VALORI RESI CASUALI
 
 

ANELLI

3,  5,  1

0,  6,  2

4,  4,  3

2,  1,  7

4,  5,  5

6,  2,  3

ANNI

1

2

3

4

5

6

M

M

IL TOTALE SS E' LO STESSO MA L'ERRORE SS E' MOLTO PIU' ALTO.

IL VALORE P DI 0.354 NON CI CONSENTE DI CONCLUDERE CHE GLI ANNI DANNO UN CONTRIBUTO SIGNIFICATIVO ALLA DETERMINAZIONE DEL NUMERO DI ANELLI.


s E' UNA STIMA DELLA DEVIAZIONE STANDARD PARAMETRICA INTORNO ALLA RETTA DI REGRESSIONE ( NON INTORNO ALLA MEDIA ).

L'ERRORE SS = 12

ERRORE SS/ DF = 12/16 = 0.75

0.75 E' UNA STIMA DELLA VARIANZA PARAMETRICA INTORNO ALLA RETTA DI REGRESSIONE.

LA RADICE QUADRATA DI QUESTA VARIANZA E' (0.75)1/2 = 0.8660.

R-sq E' IL COEFFICIENTE DI DETERMINAZIONE CHE ABBIAMO CONSIDERATO PRECEDENTEMENTE.

 

L'IPOTESI NULLA CHE VIENE TESTATA E CHE SIA COSTANTE CHE ANNI SONO 0.

E' POSSIBILE ACCETTARE L'IPOTESI NULLA PER LA COSTANTE MA DOBBIAMO RIGETTARLA PER LA PENDENZA.
 

ECCO COME TRACCIARE UN GRAFICO CON EXCEL DELLA RETTA MIGLIORE RELATIVA AI VALORI:
.

 

 

 

 

Inferiore 95%

Superiore 95%

Inferiore 95,0%

Superiore 95,0%

#N/D

#N/D

#N/D

#N/D

0,8927

1,1072

0,8927

1,1072

 

LA LINE ROSSA PUNTEGGIATA RAPPRESENTA L’ INTERVALLO DI CONFIDENZA DEL 95% PER I VALORI MEDI E LA LINEA BLU

L’ INTERVALLO DI CONFIDENZA DEL 95% IN CUI POSSIAMO PREVEDERE CHE CADRANNO I VALORI DEI NUOVI DATI.

 

 

IPOTESI PER LA ANALISI DI REGRESSIONE

1.  PER OGNI VALORE X C'E' UNA POPOLAZIONE DI VALORI Y NORMALMENTE DISTRIBUITI. 

  1. PER OGNI VALORE X C'E' UNA POPOALZIONE DI COMPONENTI DI ERRORI NORMALMENTE DISTRIBUITI ASSOCIATI CON I VALORI Y. 

3.  LE VARIANZE DELLE POPOLAZIONE DEI VALORI Y SONO UGUALI. 

4.  LE VARIANZE DELLA COMPONENTE DI ERRORE ASSOCIATE CON I VALORI Y SONO UGUALI. 

5. LA (VERA) RELAZIONE DELLE MEDIE PARAMETRICHE DELLE POPOLAZIONI Y CON I VALORI X E' LINEARE. 

6.  I VALORI DI Y PROVENGONO DA CAMPIONI CASUALI E SONO INDIPENDENTI L'UNO DALL'ALTRO. 

7. I VALORI DI X SONO FISSATI E DI ERRORE TRASCURABILE. 

m

LA DISTRIBUZIONE PRESUNTA DEI VALORI Y E’ RAPPRESENTATA IN FIGURA:
m

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 


 


 
 ???????? DILEMMA!!! MA NON TROPPO

 

1. I DATI SULLA LUNGHEZZA DELLE ALI DI PASSERI (cm) DI ETA' DIVERSE ( giorni) SONO RIPORTATI IN TABELLA.

FATE UN'ANALISI DI REGRESSIONE DI QUESTI DATI.
 

 

 

LUNG. ALI

1.4

1.5

2.2

2.4

3.1

3.2

3.2

3.9

4.1

4.7

4.5

5.2

5.0

ETA'

3

4

5

6

7

8

9

10

11

12

13

14

15

 

2. SONO STATI PRELEVATI DEI CAMPIONI DI TERRENO A DIVERSE DISTANZE (METRI) DA UNA MONTAGNA E SONO STATI DETERMINATI I CONTENUTI ORGANICI ( % ).  FATE UN'ANALISI DI REGRESSIONE
 
 

CONTEN.

ORGANICI

4.98

3.56

2.53

2.76

1.57

1.15

1.20

0.82

0.08

0.12

DISTANZA

0

10

20

30

40

50

60

70

80

90


3. ECCO UN'ANALISI DEI SEGUENTI DATI:
 
 

Y

1,  2,  3

2,  3,  4

3,  4,  5

X

1

2

3

.
INSERITE I DATI IN EXCEL
.
.

MOSTRATE COME E' STATO CALCOLATO CIO' CHE E’ MOSTRATO IN REGRESSION ANALYSIS (ESEGUITE I CALCOLI A MANO):

1.  L'EQUAZIONE DELLA RETTA DI REGRESSIONE

2.  LA DEVIAZIONE STANDARD DEI VALORI INTORNO ALLA RETTA DI REGRESSIONE.

3.  IL COEFFICIENTE DI DETERMINAZIONE.

4. I VALORI SS NELLA SEZIONE ANOVA.

5. IL VALORE F NELLA SEZIONE ANOVA.

SIATE IN GRADO DI CONOSCERE IL SIGNIFICATO DEI SEGUENTI VALORI P DALL'ANALISI DI REGRESSIONE:
 
 

P

P

P  (SEZIONE ANOVA)

0.260

0.033

0.033

 

ESERCITATEVI CREANDO UNA PICCOLA TABELLA DI DATI E CONFRONTANDO LA VOSTRA EQUAZIONE CON QUELLA DATA DA EXCEL.