Administratie | Alimentatie | Arta cultura | Asistenta sociala | Astronomie |
Biologie | Chimie | Comunicare | Constructii | Cosmetica |
Desen | Diverse | Drept | Economie | Engleza |
Filozofie | Fizica | Franceza | Geografie | Germana |
Informatica | Istorie | Latina | Management | Marketing |
Matematica | Mecanica | Medicina | Pedagogie | Psihologie |
Romana | Stiinte politice | Transporturi | Turism |
Problema pentru regresia liniara simpla
O firma de asigurari vrea sa gaseasca o legatura intre valoarea prejudiciului provocat de incediul unei locuinte si distanta dintre locul incendiului si cea mai apropiata statie de pompieri. Pentru aceasta, realizeaza un studiu, intr-o anumita regiune, luand in considerare cele mai recente 15 incendii. Sunt inregistrate date referitoare la valoarea prejudiciului si distanta dintre incendiu si cea mai apropiata statie de pompieri:
Nr. crt. |
Distanta fata de statia de pompieri (zeci km) |
Valoarea prejudiciului (mii Euro) |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Cerintele sunt:
Analizati grafic existenta, sensul si forma legaturii dintre cele doua variabile stabilind care este variabila explicativa si care este variabila explicata;
Pe baza datelor din esantion, determinati coeficientii modelului de regresie adecvat analizei dependentei dintre cele doua variabile si interpretati valorile obtinute;
Testati validitatea modelului de regresie liniara la un prag de semnificatie de 5%;
Masurati intensitatea legaturii dintre cele doua variabile folosind coeficientul liniar de corelatie Pearson;
Calculati raportul de corelatie, testati semnificatia (validitatea) acestuia si interpretati rezultatul obtinut;
Calculati coeficientul de determinatie si interpretati rezultatul obtinut;
Testati ipotezele referitoare la semnificatia parametrilor modelului de regresie, la un nivel de semnificatie de 5%;
Determinati intervalele de incredere 95% pentru parametrii modelului;
Rezolvati problema in Excel
Estimati punctual si printr-un interval de incredere 95% nivelul prejudiciului, daca distanta intre locul incendiului si statia de pompieri ar fi de 6,5 zeci de kilometri (prognoza sau previziunea punctuala si prin interval de incredere).
REZOLVARE
Variabilele sunt:
X - variabila care arata distanta dintre incendiu si cea mai apropiata statie de pompieri, exprimata in zeci de km
(variabila independenta sau variabila explicativa sau variabila exogena)
Y - variabila care arata valoarea prejudiciului, exprimata in mii Euro
(variabila dependenta sau variabila explicata sau variabila endogena)
Corelograma
Sintaxa Excel: Insert
Chart
XY(Scatter)
Corelograma sugereaza ca exista legatura directa si liniara intre cele doua variabile.
Exista o functie f astfel incat variabila X explica variabila Y prin functia f, , o functie liniara .
Modelul liniar de regresie este .
Pentru fiecare dintre cele n=15 incendii s-au notat valorile celor doua variabile, X si Y, obtinindu-se astfel seria de date sau . Pe baza acestui esantion vom determina estimatorii a si b ai parametrilor si ai modelului de regresie. Estimatorii a si b reprezinta solutia sistemului ecuatiilor normale:
Rezolvarea sistemului folosind metoda determinantilor: si ,
unde este determinantul matricei sistemului de ecuatii,
iar , sunt minorii corespunzatori celor doua necunoscute.
Calculele intermediare sunt prezentate in tabelul de mai jos:
Valorile xi ale variabilei X |
Valorile yi ale variabilei Y |
|
|
|
x |
y |
(x1)2=11,56 |
(y1)2=686,44 |
x ·y1=89,08 |
x |
y |
(x2)2=3,24 |
(y2)2=316,84 |
x ·y2=32,04 |
x |
y |
(x3)2=21,16 |
(y3)2=979,69 |
x ·y3=143,98 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
x |
y |
(x15)2=14,44 |
(y15)2=681,21 |
x ·y15=99,18 |
|
|
|
|
|
Se obtine:
prin urmare dreapta de regresie este de ecuatie ,
ecuatia de regresie liniara in esantion este ,
iar valorile ajustate ale observatiilor prin regresie sunt
Interpretarea valorilor coeficientilor
b arata ca valoarea prejudiciului creste cu 4,9193 mii euro daca distanta dintre incediu si statia de pompieri creste cu o unitate, adica 10 km
a arata ca valoarea prejudiciului este, in medie, egala cu 10,2779 mii euro daca incendiul ar fi langa statia de pompieri.
Pentru testarea validitatii modelului se formuleaza cele doua ipoteze:
H0: modelul de regresie este nevalid statistic
cu alternativa
H1: modelul de regresie este valid statistic
Statistica utilizata pentru a decide care dintre ipoteze se accepta este:
,
unde k este numarul de variabile explicative din modelul de regresie (in cazul nostru, k=1 deoarece avem un model de regresie liniara unifactoriala sau simpla, adica cu o singura variabila explicativa).
Fie α' nivelul sau pragul de semnificatie al testului, iar 1-α' este nivelul de incredere al testului.
Daca nu se specifica, vom considera in general ca α'=0,05 (sau α'·100=5%),
iar 1-α'=0,95 (sau (1-α')·100=95%).
Pentru calculul statisticii folosim tabelul ANOVA:
Sursa variatiei |
Suma patratelor (SS-Sum of Squares) |
Grade de libertate (df - degrees of freedom) |
Media patratelor (MS- Mean of Squares) Dispersiile corectate |
Valoarea statisticii F |
Fcritic |
Datorata regresiei (Regression) |
|
k |
|
|
|
Reziduala (Residual) |
|
n - k - |
|
||
Totala |
|
n - |
|
Regula de decizie: daca adica Fcalc se gaseste in regiunea critica, atunci respingem H0 si acceptam H1, ca modelul de regresie este valid statistic.
Calculele intermediare sunt prezentate in tabelul urmator:
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Tabelul ANOVA
Sursa variatiei |
Suma patratelor (SS-Sum of Squares) |
Grade de libertate (df - degrees of freedom) |
Media patratelor (MS - Mean of Squares) |
Valoarea statisticii F |
Fcritic |
Datorata regresiei (Regression) |
|
k |
|
|
|
Reziduala (Residual) |
|
n - k - 1 = 13 |
|
||
Totala |
|
n |
|
Cum , respingem ipoteza nula si concluzionam ca modelul de regresie este valid statistic
(modelul este semnificativ statistic sau modelul este corect specificat).
Masurati intensitatea legaturii dintre cele doua variabile folosind coeficientul liniar de corelatie Pearson
Valoarea coeficientului de corelatie Pearson, pozitiva si foarte apropiata de 1, arata ca intre cele doua variabile exista o legatura liniara directa si puternica.
Calculati raportul de corelatie, testati validitatea acestuia si interpretati rezultatul obtinut.
Testarea validitatii sau semnificatiei raportului de corelatie consta in testarea
H0: Raportul de corelatie este nesemnificativ statistic
(variabila X nu are influenta semnificativa asupra lui Y)
cu alternativa
H1: Raportul de corelatie este semnificativ statistic
(semnificativ diferit de 0, adica variabila X are influenta semnificativa asupra lui Y).
Statistica testului este
Valoarea calculata a statisticii testului este
acceasi valoare ca la testarea validitatii modelului de regresie folosind ANOVA.
Daca testearea se realizeaza la un prag de semnificatie α'=0,05, atunci
Comparam Fcalc=156,89 > 4,67=Fcritic, respingem ipoteza nula H0 si concluzionam ca raportul de corelatie este semnificativ diferit de zero, adica variabila X (distanta) are o influenta semnificativa asupra variabilei Y (prejudiciul).
Coeficientul de determinatie este
sau si arata ca 92,35% (adica R2%) din variatia totala a prejudiciului cauzat de incendii este explicata de variatia variabilei independente (distanta intre locul incendiului si statia de pompieri).
Testarea semnificatiei parametrului α al modelului linear de regresie
H0: α=0 (parametrul este nesemnificativ statistic)
H1: α≠0 (parametrul α este semnificativ statistic, adica semnificativ diferit de 0)
Statistica testului este
unde este abaterea standard (eroarea standard) a estimatorului a, este disperia reziduala, iar este abaterea standard reziduala (eroarea standard reziduala sau a erorilor)
Valoarea calculata a statisticii testului, in ipoteza ca H0 este adevarata, adica α=0, este , deci , cu sa=1,42.
Daca nivelul de semnificatie este α'=0,05, atunci regiunea critica a testului este
Cum , atunci , deci respingen H0 si concluzionam ca α este semnificativ statistic, cu o probabilitate de 0,05 de a comite o eroare de primul tip (sa respingem H0 cand aceasta este adevarata).
Observatie: Valoarea , care se citeste din tabelul cu cuantilele repartitiei Student, se mai noteaza cu tcritic.
Testarea semnificatiei parametrului β al modelului linear de regresie
H0: β=0 (parametrul este nesemnificativ statistic)
H1: β≠0 (parametrul β este semnificativ statistic, adica semnificativ diferit de 0)
Statistica testului este
unde este abaterea standard (eroarea standard) a estimatorului b,
este disperia reziduala, iar este abaterea standard reziduala (eroarea standard reziduala)
Valoarea calculata a statisticii testului, in ipoteza ca H0 este adevarata, adica β=0, este , deci , cu sb=0,39.
Daca nivelul de semnificaatie este α'=0,05, atunci regiunea critica a testului este
Cum , atunci , deci respingen H0 si concluzionam ca β este semnificativ statistic, cu o probabilitate de 0,05 de a comite o eroare de primul tip (sa respingem H0 cand aceasta este adevarata).
Intervalul de incredere (1-α')·100% = 95% pentru parametrul α al modelului linear de regresie , determinat pe baza esantionului observat, este:
unde sa este eroarea standard a estimatorului a.
In cazul nostru, a=10,2779, sa=1,42, α'=0,05, , deci intervalul [7,2; 13,3] acopera valoarea adevarata a parametrului α cu probabilitatea 0,95, adica intervalul de valori [7,2; 13,3] mii Eur acopera nivelul prejudiciului provocat de incendiu, daca acesta se produce chiar langa statia de pompieri.
Cum intervalul de incredere 95% determinat pentru parametrul α nu acopera valoarea 0, atunci putem spune ca acesta este semnificativ diferit de 0 sau este semnificativ statistic.
Daca insa, intervalul de incredere pentru α ar fi acoperit, adica ar fi continut, si valoarea 0, atunci concluzionam ca parametrul este nesemnificativ statistic (nu este semnificativ diferit de 0).
Intervalul de incredere (1-α')·100% = 95% pentru parametrul β al modelului linear de regresie , determinat pe baza esantionului observat, este:
unde sb este eroarea standard a estimatorului b.
In cazul nostru, b=4,9193, sb=0,39, α'=0,05, , deci intervalul [4,07; 5,76] acopera valoarea adevarata a parametrului β cu probabilitatea 0,95. Cu alte cuvinte, daca distanta devine mai mare cu o unitate (10 km), nivelul prejudiciului creste cu o valoare acoperita de intervalul [4,07; 5,76] mii Eur, cu o probabilitate de 0,95.
Cum intervalul de incredere 95% determinat pentru parametrul β nu acopera valoarea 0, atunci putem spune ca acesta este semnificativ diferit de 0 sau este semnificativ statistic.
Daca insa, intervalul de incredere pentru β ar fi acoperit, adica ar fi continut, si valoarea 0, atunci concluzionam ca parametrul este nesemnificativ statistic (nu este semnificativ diferit de 0).
Rezolvarea in Excel
In Excel, exista modulul Data Analysis, optiunea Regression care furnizeaza intr-un output specific toate aceste calcule prezentate pana acum.
Astfel, intr-o foaie de lucru, se introduce setul de date , in cazul nostru n=15, iar apoi din meniul principal alegem Data, submeniul Data Analysis si apoi Regression, daca se lucreaza in Excel 2007. Daca aveti la dispozitie Excel 2003, alegeti din meniul principal Tools, apoi Data Analysis si apoi Regression.
In fereastra care va apare, trebuie:
- sa alegeti care este sirul de valori corespunzatoare variabilei dependente Y (Input Y Range) si care este sirul de valori corespunzatoare variabilei independente X (Input X Range),
- sa specificati nivelulde incredere al testului, de obicei 95%,
- sa precizati celula din foaia de lucru de la care se vor afisa rezultatele, adica outputul (Output Range),
- sa bifati optiunea Residuals si, optional, Line Fit Plots.
Output-ul este prezentat in tabelul urmator:
SUMMARY OUTPUT |
|
|
|
|
|
Regression Statistics |
|
|
Multiple R |
R |
= raportul de corelatie |
|
R |
= coeficientul de determinatie |
Adjusted |
|
|
Standard Error |
se |
= eroarea standard sau abaterea standard a erorilor |
Observations |
n |
= numarul de perechi de observatii din esantion |
ANOVA |
|
|
|
|
|
|
df |
SS |
MS |
F |
Significance F |
Regression |
1 = k |
|
|
|
1,2478E-08 |
Residual |
13 = n-k-1 |
|
|
|
|
Total |
14 = n-1 |
|
|
|
|
|
Coefficients |
Standard Error |
t Stat |
P-value |
Lower 95% (Limita inferioara a intervalului de incredere 95%) |
Upper 95% (Limita superioara a intervalului incredere 95%) |
Intercept |
a |
sa |
|
6,59E-06 |
= |
= |
X Variable 1 |
b |
sb |
|
1,25E-08 |
= |
= |
RESIDUAL OUTPUT |
|
|
|
|
|
Observation |
Predicted Y |
Residuals |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Acest document nu se poate descarca
E posibil sa te intereseze alte documente despre:
|
Copyright © 2024 - Toate drepturile rezervate QReferat.com | Folositi documentele afisate ca sursa de inspiratie. Va recomandam sa nu copiati textul, ci sa compuneti propriul document pe baza informatiilor de pe site. { Home } { Contact } { Termeni si conditii } |
Documente similare:
|
ComentariiCaracterizari
|
Cauta document |