Esti aici: Qreferat » Documente economie

Regresia simpla

REGRESIA SIMPLA

Studiem, pentru inceput, cel mai simplu model econometric: o variabila endogena reprezinta evolutia fenomenului considerat si aceasta evolutie este explicata printr-o singura variabila exogena.

In cadrul capitolului este prezentata metoda de estimare a parametrilor care intervin intr-un model econometric, se vor examina proprietatile estimatorilor obtinuti si se vor generaliza rezultatele analizei pentru modele mai complexe. Intr-o prima parte se va trata obtinerea estimatorilor parametrilor modelului si proprietatilor lor, iar intr-o a doua parte se da o interpretarea geometrica a metodei utilizate, determinarea intervalelor de incredere referitoare la parametri si previziunea care poate fi facuta cu un astfel de model.

1. Modelul liniar al regresiei simple

Consideram modelul:

(1) , t=1, 2, ,T

in care: Y reprezinta o variabila endogena;

X o variabila exogena;

e o variabila aleatoare ale carei caracteristici vor fi precizate prin ipoteze.

Se dispune de T observatii asupra lui Y si X, adica T cupluri (x_t, y_t) care sunt realizari ale lui X si Y. a si b sunt parametri reali necunoscuti pe care dorim sa-i estimam cu ajutorul observatiilor (x_t, y_t) cunoscute.

Ipoteze fundamentale

Pentru a putea obtine rezultatele enuntate la inceput, vom simplifica lucrurile impunind o serie de ipoteze restrictive asupra modelului. Ulterior, in alte capitole, se vor relaxa aceste restrictii, discutind implicatiile abandonarii unora din aceste ipoteze asupra calitatii estimatorilor.

I₁:

x_tsi y_t sunt marimi numerice observate fara eroare;

X -variabila explicativa se considera data autonom in model;

Y -variabila endogena este o variabila aleatoare, prin intermediul lui e

I₂:

a)- e urmeaza o lege de distributie independenta de timp, adica media si dispersia lui e nu depind de t:

, cantitate finita, .

Observatie

S-au folosit aici, pentru medie si dispersie, notatiile , respectiv , provenind de la "speranta matematica" si "varianta" unei variabile aleatoare. Se presupune ca studentii au cunostinte elementare despre teoria probabilitatilor si statistica matematica. Altfel, ele trebuie revazute!

b)- Realizarile lui e sunt independente de realizarile lui X in cursul timpului. Aceasta este ipoteza de homoscedasticitate. In caz contrar, exista heteroscedasticitate.

c)- Independenta erorilor (se va vedea pe parcurs ca variabila aleatoare e reprezinta "erori" sau "reziduuri"). Doua erori relative la doua observatii diferite t si t' sunt independente intre ele, insemnind ca au covarianta nula: , ceea ce implica .

Prin definitie, cov( si tinind cont de a) rezulta implicatia.

d)- Normalitatea erorilor. Presupunem ca e urmeaza o lege de repartitie normala , cu media 0 si dispersia , ceea ce poate fi scris astfel:

I₃:

Primele momente empirice ale variabilei X, pentru T foarte mare, sunt finite:

(media empirica).

(varianta empirica).

Aceasta ipoteza va fi folosita pentru a preciza proprietatile asimptotice ale estimatorilor parametrilor a si b.

Ipotezele I₁, I₂, I₃ pot parea foarte restrictive. Vom vedea ulterior ce consecinte are abandonarea unora dintre ele asupra proprietatilor estimatorilor lui a si b.

Determinarea estimatorilor parametrilor prin metoda celor mai mici patrate

Determinarea estimatorilor parametrilor a si b (notati cu si ) prin metoda celor mai mici patrate (MCMMP) se face punand conditia ca suma patratelor erorilor sa fie minima, adica:

Pentru ca sa fie minimala, trebuie ca:

conditii necesare: , .

conditii suficiente: , .

Calculam derivatele partiale ale functiei .

Atunci, conditiile de ordinul I (necesare) conduc la sistemul de ecuatii:

iar conditiile suficiente (de ordinul II) sunt verificate.

Ecuatiile conditii de ordinul I (numite ecuatii normale, vezi justificarea geometrica din partea a II-a), le impartim la T, rezultand:

Din a doua ecuatie avem si inlocuind in prima ecuatie:

Am obtinut estimatorii si ai parametrilor a si b dati de relatiile:

Observatie

este o variabila aleatoare pentru ca e functie de y_t, iar este aleator pentru ca e functie de .

Proprietatile estimatorilor

Vom arata ca estimatorii si obtinuti prin metoda celor mai mici patrate sunt nedeplasati si convergenti. In demonstratie vom tine cont de ipotezele I₁, I₂, I₃. Pentru a usura demonstrarea proprietatilor enuntate, transformam mai intai expresiile (2) pentru a le exprima in functie de parametrii a si b. Vom considera modelul (1) , t=1, 2, ,T, insumam dupa toti t si impartim la T. Rezulta:

, adica

Scadem membru cu membru pe (2) din (1):

si inlocuim in expresia lui :

(deoarece ).

Din expresia lui , avem ca , adica , iar din (2) , astfel ca prin scadere rezulta: sau . Am obtinut ca:

si sunt estimatori nedeplasati pentru a si b.

Un estimator este nedeplasat daca media estimatorului este chiar parametrul estimat. Vom aplica operatorul de medie E in relatiile gasite mai sus. Pentru comoditate, notam cu w_tcantitatea: , astfel ca

Rezulta:

, pentru ca E(a)=a si E(e_t

Avem ca: E(b)=b, si , deci

si sunt estimatori convergenti pentru a si b.

Stiind ca si , este suficient sa aratam ca si pentru ca si sa fie convergenti in probabilitate catre a si b. Calculam varianta estimatorilor si

Stim ca , adica .

Conform ipotezelor fundamentale, si , pentru , rezultand:

dar .

In final, dispersia estimatorului este:

Conform ipotezei I₃, si avem ca

Am obtinut ca ( este convergent in probabilitate catre a).

Determinam acum dispersia estimatorului :

Evaluam, pe rind, fiecare termen:

(deoarece ).

dar ,

adica .

Folosind aceste rezultate partiale, se obtine:

Dispersia estimatorului este:

Cum insa si rezulta ca , adica ( converge in probabilitate catre b) .

Covarianta estimatorilor si

Calculam acum covarianta estimatorilor pornind de la definitie:

Matricea de varianta si covarianta a lui si , notata este deci:

Se remarca faptul ca contine pe , adica varianta lui care este necunoscuta. Se pune deci problema de a obtine o estimatie pentru , adica o estimatie pentru . Notam aceasta estimatie cu .

Determinarea unui estimator nedeplasat pentru varianta erorilor

Utilizand estimatorii si putem calcula estimatia variabilei endogene y_t, notata (se mai numesc si valori ajustate ale variabilei endogene):

Atunci diferenta dintre y_t si este un estimator pentru eroarea . Notam . Avem ca . Remarca: deoarece si converg in probabilitate catre a si b, distributia lui converge in probabilitate catre distributia lui (distributie normala, conform I₂).

Stim ca si inlocuind obtinem:

iar prin ridicare la patrat:

Insumam dupa t=1,2,,T si impartim la T:

Dar: , si

pentru ca .

Inlocuind, rezulta:

Notam cu dispersia erorilor fata de media lor si cum ea este o variabila aleatoare, ii calculam media :

Aplicand acum operatorul de medie in relatia:

si tinind cont de expresia variantei estimatorului , rezulta:

Relatia gasita se poate scrie si astfel: , asa ca, notand , am obtinut: , adica este un estimator nedeplasat pentru (varianta erorilor).

Este de remarcat ca modelul presupune estimarea a doi parametri (a si b), iar numitorul lui este T- (T-2) constituie "numarul gradelor de libertate". Vom reveni ulterior asupra acestei probleme.

In concluzie, pentru modelul liniar al regresiei simple, avem estimatorii:

Estimatorul permite sa dam o estimatie a variantelor si covariantei parametrilor din model, deci o estimatie a matricei , notata :

, unde:

Interpretarea geometrica a metodei celor mai mici patrate

Am determinat estimatorii si ai parametrilor modelului utilizand conditia necesara de existenta a minimului sumei patratelor erorilor . Putem sa dam o conditie necesara si suficienta pentru ca sa fie minimala, cu ajutorul unei reprezentari grafice. Aceasta conditie va consta in egalitatea cu zero a doua produse scalare care redau ecuatiile normale.

Modelul se scrie sub forma matriceala astfel: ,

unde: , , , .

In spatiul ortonormat consideram vectorii Y, X, U si e

Vectorul 0H=aX+bU apartine planului (L) determinat de vectorii X si U. Fie 0A=Y, 0B=X, 0C=U, HA=e. Cantitatea este minimala daca HA este ortogonal pe (L), adica pe X si U. Aceasta conditie se traduce prin egalitatea cu zero a produsului scalar al vectorilor respectivi: , sau , adica .

Am regasit, deci, sistemul de ecuatii normale.

Notam proiectia pe planul (L) a vectorului Y si cu vectorul HA ortogonal la planul (L).

A efectua o regresie a variabilei Y asupra variabilei X in modelul revine, deci, la a proiecta vectorul Y pe planul (L) din determinat de X si U.

Observatie

Consideram modelul . O reprezentare analoga celei dinainte este:

In scriere matriciala, modelul este , iar conform cu reprezentarea grafica, avem relatia OA=OH+HA.

este minimala daca (HA este perpendicular pe 0H), adica sau sau , si . Masura algebrica a proiectiei vectorului Y pe suportul vectorului U este . Vom utiliza aceasta observatie pentru a exprima ecuatia variantei.

Ecuatia variantei

Reluam reprezentarea geometrica precedenta si notam cu K proiectia lui A pe suportul vectorului U:

Evident, KH este perpendicular in K pe 0C. In triunghiul AKH, dreptunghic, avem:

Stim ca si , adica: . Dar si , rezultand ca .

Deoarece: AK=0A-0K ( dreptunghic in K)

HK=0H-0K (dreptunghic in K),

rezulta, folosind (1):

Aceasta este ecuatia variantei. Vom reveni asupra ei cand vom aborda regresia multipla.

3.4. Coeficientul de corelatie liniara

Coeficientul de corelatie liniara intre variabilele X si Y, notat r, se calculeaza cu relatia:

In general, , unde si sunt abaterile standard (radicalul dispersiei) ale variabilelor X si Y.

Stim ca estimatorul parametrului a are expresia , astfel ca putem scrie:

. Am obtinut o expresie a coeficientului de corelatie in functie de estimator, iar prin ridicare la patrat: .

Un calcul imediat arata ca: .

In acelasi timp, ecuatia variantei conduce la: , de unde: .

Pe de alta parte, utilizand figura geometrica si notand cu α unghiul , avem , , adica .

In mod necesar, si .

Cand , nu exista o relatie de tip liniar intre y_t si x_t, adica a=0.

Cand , y_t este legat de x_t printr-o relatie de forma . implica a>0, iar implica a<0.

Cand relatia dintre y_t si x_t nu este stricta, adica , atunci r este apropiat de 1, semnul lui r fiind cel al lui a.

3.5. Distributia de probabilitate a estimatorilor

Deoarece erorile e_t t=1,2,,T au o distributie normala, de medie zero si dispersie , densitatea de probabilitate a lui e_t este:

Cum e_t si e_t' sunt independente pentru , densitatea de probabilitate a vectorului aleator (e e e_T) va fi egala cu produsul densitatilor de probabilitate relative la fiecare e_t

Dar, si

(deoarece ).

Evaluam suma patratelor erorilor:

( , pentru ca asa cum arata reprezentarea grafica, vectorul este ortogonal la planul (L), prin urmare este perpendicular pe orice vector din acel plan, deci si pe X si U. Produsele scalare cu acesti vectori vor fi nule, adica: si ).

Intr-o scriere matriciala:

( lasam studentilor placerea de a verifica !).

Inlocuind in (1) fiecare e_t prin expresiile calculate mai sus, deducem densitatea de probabilitate a vectorului aleator

(y₁,y₂,,y_T):

Tinand cont de matricea de varianta si covarianta a estimatorilor, , se arata usor ca: si unde este densitatea de probabilitate a lui , iar cea a lui .

Cu aceste rezultate si facind apel la unele teoreme importante ale statisticii matematice, putem deduce urmatoarele distributii de probabilitate:

Deoarece , adica , variabila aleatoare definita de raportul urmeaza o repartitie c (hi-patrat) cu (T-2) grade de libertate. (Vectorul admite T-2 componente independente nenule distribuite dupa T-2 legi normale independente, cu media zero si abatere standard )

Folosind relatile de calcul stabilite anterior, rezulta ca

(am utilizat aici notatiile si pentru varianta estimatorului , respectiv pentru estimatia acesteia). Atunci variabila aleatoare definita de raportul urmeaza tot o repartitie c cu (T-2) grade de libertate.

Cuplul urmeaza o repartitie normala bidimensionala, astfel ca variabilele aleatoare definite mai jos au repartitiile urmatoare:;

v (repartitia Student cu (T-2) grade de libertate);

v ;

v .

Expresia este variabila aleatoare repartizata Fisher-Snedecor, cu 2 si (T-2) grade de libertate.

4. Teste si intervale de incredere

Pentru ca exista tabele cu valorile legilor de probabilitate anterioare, putem determina intervale de incredere pentru parametrii a si b la un nivel de semnificatie a fixat.

este luat din tabela distributiei Student cu (T-2) grade de libertate. Un calcul simplu conduce la intervalul de incredere pentru parametrul a, de forma:

ceea ce permite afirmatia ca adevarata valoare a parametrului real a , se gaseste in intervalul de valori cu probabilitatea 1-α.

Cand se doreste testarea unei valori a₀ a parametrului a, este suficient, pentru a accepta aceasta valoare cu riscul a, sa ne asiguram ca:

Altfel spus, este suficient ca a₀ sa apartina intervalului de incredere stabilit: .

De asemenea, .

este ecuatia unei elipse cu centrul in care defineste astfel o "regiune" de incredere pentru cuplul la nivelul de semnificatie a

Proiectiile acestei elipse pe axe determina, de asemenea, doua intervale de incredere pentru a si b, centrate in si . Dar, este important de remarcat ca, nivelul de semnificatie referitor la aceste intervale nu mai este nivelul a asociat elipsei.

Daca se doreste testarea simultana a doua valori a₀, b₀ alese apriori, este suficient sa inlocuim a si b in expresia F prin a₀ si b₀.

Daca se accepta valorile, altfel ele vor fi respinse. Altfel spus, pentru a accepta cuplul (a₀, b₀) la nivelul de semnificatie a este suficient ca punctul M₀(a₀,b₀) sa apartina elipsei de incredere asociata cuplului (a, b).

Observatii

Expresia se descompune in doi factori (g si h). g se exprima doar in functie de , adica in functie de y_t, , ; h nu contine decat pe , , a si b. Aceasta arata ca, odata cunoscuta o realizare a cuplului , legea de probabilitate conditionata a lui y_t (data de factorul g) nu depinde decat de valorile adevarate (dar necunoscute) ale parametrilor a si b. Se zice ca sunt estimatori "exhaustivi" pentru a si b, adica ei rezuma toata informatia pe care esantionul o poate aduce despre a si b.
Cand ipoteza de normalitate asupra erorilor este realizata, functia de verosimilitate relativa la esantionul este chiar functia . Pentru obtinerea de estimatori ai lui a si b prin metoda verosimilitatii maxime, este suficient sa maximizam expresia , adica sa minimizam . Estimatorii obtinuti cu metoda celor mai mici patrate coincid, deci, cu cei obtinuti prin metoda verosimilitatii maxime.
Atunci cand ipoteza de normalitate a erorilor nu se realizeaza, se va arata ca estimatorii si obtinuti prin metoda celor mai mici patrate au varianta minima printre toti estimatorii liniari centrati in a si b (se va da o demonstratie pe cazul general).

5. Previziunea cu modelul liniar

Fie realizarea variabilei exogene la momentul q. Valoarea previzionata pentru endogena Y va fi:

iar realizarea efectiva a lui Y este:

Eroarea de previziune se poate exprima prin variabila aleatoare .

Se remarca imediat ca , iar varianta erorii de previziune este:

Ultimii doi termeni sunt nuli (s-a demonstrat anterior!) (e si , ca si e si sunt necorelati).

Deci:

Notam varianta erorii de previziune cu si folosind relatiile de calcul anterioare, rezulta:

este necunoscut, dar estimat prin si varianta estimata a erorii de previziune este:

Aceasta varianta poate fi redusa, pe de o parte prin cresterea numarului de observatii (T), iar pe de alta parte, prin alegerea lui astfel incat sa nu fie prea mare (adica facand o previziune pe termen scurt).

Deoarece erorile sunt normal distribuite, atunci si si (urmeaza legi normale). Rezulta urmatoarele distributii de probabilitate pentru variabilele:

urmeaza o lege Student cu T-2 grade de libertate pentru ca .

In planul (x,y) trasam dreapta de ajustare . Fie punctul situat pe dreapta de ajustare. Putem construi, avand P ca centru si paralel cu axa 0y un interval de incredere M₁M₂ la nivelul de semnificatie a

fiind luat din tabela distributiei Student. Pentru T dat, ca functie de este minim pentru . Punctele M₁ si M₂ sunt deci situate, cand q variaza, pe doua arce de curba (vezi figura), care determina astfel regiunea careia ii apartine pentru dat, cu o probabilitate egala cu (1-a

Observatii

1. "O variabila aleatoare t este distribuita dupa o lege Student cu T-2 grade de libertate daca expresia este raportul dintre o variabila aleatoare distribuita cu 1 grad de libertate si o alta distribuita cu (T-2) grade de libertate". Fie . Atunci:

"O variabila aleatoare F este distribuita dupa o lege Fisher-Snedecor cu n₁ sin₂ grade de libertate daca expresia este raportul dintre o variabila aleatoare distribuita cu n₁ grade de libertate si o alta distribuita cu n₂ grade de libertate".

Fie .

Atunci:

pentru ca urmeaza o lege normala bidimensionala.

3. Jacobianul transformarii permite exprimarea densitatii de probailitate a vectorului aleator pornind de la cea a lui . Cand este cunoscuta, pentru a obtine , procedam astfel:

Inlocuim prin expresia ei in functie de ;

Inmultim expresia obtinuta cu valoarea absoluta a determinantului:

4. Am vazut ca , si fiind distribuite normal. este o combinatie liniara de . Deci:

este distribuita c cu 1 grad de libertate pentru ca este patratul unei variabile aleatoare N(0,1).

Deoarece , prin impartirea la , obtinem:

Rezulta ca:

6. Experienta de calcul

Pentru a studia cum variaza cheltuielile de intretinere si reparatii ale unui utilaj agricol in functie de "varsta" utilajului, s-au cules urmatoarele date:

Varsta utilajului (x_t) -in luni-
Cheltuieli anuale de intretinere si reparatii (y_t) -in RON-
Varsta utilajului (x_t) -in luni-
Cheltuieli anuale de intretinere si reparatii (y_t) -in RON-

Rezolvare:

Cautam sa estimam parametrii unei regresii liniare inte variabilele X si Y, de forma , presupunind ca sunt indeplinite ipotezele fundamentale I₁,I₂,I₃.

1. Pentru a calcula estimatorii, se folosesc relatiile de calcul stabilite anterior (in cadrul seminarului se vor prezenta facilitatile de calcul oferite de diferite pachete de programe dedicate). Elementele necesare calculului sunt date in tabelul ce urmeaza:

Pe baza elementelor din tabelul de calcul, se determina:

- -

- coeficientul de corelatie liniara:

Valoarea apropiata de 1 a coeficientului de corelatie arata ca intre cele doua variabile studiate exista o corelatie liniara.

Observatie: Am vazut ca:

Patratul coeficientului de corelatie liniara este raportul dintre variabilitatea explicata prin model si variabilitatea totala.

- ecuatia de analiza a variantei:

variabilitatea totala = variabilitatea explicata + variabilitatea reziduala

= 6137,719 + 132,014

In spatiul observatiilor, Y este cu atat mai bine explicat prin modelul liniar, cu cat este mai aproape se planul (L) generat de vectorii X si U (vectorul unitar), deci cu cat variabilitatea reziduala este mai mica fata de variabilitatea empirica totala. Aceasta face ca raportul dintre variabilitatea explicata prin model si variabilitatea totala, adica ρ², sa fie apropiat de 1.

- estimatiile variantelor reziduurilor si ale estimatorilor:

- calculul intervalelor de incredere pentru estimatori:

Variabilele aleatoare si urmeaza fiecare o repartitie Student cu (T-2) grade de libertate. Alegand un nivel de semnificatie α=0,05, putem extrage din tabelele repartitiei (astfel de tabele se gasesc in majoritatea cartilor de econometrie, sau de statistica matematica) valoarea t_tabcorespunzatoare numarului de grade de libertate si nivelului de semnificatie ales. In cazul nostru, pentru T-2=13 grade de libertate si α=5%, gasim t_tab=2,16. Intervalele de incredere vor fi:

[1,28-(2,16)(0,052) ; 1,28+(2,16)(0,052)]=

= [1,17 ; 1,39]

[31,67 -(2,16)(1,5) ; 31,67+(2,16)(1,5)]=

=[28,43 ; 34,91]

Prin urmare, putem afirma ca valorile parametrilor reali a si b se gasesc in aceste intervale cu o probabilitate de 95%.

Stabilim acum un interval de incredere pentru estimatorul variantei erorilor. Am vazut ca variabila aleatoare urmeaza o lege de repartitie hi-patrat cu (T-2) grade de libertate. In tabelele legii hi-patrat vom gasi, pentru un nivel de semnificatie α dat, doua valori: v₁avand probabilitatea (1-α/2) de a fi depasita, respectiv v₂ avand probabilitatea (α/2) de a fi depasita, astfel ca

Se obtine astfel intervalul de incredere:

pentru =0,05 si 13 grade de libertate extragem din tabela v₁=5,01 si v₂=24,7 rezultand intervalul:

[5,34 ; 26,34]

- testam daca parametrii a si b ai modelului sunt semnificativ diferiti de zero la pragul de semnificatie α=0,05.

Variabilele aleatoare si urmeaza legi de probabilitate Student cu (T-2) grade de libertate. Aceste rapoarte se numesc si "raportul t" Student empiric (t_calculat). Se accepta ipoteza H₀: (a=0) daca t_calculat(luat in modul) este mai mic decat t_{tabelat ,}altfel se accepta ipoteza contrara H₁:(a Acest lucru se poate scrie: . Este exact acelasi lucru cu a spune ca 0 sa apartina intervalului de incredere determinat pentru a. Cum [1,17 ; 1,39], acceptam ipoteza H₁:(a0). La fel stau lucrurile si pentru b. Prin urmare, a si b sunt semnificativ diferiti de zero la pragul de semnificatie de 5%. Se spune ca variabila explicativa (exogena) X (varsta utilajului) este "contributiva".

- ne propunem acum sa determinam o previziune a cheltuielilor de intretinere si reparatii pentru un utilaj de 4 ani (48 de luni). Notam cu cheltuielile de intretinere si reparatii pentru un utilaj cu "varsta" . Avem ca

Ce eroare corespunde unei astfel de previziuni? Stim ca:

, este o variabila aleatoare distribuita normal, cu media zero si varianta estimata a erorii de previziune:

Deoarece variabila aleatoare este distribuita Student cu (T-2) grade de libertate, putem determina un interval de incredere pentru valoarea previzionata:

Cu o probabilitate de 95%, valoarea adevarata a cheltuielilor de intretinere si reparatii pentru un utilaj de 48 de luni se va afla in intervalul determinat.

Nu se poate descarca referatul
Acest document nu se poate descarca

E posibil sa te intereseze alte documente despre:

heteroscedasticitate definitie,

Folositi documentele afisate ca sursa de inspiratie. Va recomandam sa nu copiati textul, ci sa compuneti propriul document pe baza informatiilor de pe site.
{ Home } { Contact } { Termeni si conditii }

Documente similare:

Regresia simpla [economie]
Dezvoltarea durabila la fabrica de medicamente [economie]
Planul financiar [economie]
Piata si concurenta [economie]
Analiza cheltuielilor materiale [economie]

Administratie	Alimentatie	Arta cultura	Asistenta sociala	Astronomie
Biologie	Chimie	Comunicare	Constructii	Cosmetica
Desen	Diverse	Drept	Economie	Engleza
Filozofie	Fizica	Franceza	Geografie	Germana
Informatica	Istorie	Latina	Management	Marketing
Matematica	Mecanica	Medicina	Pedagogie	Psihologie
Romana	Stiinte politice	Transporturi	Turism

Regresia simpla

Comentarii

Caracterizari

Cauta document