zpět na výpis    domů » statistika » Testování klasického lineárního regresního modelu

Testování klasického lineárního regresního modelu

Publikováno: 3.6.2017

Testování klasického lineárního regresního modelu

Odhadnutý regresní model je nutné otestovat z hlediska jednotlivých bodových odhadů b0, b1, ..., bk neznámých parametrů β0, β1, ..., βk, modelu jako celku a sériové nezávislosti residuální složky. Pokud jsou odhady modelu statisticky významné lze je vztáhnout na celou populaci. Více se teorii klasického regresního modelu věnuje kapitola Klasický model lineární regrese.

Předmětem testování odhadu modelu je následující klasický lineární model v maticové podobě:

y = Xβ + ε, ε ∼ N (0, σ2In)

y ... sloupcový vektor n hodnot závisle proměnné
X ... matice hodnot n x (k + 1) nezávisle proměnných
β ... sloupcový vektor k + 1 neznámých parametrů
ε ... sloupcový vektor n náhodných složek modelu

Normalita modelu a odhad standardní chyby

Při testování hypotéz v modelu a konstrukci intervalů spolehlivosti se předpokládá normální rozdělení náhodné složky. Od pravděpodobnostního rozdělení náhodné složky se odvíjí rozdělení odhadů b neznámých parametrů β.

K předpokladům klasického lineárního regresního modelu se přidává další předpoklad normality náhodné složky. Vektorová náhodná složka ε má normální rozdělení s nulovou střední hodnotou a kovarianční maticí σ2In.

ε ∼ N(0, σ2In)

Z nového předpokladu vyplývá, že i odhadová funkce b = (XTX)-1XTy má normální rozdělení se střední hodnotou β a kovarianční maticí σ2(XTX)-1.

b ∼ N(β, σ2(XTX)-1)

Rozptyl náhodné složky σ2 v kovarianční matici V(b) = σ2(XTX)-1 je neznámý. Při testovnání modelu lze nahradit neznámý rozptyl jeho odhadem s2.

s2 = ∑e2/(n - k - 1)
∑e2 = ∑(yi - Yi) = ∑(yi - b0 - b1x1i - ... - bkxki)2

yi ... skutečná hodnota závisle proměnné
Yi ... odhadnutá hodnota závisle proměnné

Nyní lze neznámou kovarianční matici V(b) nahradit jejím odhadem S(b).

V(b) = σ2(XTX)-1 ⇒ S(b) = s2(XTX)-1

Odmocniny diagonálních prvků v kovarianční matici jsou odhadnuté standardní chyby bodových odhadů s(bj), které se využívají pro statistické testování bodových odhadů jednotlivých parametrů. Standardní chyby regresních parametrů vyjadřují míru přesnosti bodové odhadové funkce b.

s(bj) = s√(XTX)ii-1 i = 1, 2, ..., k

Testování regresních parametrů modelu

K testování statistické významnosti bodových odhadů regresních parametrů se používá t-statistika, která je založena na Studentově rozdělení t s n - (k + 1) stupni volnosti. Testovací kritérium poměřuje odhady jednotlivých parametrů a jejich standardních chyb:

t = bj/s(bj)

Testovací kritérium je vyhodnocováno porovnáním absolutní hodnoty kalkulované hodnoty |t| s tabelovanou hodnotnou t1-α/2[n - (k + 1)] na zvolené hladině významnosti α s n - (k + 1) stupni volnosti.

Jestliže je |t| větší než tabelovaná hodnota, tak zamítáme nulovou hypotézu H0 o statistické nevýznamnosti parametru v modelu ve prospěch alternativní hypotézy H1 o statistické významnosti.

|t| > t1-α/2(n - k - 1) ⇒ proměnná vliv na vysvětlující proměnnou
|t| < t1-α/2(n - k - 1) ⇒ proměnná nemá vliv na vysvětlující proměnnou

Kvalita regresního modelu

Kvalita regresního modelu se ověřuje pomocí koeficientu determinace, který se označuje jako R2.

Koeficient determinace je založen na rozkladu rozptylu empirických hodnot závisle proměnné (TSS) na rozptyl vyrovnaných hodnot závisle proměnné (ESS) a rozptyl residuální složky modelu (RSS). Residuální součet čtverců odchylek je minimalizační kritérium metody nejmenších čtverců. Čím nižší je rozptyl residuální složky, tím kvalitnější je odhadnutý model a empirická data se shodují s modelem.

Rozklad rozptylu empirických hodnot yi

∑(yi - y)2 = ∑(Yi - y)2 + ∑(yi - Yi)2

TSS = ESS + RSS

TSS = ∑(yi - y)2 ... rozptyl empirických hodnot závisle proměnné
ESS = ∑(Yi - y)2 ... rozptyl vyrovnaných hodnot závisle proměnné
RSS = ∑(yi - Yi)2 ... rozptyl residuální složky

Koeficient determinace

R2 = ESS/TSS = 1 - (RSS/TSS)

R2 ∈ ⟨0, 1⟩

V praxi je vyhodnější použít takzvaný upravený koeficient determinace, který zohledňuje počet regresních parametrů v modelu a rozsah pozorování.

Upravený koeficient determinace

Adjusted R2 = 1 - [RSS/(n - k - 1)]/[TSS/(n - 1)] = 1 - (1 - R2) · (n - 1)/(n - k - 1)

Přičemž platí, že R2 ≤ adjusted R2. Upravený koeficient determinace penalizuje nadměrný počet parametrů k v modelu.

Testování významnosti modelu

K testování statistické významnosti regresního modelu se používá F-test, který je založen na koeficientu determinace.

F = [R2/(1 - R2)]·[(n - k - 1)/k]

F-test regresního modelu má Fisherovo-Snedecorovo rozdělení F s počtem regresních parametrů k a n - k - 1 stupni volnosti.

Jestliže je kalkulovaná hodnota F-testu větší než tabulková hodnota zamítáme nulovou hypotézu H0 o statistické nevýznamnosti modelu ve prospěch alternativní hypotézy H1 o statistické významnosti modelu a shodě modelu s daty.

F > F1 - α(k, n - k - 1) ⇒ model je statisticky významný
F < F1 - α(k, n - k - 1) ⇒ model je statisticky nevýznamný

Testování autokorelace residuální složky

Jestliže jsou odhady náhodné složky sériově závislé je porušen jeden z požadavků metody nejmenších čtverců.

Autokorelace residuální složky vede k nestranným odhadům regresních parametrů, ale odhady nejsou vydatné a tím pádem nemají minimální rozptyl. Odhady regresních parametrů nejsou statisticky průkazné.

Při autokorelaci 1. řádu je náhodná složka generována autoregresním procesem AR(1).

AR(1) proces

et = ρet-1 + εt

ρ ∈ ⟨-1; 1⟩ ... koeficient autokorelace 1. řádu
εt ... normálně rozdělená náhodná složka

Je-li ρ = 0, pak jde o sériovou nezávislost náhodné složky. Při ρ = 1 vykazuje koeficient pozitivní autokorelaci a při ρ = -1 vykazuje náhodná složka negativní autokorelaci.

Autokorelace 1. řádu se standardně testuje pomocí Durbin-Watsonovy statistiky značené jako DW nebo d.

Durbin-Watsonova statistika

DW = ∑(et - et - 1)2/∑et2

DW ∈ ⟨0, 4⟩

e ... residuální složka

Hodnoty vypočtené DW statistiky se mohou pohybovat na intervalu ⟨0, 4⟩:

  • je-li DW ≈ 0 ⇒ pozitivní autokorelace
  • je-li DW ≈ 2 ⇒ sériová nezávislost
  • je-li DW ≈ 4 ⇒ negativní autokorelace

Mezi uvedenými hodnotami se nachází intervaly neprůkaznosti, proto je nutné vypočtenou hodnotu DW statistiky porovnat s tabulkovými hodnotami pro horní (dU) a dolní mez (dL).

Funkce v MS Excel

MS Excel poskytuje statistické a matematické funkce pro testování regresního modelu.

ABS() ... absolutní hodnota
TINV() ... tabelovaná hodnota t-statistiky
TDIST() ... hladina významnosti parametru modelu
FINV() ... tabelovaná hodnota F-testu
FDIST() ... hladina významnosti modelu jako celku

Chcete vědět o každém novém článku? Dejte Like Financím v praxi na sociálních sítích a zůstaňte ve spojení.

Google+

Sdílejte článek na sociálních sítích

Použité zdroje a literatura
  • CIPRA, T.: Finanční ekonometrie. EKOPRESS 2008, Praha. První vydání, 538 stran. ISBN 978-80-86929-43-9
  • DUFEK, J.: Ekonometrie. Mendelova zemědělská a lesnická univerzita v Brně 2003, Brno. První vydání, 136 stran. ISBN 80-7157-654-9
  • HAMPEL, D., BLAŠKOVÁ, V., STŘELEC, L.: Ekonometrie 2. Mendelova univerzita v Brně 2011, Brno. První vydání, 147 stran. ISBN 978-80-7375-540-9
  • HINDLS, R., HRONOVÁ, S., SEGER, J., FISCHER, J.: Statistika pro ekonomy. Profesional publishing 2007, Praha. Osmé vydání, 415 stran. ISBN 978-80-86946-43-6
  • HUŠEK, R.: Ekonometrická analýza. EKOPRESS 1999, Praha. První vydání, 303 stran. ISBN 80-86119-19-X
  • JAROŠOVÁ, E., PECÁKOVÁ, I.: Příklady k předmětu statistika B. Vysoká škola ekonomická 2003, Praha. První vydání, 222 stran. ISBN 80-245-0015-9
  • LEJNAROVÁ, Š., RÁČKOVÁ, A., ZOUHAR, J.: Základy ekonometrie v příkladech. Vysoká škola ekonomická 2009, Praha. První vydání, 276 stran. ISBN 978-80-245-1564-9
Nahoru