Testování regresního modelu
Publikováno: 28.6.2017
Testování kvality odhadů regresních parametrů a kvality modelu jako celku pomocí koeficientu determinace a F-testu
- t-test
- koeficient determinace
- F-test
Odhadnutý regresní model je třeba statisticky ověřit hned z několika hledisek. Testují se dílčí parametry modelu (t-test), model jako celek (koeficient determinace a F-test) a testy zaměřené reziduální složku (sériová nezávislost, konstantní rozptyl a normalita). Je-li statistická verifikace úspěšná, lze teprve pak výsledky vztáhnout na celou populaci a použít pro předpovědi budoucích hodnot.
Cílem příspěvku je popsat základní statistické metody pro testování dílčích parametrů modelu a modelu jako celku.
Normalita modelu a odhad standardní chyby
Pro testování hypotéz a konstrukci intervalů spolehlivosti se předpokládá normální rozdělení náhodné složky. Od rozdělení náhodné složky se odvíjí rozdělení odhadů b neznámých parametrů β.
Ke klasickým předpokladům lineárního regresního modelu se přidává předpoklad normality náhodné složky. Předpoklad říká, že vektor náhodné složky ε má mít normální rozdělení s nulovou střední hodnotou a kovarianční maticí ∑ = σ2In.
Odhadová funkce b = (XTX)-1XTy s normálním rozdělením má střední hodnotou β a kovarianční matici σ2(XTX)-1
Hodnoty rozptylu náhodné složky σ2 v kovarianční matici jsou neznámé. Proto je nutné při praktickém testování modelu nahradit neznámý rozptyl σ2 jeho odhadem s2
y ... skutečná hodnota závisle proměnné, Y ... výběrová regresní funkce, n ... počet pozorování, k + 1 ... počet regresních parametrů v modelu včetně úrovňové konstanty
Na základě odhadu s2 pak můžeme neznámou kovarianční matici V(b) nahradit jejím odhadem S(b)
Odmocniny diagonálních prvků kovarianční matice jsou odhady standardních chyb regresních parametrů s(bj). Standardní chyby regresních parametrů vyjadřují míru přesnosti bodové odhadové funkce b. V rámci statistické verifikace odhadů se používají k testování statistické významnosti regresních parametrů a oprávněnosti být v modelu.
Testování regresních parametrů modelu
K testování statistické významnosti odhadnutých regresních parametrů se používá t-test, který je založen na Studentově rozdělení t s n - (k + 1) stupni volnosti. Testovací kritérium poměřuje odhady jednotlivých parametrů a jejich standardních chyb
Testovací kritérium je vyhodnocováno porovnáním absolutní hodnoty vypočtené statistiky |t| s tabelovanou hodnotnou kvantilu t1-α/2[n - (k + 1)] na zvolené hladině významnosti α s n - (k + 1) stupni volnosti.
Jestliže je |t| větší než tabelovaná hodnota, zamítáme nulovou hypotézu H0 o statistické nevýznamnosti parametru v modelu ve prospěch alternativní hypotézy H1 o statistické významnosti.
Vyhodnocení testu probíhá následujícím způsobem
|t| > t1-α/2(n - k - 1) ⇒ proměnná má vliv na vysvětlovanou proměnnou
|t| < t1-α/2(n - k - 1) ⇒ proměnná nemá vliv na vysvětlovanou proměnnou
Kvalita regresního modelu
Kvalita regresního modelu se ověřuje pomocí koeficientu determinace, který se označuje R2
Je založen na rozkladu rozptylu empirických hodnot závisle proměnné (TSS) na rozptyl vyrovnaných hodnot závisle proměnné (ESS) a rozptyl reziduální složky modelu (RSS)
TSS = ∑(yi - y)2 ... rozptyl empirických hodnot závisle proměnné, ESS = ∑(Yi - y)2 ... rozptyl vyrovnaných hodnot závisle proměnné, RSS = ∑(yi - Yi)2 ... rozptyl residuální složky
Reziduální součet čtverců odchylek je minimalizační kritérium metody nejmenších čtverců. Čím nižší je rozptyl reziduální složky, tím kvalitnější je odhadnutý model a empirická data se shodují s modelem.
V praxi se doporučuje použít i takzvaný korigovaný koeficient determinace, který zohledňuje počet regresních parametrů v modelu a rozsah pozorování
Přičemž platí, že R2 ≥ adjusted R2. Korigovaný koeficient determinace penalizuje nadměrný počet parametrů k + 1 v modelu.
Testování významnosti modelu
Pro testování statistické významnosti regresního modelu se používá F-test, který je založen na koeficientu determinace.
Testovací kritérium má Fisherovo-Snedecorovo rozdělení F s počtem regresních parametrů k a n - k - 1 stupni volnosti.
Jestliže je kalkulovaná hodnota F-testu větší než tabulková hodnota kvantilu F1 - α(k, n - k - 1), zamítáme nulovou hypotézu H0 o statistické nevýznamnosti modelu ve prospěch alternativní hypotézy H1 o statistické významnosti modelu a shodě modelu s daty.
F > F1 - α(k, n - k - 1) ⇒ model je statisticky významný
F < F1 - α(k, n - k - 1) ⇒ model je statisticky nevýznamný
Funkce v MS Excel
- ABS() - vrátí absolutní hodnotu
- TINV() - tabelovaná hodnota t-statistiky
- TDIST() - hladina významnosti parametru modelu
- FINV() - tabelovaná hodnota F-testu
- FDIST() - hladina významnosti modelu jako celku
- CIPRA, T.: Finanční ekonometrie. EKOPRESS 2008, Praha. První vydání, 538 stran. ISBN 978-80-86929-43-9
- DUFEK, J.: Ekonometrie. Mendelova zemědělská a lesnická univerzita v Brně 2003, Brno. První vydání, 136 stran. ISBN 80-7157-654-9
- HAMPEL, D., BLAŠKOVÁ, V., STŘELEC, L.: Ekonometrie 2. Mendelova univerzita v Brně 2011, Brno. První vydání, 147 stran. ISBN 978-80-7375-540-9
- HINDLS, R., HRONOVÁ, S., SEGER, J., FISCHER, J.: Statistika pro ekonomy. Profesional publishing 2007, Praha. Osmé vydání, 415 stran. ISBN 978-80-86946-43-6
- HUŠEK, R.: Ekonometrická analýza. EKOPRESS 1999, Praha. První vydání, 303 stran. ISBN 80-86119-19-X
- JAROŠOVÁ, E., PECÁKOVÁ, I.: Příklady k předmětu statistika B. Vysoká škola ekonomická 2003, Praha. První vydání, 222 stran. ISBN 80-245-0015-9
- LEJNAROVÁ, Š., RÁČKOVÁ, A., ZOUHAR, J.: Základy ekonometrie v příkladech. Vysoká škola ekonomická 2009, Praha. První vydání, 276 stran. ISBN 978-80-245-1564-9