Standardna greška

Za vrednost koja je uzorkovana sa nepristrasnom normalno raspodeljenom greškom, gore prikazano predstavlja udeo uzoraka koji bi pao između 0, 1, 2 i 3 standardne devijacije iznad i ispod stvarne vrednosti.

Standardna greška (engl. Standard error - SE) statističkog parametra (obično procene parametra) je standardna devijacija njegove distribucije uzorkovanja^[1] ili procena tog standardnog odstupanja. Ako je parametar ili statistika srednja vrednost, ona se naziva standardnom greškom srednje vrednosti (engl. standard error of the mean - SEM).

Distribucija uzorka populacione srednje vrednosti se generiše ponovljenim uzorkovanjem i beleženjem dobijenih srednjih vrednosti.^[2] Ovo formira distribuciju različitih srednjih vrednosti, i ova distribucija ima svoju srednju vrednosti i varijansu. Matematički, dobijena varijansa distribucije uzorkovanja jednaka je varijansi populacije podeljenoj veličinom uzorka. To je zato što kako se veličina uzorka povećava, srednje vrednosti uzoraka se bliže grupišu oko oko populacione srednje vrednosti. Stoga je odnos između standardne greške i standardne devijacije takav da je za datu veličinu uzorka standardna greška jednaka standardnoj devijaciji podeljenoj sa kvadratnim korenom veličine uzorka. Drugim rečima, standardna greška srednje vrednosti je mera disperzije srednjih vrednosti uzorka oko populacione srednje vrednosti.

U regresijskoj analizi, izraz „standardna greška” odnosi se na kvadratni koren redukovane hi-kvadratne statistike^[3]^[4]^[5] ili na standardnu grešku za dati koeficijent regresije (kao što se koristi, na primer, u intervalima poverenja).

Standardna greška srednje vrednosti

Populacija

Standardna greška srednje vrednosti (SEM) se može izraziti kao:

{\sigma }_{\bar {x}}\ ={\frac {\sigma }{\sqrt {n}}}

gde je

σ - standardna devijacija populacije.

n - veličina (broj opservacija) uzorka.

Procena

Budući da je populaciona standardna devijacija retko poznata, standardna greška srednje vrednosti obično se procenjuje kao standardna devijacija uzorka podeljena sa kvadratnim korenom veličine uzorka (pod pretpostavkom statističke nezavisnosti vrednosti u uzorku).

{\sigma }_{\bar {x}}\ \approx {\frac {s}{\sqrt {n}}}

gde je

s - standarcna devijacija uzorka (i.e., procena bazirana na uzorku standardne devijacije populacije), i

n - veličina (broj opservacija) uzorka.

Primer

U onim kontekstima u kojima je standardna greška srednje vrednosti definisana ne kao standardna devijacija srednje vrednosti uzorka, već kao njena procena, ta se procena tipično daje kao njena vrednost. Stoga je uobičajeno da se standardna devijaciju srednje vrednosti alternativno definiše kao:

{\text{s}}_{\bar {x}}\ ={\frac {s}{\sqrt {n}}}

Standardna devijacija prosečne vrednosti uzorka jednaka je standardnoj devijaciji greške u srednjoj vrednosti uzorka u odnosu na pravu srednju vrednost, jer je srednja vrednost uzorka nepristrani procenjivač. Stoga se standardna greška srednje vrednosti može razumeti i kao standardna devijacija greške u srednjoj vrednosti uzorka u odnosu na pravu srednju vrednost (ili procenu te statistike).

Napomena: standardna greška i standardna devijacija malih uzoraka imaju tendenciju da sistematski potcenjuju populacionu standardnu grešku i standardnu devijaciju: standardna greška srednje vrednosti je pristrani procenjivač populacione standardne greške. Sa n = 2, podcenjivanje je oko 25%, doj je za n = 6, podcenjivanje je samo 5%. Gurland i Tripati (1971) daju korekciju i jednačinu ovog efekta.^[6] Sokal i Rohlf (1981) daju jednačinu korekcijskog faktora za male uzorke od n < 20.^[7] Pogledajte nepristrasnu procenu standardne devijacije za dalju diskusiju.

Praktični rezultat: Smanjenje neizvesnosti u proceni srednje vrednosti za faktor dva zahteva dobijanje četiri puta više opažanja u uzorku. Ili za smanjenje standardne greške za deset puta potrebno je sto puta više opažanja.

Derivacije

Formula se može izvesti iz varijanse sume nezavisnih randomnih promenljivih.^[8]

Ako su $x_{1},x_{2},\ldots ,x_{n}$ $n$ nezavisnih opservacija iz populacije koja ima srednju vrednost $\mu$ i standardnu devijaciju $\sigma$ , onda je $n\sigma ^{2}$ varijansa totala $T=(x_{1}+x_{2}+\cdots +x_{n})$ .
Varijansa od $T/n$ (srednje vrednosti ${\bar {x}}$ ) je $n\left({\frac {\sigma ^{2}}{n^{2}}}\right)={\frac {\sigma ^{2}}{n}}.$ Alternativno, ${\text{var}}({\frac {T}{n}})={\frac {1}{n^{2}}}{\text{var}}(T)={\frac {1}{n^{2}}}n\sigma ^{2}={\frac {\sigma ^{2}}{n}}.$
Standardna devijacija od $T/n$ je $\sigma /{\sqrt {n}}$

Nezavisne i identično distribuirane randomne promenljive sa randomnom veličinom uzorka

Postoje slučajevi kada se uzima uzorak, a da se unapred ne zna koliko će opažanja biti prihvatljiva prema nekom kriterijumu. U takvim slučajevima, veličina uzorka N je randomna promenljiva čija varijacija se dodaje varijaciji X, tako da

Var(T) = E(N)Var(X) + Var(N)E²(X).^[9]

Ako N ima Puasonovu distribuciju,^[10]^[11] onda je E(N) = Var(N) sa procenjivačem N=n. Stoga procenjivač za Var(T) postaje nS²_X + nXbar² dajući^[12]

standardna greška(Xbar) = √[(S²_X + Xbar²)/n].

Studentova aproksimacija kad je σ vrednost nepoznata

U mnogim praktičnim aplikacijama prava vrednost σ nije poznata. Konsekventno, neophodno je da se koristi distribuciju koja uzima u obzir opseg mogućih σ vrednosti. Kada je poznato da je istinska ishodišna distribucija Gausijan, iako sa nepoznatim σ, tada dobijena procenjena distribucija sledi Studentovu t-distribuciju. Standardna greška je standardna devijacija Studentove t-distribucije. T-distribucije se donekle razlikuju od Gausove i variraju u zavisnosti od veličine uzorka. Mali uzorci u izvesnoj meri verovatnije mogu da dovedu do podcenjivanja populacione standardne devijacije i imaju srednju vrednost koja se razlikuje od stvarne populacione srednje vrednosti. Studentova t-distribucija daje verovatnoću ovih događaja s nešto težim repovima u poređenju sa Gausovom. Za procenu standardne greške Studentove t-distribucije dovoljno je da se koristi uzorkovanje standardne devijacije s umjesto σ, i to se može koristiti za izračunavanje intervala poverenja.^[13]^[14]

Napomena: Studentova raspodela verovatnoće je dobra aproksimacija za Gausovu raspodelu kad je veličina uzorka veća od 100. Za takve uzorke može se koristiti potonja raspodela, koja je znatno jednostavnija.

Vidi još

Reference

^ Everitt, B. S. (2003). The Cambridge Dictionary of Statistics. CUP. ISBN 978-0-521-81099-9.
^ Merberg, A. and S.J. Miller (2008). "The Sample Distribution of the Median". Course Notes for Math 162: Mathematical Statistics, pgs 1–9.
^ Kenney, J.; Keeping, E. S. (1963). Mathematics of Statistics. van Nostrand. стр. 187.
^ Zwillinger, D. (1995). Standard Mathematical Tables and Formulae. Chapman&Hall/CRC. стр. 626. ISBN 0-8493-2479-3.
^ Hayashi, Fumio (2000). Econometrics. Princeton University Press. ISBN 0-691-01018-8.
^ Gurland, J; Tripathi RC (1971). „A simple approximation for unbiased estimation of the standard deviation”. American Statistician. 25 (4): 30—32. JSTOR 2682923. doi:10.2307/2682923.
^ Sokal; Rohlf (1981). Biometry: Principles and Practice of Statistics in Biological Research (2nd изд.). стр. 53. ISBN 978-0-7167-1254-1.
^ Hutchinson, T. P. Essentials of Statistical Methods, in 41 pages. Adelaide: Rumsby. ISBN 978-0-646-12621-0.
^ Cornell, J R, and Benjamin, C A, Probability, Statistics, and Decisions for Civil Engineers, McGraw-Hill, NY, 1970, pp.178-9.
^ Haight, Frank A. (1967). Handbook of the Poisson Distribution. New York, NY, US: John Wiley & Sons. ISBN 978-0-471-33932-8.
^ Poisson, Siméon D. (1837). Probabilité des jugements en matière criminelle et en matière civile, précédées des règles générales du calcul des probabilités [Research on the Probability of Judgments in Criminal and Civil Matters] (на језику: француски). Paris, France: Bachelier.
^ Van Trees, Harry L. (2013). Detection estimation and modulation theory. Kristine L. Bell, Zhi Tian (Second изд.). Hoboken, N.J. ISBN 978-1-299-66515-6. OCLC 851161356.
^ Hurst, Simon. „The Characteristic Function of the Student t Distribution”. Financial Mathematics Research Report No. FMRR006-95, Statistics Research Report No. SRR044-95. Архивирано из оригинала 18. 2. 2010. г.
^ Norton, Matthew; Khokhlov, Valentyn; Uryasev, Stan (2019). „Calculating CVaR and bPOE for common probability distributions with application to portfolio optimization and density estimation” (PDF). Annals of Operations Research. Springer. 299 (1-2): 1281—1315. doi:10.1007/s10479-019-03373-1. Архивирано из оригинала (PDF) 31. 03. 2023. г. Приступљено 2023-02-27.

Literatura

Edwards, A.W.F (2002). Pascal's arithmetical triangle: the story of a mathematical idea (2nd изд.). JHU Press. ISBN 0-8018-6946-3.
Huygens, Christiaan (1657). De ratiociniis in ludo aleæ (English translation, published in 1714).
Blitzstein, Joe; Hwang, Jessica (2014). Introduction to Probability. CRC Press. ISBN 9781466575592.
Fristedt, Bert; Gray, Lawrence (1996). A modern approach to probability theory. Boston: Birkhäuser. ISBN 3-7643-3807-5.
Kallenberg, Olav (1986). Random Measures (4th изд.). Berlin: Akademie Verlag. ISBN 0-12-394960-2. MR 0854102.
Kallenberg, Olav (2001). Foundations of Modern Probability (2nd изд.). Berlin: Springer Verlag. ISBN 0-387-95313-2.
Papoulis, Athanasios (1965). Probability, Random Variables, and Stochastic Processes (9th изд.). Tokyo: McGraw–Hill. ISBN 0-07-119981-0.
Yates, Daniel S.; Moore, David S; Starnes, Daren S. (2003). The Practice of Statistics (2nd изд.). New York: Freeman. ISBN 978-0-7167-4773-4. Архивирано из оригинала 2005-02-09. г.
„Random Variables”. www.stat.yale.edu. Приступљено 2020-08-21.
Dekking, Frederik Michel; Kraaikamp, Cornelis; Lopuhaä, Hendrik Paul; Meester, Ludolf Erwin (2005). „A Modern Introduction to Probability and Statistics”. Springer Texts in Statistics (на језику: енглески). ISBN 978-1-85233-896-1. ISSN 1431-875X. doi:10.1007/1-84628-168-7.
L. Castañeda; V. Arunachalam; S. Dharmaraja (2012). Introduction to Probability and Stochastic Processes with Applications. Wiley. стр. 67. ISBN 9781118344941.
Bertsekas, Dimitri P. (2002). Introduction to Probability. Tsitsiklis, John N., Τσιτσικλής, Γιάννης Ν. Belmont, Mass.: Athena Scientific. ISBN 188652940X. OCLC 51441829.
Strang, Gilbert; Borre, Kae (1997). Linear algebra, geodesy, and GPS (на језику: енглески). Wellesley-Cambridge Press. стр. 301. ISBN 9780961408862.
Koch, Karl-Rudolf (2013). Parameter Estimation and Hypothesis Testing in Linear Models (на језику: енглески). Springer Berlin Heidelberg. Section 3.2.5. ISBN 9783662039762.
Senn, S.; Richardson, W. (1994). „The first t-test”. Statistics in Medicine. 13 (8): 785—803. PMID 8047737. doi:10.1002/sim.4780130802.
Hogg RV, Craig AT (1978). Introduction to Mathematical Statistics (4th изд.). New York: Macmillan. ASIN B010WFO0SA.
Venables, W. N.; Ripley, B. D. (2002). Modern Applied Statistics with S (Fourth изд.). Springer.
Gelman, Andrew; John B. Carlin; Hal S. Stern; Donald B. Rubin (2003). Bayesian Data Analysis (Second изд.). CRC/Chapman & Hall. ISBN 1-58488-388-X.

Spoljašnje veze

Mathematica demonstration showing the sampling distribution of various statistics (e.g. Σx²) for a normal population

[1] Everitt, B. S. (2003). The Cambridge Dictionary of Statistics. CUP. ISBN 978-0-521-81099-9.

[2] Merberg, A. and S.J. Miller (2008). "The Sample Distribution of the Median". Course Notes for Math 162: Mathematical Statistics, pgs 1–9.

[3] Kenney, J.; Keeping, E. S. (1963). Mathematics of Statistics. van Nostrand. стр. 187.

[4] Zwillinger, D. (1995). Standard Mathematical Tables and Formulae. Chapman&Hall/CRC. стр. 626. ISBN 0-8493-2479-3.

[5] Hayashi, Fumio (2000). Econometrics. Princeton University Press. ISBN 0-691-01018-8.

[6] Gurland, J; Tripathi RC (1971). „A simple approximation for unbiased estimation of the standard deviation”. American Statistician. 25 (4): 30—32. JSTOR 2682923. doi:10.2307/2682923.

[7] Sokal; Rohlf (1981). Biometry: Principles and Practice of Statistics in Biological Research (2nd изд.). стр. 53. ISBN 978-0-7167-1254-1.

[8] Hutchinson, T. P. Essentials of Statistical Methods, in 41 pages. Adelaide: Rumsby. ISBN 978-0-646-12621-0.

[9] Cornell, J R, and Benjamin, C A, Probability, Statistics, and Decisions for Civil Engineers, McGraw-Hill, NY, 1970, pp.178-9.

[10] Haight, Frank A. (1967). Handbook of the Poisson Distribution. New York, NY, US: John Wiley & Sons. ISBN 978-0-471-33932-8.

[Poisson1837-11] Poisson, Siméon D. (1837). Probabilité des jugements en matière criminelle et en matière civile, précédées des règles générales du calcul des probabilités [Research on the Probability of Judgments in Criminal and Civil Matters] (на језику: француски). Paris, France: Bachelier.

[12] Van Trees, Harry L. (2013). Detection estimation and modulation theory. Kristine L. Bell, Zhi Tian (Second изд.). Hoboken, N.J. ISBN 978-1-299-66515-6. OCLC 851161356.

[13] Hurst, Simon. „The Characteristic Function of the Student t Distribution”. Financial Mathematics Research Report No. FMRR006-95, Statistics Research Report No. SRR044-95. Архивирано из оригинала 18. 2. 2010. г.

[norton-14] Norton, Matthew; Khokhlov, Valentyn; Uryasev, Stan (2019). „Calculating CVaR and bPOE for common probability distributions with application to portfolio optimization and density estimation” (PDF). Annals of Operations Research. Springer. 299 (1-2): 1281—1315. doi:10.1007/s10479-019-03373-1. Архивирано из оригинала (PDF) 31. 03. 2023. г. Приступљено 2023-02-27.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]